高中生美女视频xx视频,杨幂大尺度视频,杨幂化妆视频

C++代碼優(yōu)化

    談到優(yōu)化，很多人都會直接想到匯編。難道優(yōu)化只能在匯編層次嗎？當然不是，C++層次一樣可以作代碼優(yōu)化，其中有些常常是意想不到的。在C++層次進行優(yōu)化，比在匯編層次優(yōu)化具有更好的移植性，應(yīng)該是優(yōu)化中的首選做法。
1.確定浮點型變量和表達式是 float 型
    為了讓編譯器產(chǎn)生更好的代碼(比如說產(chǎn)生3DNow! 或SSE指令的代碼)，必須確定浮點型變量和表達式是 float 型的。要特別注意的是，以 "；F"；或 "；f"；為后綴（比如：3.14f）的浮點常量才是 float 型，否則默認是 double 型。為了避免 float 型參數(shù)自動轉(zhuǎn)化為 double，請在函數(shù)聲明時使用 float。
2.使用32位的數(shù)據(jù)類型
　　編譯器有很多種，但它們都包含的典型的32位類型是：int，signed，signed int，unsigned，unsigned int，long，signed long，long int，signed long int，unsigned long，unsigned long int。盡量使用32位的數(shù)據(jù)類型，因為它們比16位的數(shù)據(jù)甚至8位的數(shù)據(jù)更有效率。
3.明智使用有符號整型變量
　　在很多情況下，你需要考慮整型變量是有符號還是無符號類型的。比如，保存一個人的體重數(shù)據(jù)時不可能出現(xiàn)負數(shù)，所以不需要使用有符號類型。但是，如果是要保存溫度數(shù)據(jù)，就必須使用到有符號的變量。
　　在許多地方，考慮是否使用有符號的變量是必要的。在一些情況下，有符號的運算比較快；但在一些情況下卻相反。
　　比如：整型到浮點轉(zhuǎn)化時，使用大于16位的有符號整型比較快。因為x86構(gòu)架中提供了從有符號整型轉(zhuǎn)化到浮點型的指令，但沒有提供從無符號整型轉(zhuǎn)化到浮點的指令?？纯淳幾g器產(chǎn)生的匯編代碼：
　　不好的代碼：
編譯前      編譯后
double x；    mov [foo + 4], 0
unsigned int i；   mov eax, i
x = i；     mov [foo], eax
     flid qword ptr [foo]
     fstp qword ptr [x]
　　上面的代碼比較慢。不僅因為指令數(shù)目比較多，而且由于指令不能配對造成的FLID指令被延遲執(zhí)行。最好用以下代碼代替：
    推薦的代碼：
編譯前     編譯后
double x；    fild dword ptr
int i；     fstp qword ptr [x]
x = i；
　　在整數(shù)運算中計算商和余數(shù)時，使用無符號類型比較快。以下這段典型的代碼是編譯器產(chǎn)生的32位整型數(shù)除以4的代碼：
　　不好的代碼
編譯前      編譯后
int i；     mov eax, i
i = i / 4；     cdq
     and edx, 3
     add eax, edx
     sar eax, 2
     mov i, eax
    推薦的代碼
編譯前      編譯后
unsigned int i；    shr i, 2
i = i / 4；
　總結(jié)：
　無符號類型用于：除法和余數(shù),循環(huán)計數(shù),數(shù)組下標
有符號類型用于：整型到浮點的轉(zhuǎn)化
4.while VS. for
　　在編程中，我們常常需要用到無限循環(huán)，常用的兩種方法是while (1) 和 for (；；)。這兩種方法效果完全一樣，但那一種更好呢？然我們看看它們編譯后的代碼：
編譯前      編譯后
while (1)；     mov eax,1
     test eax,eax
     je foo+23h
     jmp foo+18h
編譯前      編譯后
for (；；)；     jmp foo+23h
　　一目了然，for (；；)指令少，不占用寄存器，而且沒有判斷跳轉(zhuǎn)，比while (1)好。
5.使用數(shù)組型代替指針型
　　使用指針會使編譯器很難優(yōu)化它。因為缺乏有效的指針代碼優(yōu)化的方法，編譯器總是假設(shè)指針可以訪問內(nèi)存的任意地方，包括分配給其他變量的儲存空間。所以為了編譯器產(chǎn)生優(yōu)化得更好的代碼，要避免在不必要的地方使用指針。一個典型的例子是訪問存放在數(shù)組中的數(shù)據(jù)。C++ 允許使用操作符 [] 或指針來訪問數(shù)組，使用數(shù)組型代碼會讓優(yōu)化器減少產(chǎn)生不安全代碼的可能性。比如，x[0] 和x[2] 不可能是同一個內(nèi)存地址，但 *p 和 *q 可能。強烈建議使用數(shù)組型，因為這樣可能會有意料之外的性能提升。
    不好的代碼
typedef struct
{
　　float x,y,z,w；
} VERTEX；
typedef struct

{
　　float m[4][4]；
} MATRIX；
void XForm(float* res, const float* v, const float* m, int nNumVerts)
{
　　float dp；
　　int i；
　　　const VERTEX* vv = (VERTEX *)v；
　　　for (i = 0； i <； nNumVerts； i++)
　　{
　　　　dp = vv->；x * *m ++；
　　　　dp += vv->；y * *m ++；
　　　　dp += vv->；z * *m ++；
　　　　dp += vv->；w * *m ++；
　　　　*res ++ = dp；　　　　　　// 寫入轉(zhuǎn)換了的 x
　　　　dp = vv->；x * *m ++；
　　　　dp += vv->；y * *m ++；
　　　　dp += vv->；z * *m ++；
　　　　dp += vv->；w * *m ++；
　　　　*res ++ = dp；　　　　　// 寫入轉(zhuǎn)換了的 y
　　　　dp = vv->；x * *m ++；
　　　　dp += vv->；y * *m ++；
　　　　dp += vv->；z * *m ++；
　　　　dp += vv->；w * *m ++；
　　　　*res ++ = dp；　　　　// 寫入轉(zhuǎn)換了的 z
　　　　dp = vv->；x * *m ++；
　　　　dp += vv->；y * *m ++；
　　　　dp += vv->；z * *m ++；
　　　　dp += vv->；w * *m ++；
　　　　*res ++ = dp；　　　　// 寫入轉(zhuǎn)換了的 w
　　　　vv ++；　　　　　　　 // 下一個矢量
　　　　m -= 16；
　　}
}
    推薦的代碼
typedef struct
{
　　float x,y,z,w；
} VERTEX；
typedef struct
{
　　float m[4][4]；
} MATRIX；
void XForm (float* res, const float* v, const float* m, int nNumVerts)
{
　　int i；
　　const VERTEX* vv = (VERTEX*)v；
　　const MATRIX* mm = (MATRIX*)m；
　　VERTEX* rr = (VERTEX*)res；
　　for (i = 0； i <； nNumVerts； i++)
　　{
　　　　rr->；x = vv->；x * mm->；m[0][0] + vv->；y * mm->；m[0][1]
　　　　　　　　+ vv->；z * mm->；m[0][2] + vv->；w * mm->；m[0][3]；
　　　　rr->；y = vv->；x * mm->；m[1][0] + vv->；y * mm->；m[1][1]
　　　　　　　　+ vv->；z * mm->；m[1][2] + vv->；w * mm->；m[1][3]；
　　　　rr->；z = vv->；x * mm->；m[2][0] + vv->；y * mm->；m[2][1]
　　　　　　　　+ vv->；z * mm->；m[2][2] + vv->；w * mm->；m[2][3]；
　　　　rr->；w = vv->；x * mm->；m[3][0] + vv->；y * mm->；m[3][1]
　　　　　　　　+ vv->；z * mm->；m[3][2] + vv->；w * mm->；m[3][3]；
　　}
}
　　注意: 源代碼的轉(zhuǎn)化是與編譯器的代碼發(fā)生器相結(jié)合的。從源代碼層次很難控制產(chǎn)生的機器碼。依靠編譯器和特殊的源代碼，有可能指針型代碼編譯成的機器碼比同等條件下的數(shù)組型代碼運行速度更快。明智的做法是在源代碼轉(zhuǎn)化后檢查性能是否真正提高了，再選擇使用指針型還是數(shù)組型。
6.充分分解小的循環(huán)
　　要充分利用CPU的指令緩存，就要充分分解小的循環(huán)。特別是當循環(huán)體本身很小的時候，分解循環(huán)可以提高性能。BTW:很多編譯器并不能自動分解循環(huán)。
不好的代碼推薦的代碼
// 3D轉(zhuǎn)化：把矢量 V 和 4x4 矩陣 M 相乘
for (i = 0； i <； 4； i ++)
{
　　r = 0；
　　for (j = 0； j <； 4； j ++)
　　{
　　　　r += M[j]*V[j]；
　　}
}
r[0] = M[0][0]*V[0] + M[1][0]*V[1] + M[2][0]*V[2] + M[3][0]*V[3]；
r[1] = M[0][1]*V[0] + M[1][1]*V[1] + M[2][1]*V[2] + M[3][1]*V[3]；
r[2] = M[0][2]*V[0] + M[1][2]*V[1] + M[2][2]*V[2] + M[3][2]*V[3]；
r[3] = M[0][3]*V[0] + M[1][3]*V[1] + M[2][3]*V[2] + M[3][3]*v[3]；
7.避免沒有必要的讀寫依賴
　　當數(shù)據(jù)保存到內(nèi)存時存在讀寫依賴，即數(shù)據(jù)必須在正確寫入后才能再次讀取。雖然AMD Athlon等CPU有加速讀寫依賴延遲的硬件，允許在要保存的數(shù)據(jù)被寫入內(nèi)存前讀取出來，但是，如果避免了讀寫依賴并把數(shù)據(jù)保存在內(nèi)部寄存器中，速度會更快。在一段很長的又互相依賴的代碼鏈中，避免讀寫依賴顯得尤其重要。如果讀寫依賴發(fā)生在操作數(shù)組時，許多編譯器不能自動優(yōu)化代碼以避免讀寫依賴。所以推薦程序員手動去消除讀寫依賴，舉例來說，引進一個可以保存在寄存器中的臨時變量。這樣可以有很大的性能提升。下面一段代碼是一個例子：
    不好的代碼
float x[VECLEN], y[VECLEN], z[VECLEN]；
......
for (unsigned int k = 1； k <； VECLEN； k ++)
{
　　x[k] = x[k-1] + y[k]；
}
for (k = 1； k <； VECLEN； k++)
{
　　x[k] = z[k] * (y[k] - x[k-1])；
}
　　推薦的代碼
float x[VECLEN], y[VECLEN], z[VECLEN]；
......
float t(x[0])；
for (unsigned int k = 1； k <； VECLEN； k ++)
{
　　t = t + y[k]；
　　x[k] = t；
}
t = x[0]；
for (k = 1； k <； VECLEN； k ++)
{
　　t = z[k] * (y[k] - t)；
　　x[k] = t；
}
8.Switch 的用法
　　Switch 可能轉(zhuǎn)化成多種不同算法的代碼。其中最常見的是跳轉(zhuǎn)表和比較鏈/樹。推薦對case的值依照發(fā)生的可能性進行排序，把最有可能的放在第一個，當switch用比較鏈的方式轉(zhuǎn)化時，這樣可以提高性能。此外，在case中推薦使用小的連續(xù)的整數(shù)，因為在這種情況下，所有的編譯器都可以把switch 轉(zhuǎn)化成跳轉(zhuǎn)表。
    不好的代碼
int days_in_month, short_months, normal_months, long_months；
......
switch (days_in_month)
{
　　case 28:
　　case 29:
　　　　short_months ++；
　　　　break；
　　case 30:
　　　　normal_months ++；
　　　　break；
　　case 31:
　　　　long_months ++；
　　　　break；
　　default:
　　　　cout <；<； "；month has fewer than 28 or more than 31 days"； <；<； endl；
　　　　break；
}
    推薦的代碼
int days_in_month, short_months, normal_months, long_months；
......
switch (days_in_month)
{
　　case 31:
　　　　long_months ++；
　　　　break；
　　case 30:
　　　　normal_months ++；
　　　　break；
　　case 28:
　　case 29:
　　　　short_months ++；
　　　　break；
　　default:
　　　　cout <；<； "；month has fewer than 28 or more than 31 days"； <；<； endl；
　　　　break；
}
9.所有函數(shù)都應(yīng)該有原型定義
　　一般來說，所有函數(shù)都應(yīng)該有原型定義。原型定義可以傳達給編譯器更多的可能用于優(yōu)化的信息。
　　盡可能使用常量(const)。C++ 標準規(guī)定，如果一個const聲明的對象的地址不被獲取，允許編譯器不對它分配儲存空間。這樣可以使代碼更有效率，而且可以生成更好的代碼。
10.提升循環(huán)的性能
　　要提升循環(huán)的性能，減少多余的常量計算非常有用（比如，不隨循環(huán)變化的計算）。
　　不好的代碼(在for()中包含不變的if()) 推薦的代碼
for( i ... )
{
　　if( CONSTANT0 )
　　{
　　　　DoWork0( i )； // 假設(shè)這里不改變CONSTANT0的值
　　}
　　else
　　{
　　　　DoWork1( i )； // 假設(shè)這里不改變CONSTANT0的值
　　}
}
if( CONSTANT0 )
{
　　for( i ... )
　　{
　　　　DoWork0( i )；
　　}
}
else
{
　　for( i ... )
　　{
　　　　DoWork1( i )；
　　}
}
　　如果已經(jīng)知道if()的值，這樣可以避免重復(fù)計算。雖然不好的代碼中的分支可以簡單地預(yù)測，但是由于推薦的代碼在進入循環(huán)前分支已經(jīng)確定，就可以減少對分支預(yù)測的依賴。　　把本地函數(shù)聲明為靜態(tài)的(static)
　　如果一個函數(shù)在實現(xiàn)它的文件外未被使用的話，把它聲明為靜態(tài)的(static)以強制使用內(nèi)部連接。否則，默認的情況下會把函數(shù)定義為外部連接。這樣可能會影響某些編譯器的優(yōu)化——比如，自動內(nèi)聯(lián)。
11.考慮動態(tài)內(nèi)存分配
　　動態(tài)內(nèi)存分配（C++中的"；new"；）可能總是為長的基本類型（四字對齊）返回一個已經(jīng)對齊的指針。但是如果不能保證對齊，使用以下代碼來實現(xiàn)四字對齊。這段代碼假設(shè)指針可以映射到 long 型。
　　例子
　　double* p = (double*)new BYTE[sizeof(double) * number_of_doubles+7L]；
    double* np = (double*)((long(p) + 7L) &； –8L)；
　　現(xiàn)在，你可以使用 np 代替 p 來訪問數(shù)據(jù)。注意：釋放儲存空間時仍然應(yīng)該用delete p。
12.使用顯式的并行代碼
　　盡可能把長的有依賴的代碼鏈分解成幾個可以在流水線執(zhí)行單元中并行執(zhí)行的沒有依賴的代碼鏈。因為浮點操作有很長的潛伏期，所以不管它被映射成 x87 或 3DNow! 指令，這都很重要。很多高級語言，包括C++，并不對產(chǎn)生的浮點表達式重新排序，因為那是一個相當復(fù)雜的過程。需要注意的是，重排序的代碼和原來的代碼在代數(shù)上一致并不等價于計算結(jié)果一致，因為浮點操作缺乏精確度。在一些情況下，這些優(yōu)化可能導(dǎo)致意料之外的結(jié)果。幸運的是，在大部分情況下，最后結(jié)果可能只有最不重要的位（即最低位）是錯誤的。
　　不好的代碼
double a[100], sum；
int i；
sum = 0.0f；
for (i=0； i<；100； i++)
　　sum += a；
    推薦的代碼
double a[100], sum1, sum2, sum3, sum4, sum；
int i；
sum1 = sum2 = sum3 = sum4 = 0.0；
for (i = 0； i <； 100； i += 4)
{
　　sum1 += a；
　　sum2 += a[i+1]；
　　sum3 += a[i+2]；
　　sum4 += a[i+3]；
}
sum = (sum4+sum3)+(sum1+sum2)；
　　要注意的是：使用4 路分解是因為這樣使用了4階段流水線浮點加法，浮點加法的每一個階段占用一個時鐘周期，保證了最大的資源利用率。
13.提出公共子表達式
　　在某些情況下，C++編譯器不能從浮點表達式中提出公共的子表達式，因為這意味著相當于對表達式重新排序。需要特別指出的是，編譯器在提取公共子表達式前不能按照代數(shù)的等價關(guān)系重新安排表達式。這時，程序員要手動地提出公共的子表達式（在VC.net里有一項“全局優(yōu)化”選項可以完成此工作，但效果就不得而知了）。
推薦的代碼
float a, b, c, d, e, f；
...
e = b * c / d；
f = b / d * a；
float a, b, c, d, e, f；
...
const float t(b / d)；
e = c * t；
f = a * t；
推薦的代碼
float a, b, c, e, f；
...
e = a / c；
f = b / c；
float a, b, c, e, f；
...
const float t(1.0f / c)；
e = a * t；
f = b * t；
14.結(jié)構(gòu)體成員的布局
　　很多編譯器有“使結(jié)構(gòu)體字，雙字或四字對齊”的選項。但是，還是需要改善結(jié)構(gòu)體成員的對齊，有些編譯器可能分配給結(jié)構(gòu)體成員空間的順序與他們聲明的不同。但是，有些編譯器并不提供這些功能，或者效果不好。所以，要在付出最少代價的情況下實現(xiàn)最好的結(jié)構(gòu)體和結(jié)構(gòu)體成員對齊，建議采取這些方法：
　　A按類型長度排序
　　把結(jié)構(gòu)體的成員按照它們的類型長度排序，聲明成員時把長的類型放在短的前面。
　　把結(jié)構(gòu)體填充成最長類型長度的整倍數(shù)
　　把結(jié)構(gòu)體填充成最長類型長度的整倍數(shù)。照這樣，如果結(jié)構(gòu)體的第一個成員對齊了，所有整個結(jié)構(gòu)體自然也就對齊了。下面的例子演示了如何對結(jié)構(gòu)體成員進行重新排序：
　　不好的代碼，普通順序推薦的代碼，新的順序并手動填充了幾個字節(jié)
struct
{
　　char a[5]；
　　long k；
　　double x；
} baz；
struct
{
　　double x；
　　long k；
　　char a[5]；
char pad[7]；
} baz；

　　這個規(guī)則同樣適用于類的成員的布局。
　　B按數(shù)據(jù)類型的長度排序本地變量
　　當編譯器分配給本地變量空間時，它們的順序和它們在源代碼中聲明的順序一樣，和上一條規(guī)則一樣，應(yīng)該把長的變量放在短的變量前面。如果第一個變量對齊了，其它變量就會連續(xù)的存放，而且不用填充字節(jié)自然就會對齊。有些編譯器在分配變量時不會自動改變變量順序，有些編譯器不能產(chǎn)生4字節(jié)對齊的棧，所以4字節(jié)可能不對齊。下面這個例子演示了本地變量聲明的重新排序：
　　不好的代碼，普通順序推薦的代碼，改進的順序
short ga, gu, gi；
long foo, bar；
double x, y, z[3]；
char a, b；
float baz；
double z[3]；
double x, y；
long foo, bar；
float baz；
short ga, gu, gi；
14.避免不必要的整數(shù)除法
　　整數(shù)除法是整數(shù)運算中最慢的，所以應(yīng)該盡可能避免。一種可能減少整數(shù)除法的地方是連除，這里除法可以由乘法代替。這個替換的副作用是有可能在算乘積時會溢出，所以只能在一定范圍的除法中使用。
　　不好的代碼推薦的代碼
int i, j, k, m；
m = i / j / k；
int i, j, k, m；
m = i / (j * k)；
15.把頻繁使用的指針型參數(shù)拷貝到本地變量
　　避免在函數(shù)中頻繁使用指針型參數(shù)指向的值。因為編譯器不知道指針之間是否存在沖突，所以指針型參數(shù)往往不能被編譯器優(yōu)化。這樣是數(shù)據(jù)不能被存放在寄存器中，而且明顯地占用了內(nèi)存帶寬。注意，很多編譯器有“假設(shè)不沖突”優(yōu)化開關(guān)（在VC里必須手動添加編譯器命令行/Oa或/Ow），這允許編譯器假設(shè)兩個不同的指針總是有不同的內(nèi)容，這樣就不用把指針型參數(shù)保存到本地變量。否則，請在函數(shù)一開始把指針指向的數(shù)據(jù)保存到本地變量。如果需要的話，在函數(shù)結(jié)束前拷貝回去。　　
    不好的代碼
// 假設(shè) q != r
void isqrt(unsigned long a, unsigned long* q, unsigned long* r)
{
　　*q = a；
　　if (a >； 0)
　　{
　　　　while (*q >； (*r = a / *q))
　　　　{
　　　　　　*q = (*q + *r) >；>； 1；
　　　　}
　　}
　　*r = a - *q * *q；
}
    推薦的代碼
// 假設(shè) q != r
void isqrt(unsigned long a, unsigned long* q, unsigned long* r)
{
　　unsigned long qq, rr；
　　qq = a；
　　if (a >； 0)
　　{
　　　　while (qq >； (rr = a / qq))
　　　　{
　　　　　　qq = (qq + rr) >；>； 1；
　　　　}
　　}
　　rr = a - qq * qq；
　　*q = qq；
　　*r = rr；
}
16.賦值與初始化
先看看以下代碼：
class CInt
{
　　int m_i；
public:
　　CInt(int a = 0):m_i(a) { cout <；<； "；CInt"； <；<； endl； }
　　~CInt() { cout <；<； "；~CInt"； <；<； endl； }
　　CInt operator + (const CInt&； a) { return CInt(m_i + a.GetInt())； }
　　void SetInt(const int i)　　{ m_i = i； }
　　int GetInt() const　　　　　　{ return m_i； }
}；
    不好的代碼
void main()
{
　　CInt a, b, c；
　　a.SetInt(1)；
　　b.SetInt(2)；
　　c = a + b；
}
    推薦的代碼
void main()
{
　　CInt a(1), b(2)；
　　CInt c(a + b)；
}
　　這兩段代碼所作的事都一樣，但那一個更好呢？看看輸出結(jié)果就會發(fā)現(xiàn)，不好的代碼輸出了四個"；CInt"；和四個"；~CInt"；，而推薦的代碼只輸出三個。也就是說，第二個例子比第一個例子少生成一次臨時對象。Why? 請注意，第一個中的c用的是先聲明再賦值的方法，第二個用的是初始化的方法，它們有本質(zhì)的區(qū)別。第一個例子的"；c = a + b"；先生成一個臨時對象用來保存a + b的值，再把該臨時對象用位拷貝的方法給c賦值，然后臨時對象被銷毀。這個臨時對象就是那個多出來的對象。第二個例子直接用拷貝構(gòu)造函數(shù)的方法對c初始化，不產(chǎn)生臨時對象。所以，盡量在需要使用一個對象時才聲明，并用初始化的方法賦初值。
17.盡量使用成員初始化列表
　　在初始化類的成員時，盡量使用成員初始化列表而不是傳統(tǒng)的賦值方式。
　　不好的代碼
class CMyClass
{
　　string strName；
public:
　　CMyClass(const string&； str)；
}；
CMyClass::CMyClass(const string&； str)
{
　　strName = str；
}
    推薦的代碼
class CMyClass
{
　　string strName；
　　int i；
public:
　　CMyClass(const string&； str)；
}；
CMyClass::CMyClass(const string&；str)
   :strName(str)
{

}
　　不好的例子用的是賦值的方式。這樣，strName會先被建立（調(diào)用了string的默認構(gòu)造函數(shù)），再由參數(shù)str賦值。而推薦的例子用的是成員初始化列表，strName直接構(gòu)造為str，少調(diào)用一次默認構(gòu)造函數(shù)，還少了一些安全隱患。

Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=561292

[點擊此處收藏本文] 發(fā)表于 2005年12月24日 9:36 PM

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看