匯編語言和CPU以及內存,端口等硬件知識是連在一起的. 這也是為什么匯編語言沒有通用性的原因. 下面簡單講講基本知識(針對INTELx86及其兼容機) ============================x86匯編語言的指令,其操作對象是CPU上的寄存器,系統(tǒng)內存,或者立即數(shù). 有些指令表面上沒有操作數(shù), 或者看上去缺少操作數(shù),其實該指令有內定的操作對象, 比如push指令, 一定是對SS:ESP指定的內存操作, 而cdq的操作對象一定是eax / edx.在匯編語言中,寄存器用名字來訪問. CPU 寄存器有好幾類, 分別有不同的用處: 1. 通用寄存器:EAX,EBX,ECX,EDX,ESI,EDI,EBP,ESP(這個雖然通用,但很少被用做除了堆棧指針外的用途)這些32位可以被用作多種用途,但每一個都有"專長". EAX 是"累加器"(accumulator), 它是很多加法乘法指令的缺省寄存器.EBX 是"基地址"(base)寄存器, 在內存尋址時存放基地址. ECX 是計數(shù)器(counter),是重復(REP)前綴指令和LOOP指令的內定計數(shù)器. EDX是...(忘了..哈哈)但它總是被用來放整數(shù)除法產生的余數(shù).這4個寄存器的低16位可以被單獨訪問,分別用AX,BX,CX和DX. AX又可以單獨訪問低8位(AL)和高8位(AH),BX,CX,DX也類似. 函數(shù)的返回值經常被放在EAX中. ESI/EDI分別叫做"源/目標索引寄存器"(source/destinationindex),因為在很多字符串操作指令中, DS:ESI指向源串,而ES:EDI指向目標串. EBP是"基址指針"(BASEPOINTER), 它最經常被用作高級語言函數(shù)調用的"框架指針"(frame pointer).在破解的時候,經??梢钥匆娨粋€標準的函數(shù)起始代碼: push ebp ;保存當前ebp mov ebp,esp ;EBP設為當前堆棧指針sub esp, xxx ;預留xxx字節(jié)給函數(shù)臨時變量. ... 這樣一來,EBP 構成了該函數(shù)的一個框架,在EBP上方分別是原來的EBP, 返回地址和參數(shù). EBP下方則是臨時變量. 函數(shù)返回時作 mov esp,ebp/pop ebp/ret即可. ESP 專門用作堆棧指針. 2. 段寄存器: CS(Code Segment,代碼段) 指定當前執(zhí)行的代碼段. EIP(Instruction pointer, 指令指針)則指向該段中一個具體的指令. CS:EIP指向哪個指令, CPU 就執(zhí)行它.一般只能用jmp, ret, jnz, call 等指令來改變程序流程,而不能直接對它們賦值. DS(DATA SEGMENT, 數(shù)據段)指定一個數(shù)據段. 注意:在當前的計算機系統(tǒng)中, 代碼和數(shù)據沒有本質差別, 都是一串二進制數(shù), 區(qū)別只在于你如何用它. 例如, CS制定的段總是被用作代碼, 一般不能通過CS指定的地址去修改該段. 然而,你可以為同一個段申請一個數(shù)據段描述符"別名"而通過DS來訪問/修改.自修改代碼的程序常如此做. ES,FS,GS 是輔助的段寄存器, 指定附加的數(shù)據段. SS(STACK SEGMENT)指定當前堆棧段.ESP 則指出該段中當前的堆棧頂. 所有push/pop 系列指令都只對SS:ESP指出的地址進行操作. 3. 標志寄存器(EFLAGS):該寄存器有32位,組合了各個系統(tǒng)標志. EFLAGS一般不作為整體訪問, 而只對單一的標志位感興趣. 常用的標志有:進位標志C(CARRY), 在加法產生進位或減法有借位時置1, 否則為0. 零標志Z(ZERO), 若運算結果為0則置1, 否則為0符號位S(SIGN), 若運算結果的最高位置1, 則該位也置1. 溢出標志O(OVERFLOW), 若(帶符號)運算結果超出可表示范圍,則置1. JXX 系列指令就是根據這些標志來決定是否要跳轉, 從而實現(xiàn)條件分枝. 要注意,很多JXX 指令是等價的, 對應相同的機器碼.例如, JE 和JZ 是一樣的,都是當Z=1是跳轉. 只有JMP 是無條件跳轉. JXX 指令分為兩組, 分別用于無符號操作和帶符號操作.JXX 后面的"XX" 有如下字母: 無符號操作: 帶符號操作: A = "ABOVE", 表示"高于" G = "GREATER",表示"大于" B = "BELOW", 表示"低于" L = "LESS", 表示"小于" C = "CARRY", 表示"進位"或"借位"O = "OVERFLOW", 表示"溢出" S = "SIGN", 表示"負" 通用符號: E = "EQUAL" 表示"等于", 等價于Z(ZERO) N = "NOT" 表示"非", 即標志沒有置位. 如JNZ "如果Z沒有置位則跳轉" Z = "ZERO", 與E同.如果仔細想一想,就會發(fā)現(xiàn) JA = JNBE, JAE = JNB, JBE = JNA, JG = JNLE, JGE= JNL, JL=JNGE, .... 4. 端口端口是直接和外部設備通訊的地方。外設接入系統(tǒng)后,系統(tǒng)就會把外設的數(shù)據接口映射到特定的端口地址空間,這樣,從該端口讀入數(shù)據就是從外設讀入數(shù)據,而向外設寫入數(shù)據就是向端口寫入數(shù)據。當然這一切都必須遵循外設的工作方式。端口的地址空間與內存地址空間無關,系統(tǒng)總共提供對64K個8位端口的訪問,編號0-65535.相鄰的8位端口可以組成成一個16位端口,相鄰的16位端口可以組成一個32位端口。端口輸入輸出由指令IN,OUT,INS和OUTS實現(xiàn),具體可參考匯編語言書籍。
匯編指令的操作數(shù)可以是內存中的數(shù)據, 如何讓程序從內存中正確取得所需要的數(shù)據就是對內存的尋址.
INTEL 的CPU 可以工作在兩種尋址模式:實模式和保護模式. 前者已經過時,就不講了, WINDOWS 現(xiàn)在是32位保護模式的系統(tǒng), PE 文件就基本是運行在一個32位線性地址空間, 所以這里就只介紹32位線性空間的尋址方式.
其實線性地址的概念是很直觀的, 就想象一系列字節(jié)排成一長隊,第一個字節(jié)編號為0, 第二個編號位1, ....一直到4294967295(十六進制FFFFFFFF,這是32位二進制數(shù)所能表達的最大值了). 這已經有4GB的容量!足夠容納一個程序所有的代碼和數(shù)據. 當然, 這并不表示你的機器有那么多內存. 物理內存的管理和分配是很復雜的內容, 初學者不必在意, 總之,從程序本身的角度看, 就好象是在那么大的內存中.
在INTEL系統(tǒng)中,內存地址總是由"段選擇符:有效地址"的方式給出.段選擇符(SELECTOR)存放在某一個段寄存器中, 有效地址則可由不同的方式給出.段選擇符通過檢索段描述符確定段的起始地址, 長度(又稱段限制), 粒度, 存取權限, 訪問性質等. 先不用深究這些,只要知道段選擇符可以確定段的性質就行了. 一旦由選擇符確定了段, 有效地址相對于段的基地址開始算. 比如由選擇符1A7選擇的數(shù)據段,其基地址是400000, 把1A7 裝入DS中, 就確定使用該數(shù)據段. DS:0 就指向線性地址400000. DS:1F5278就指向線性地址5E5278. 我們在一般情況下, 看不到也不需要看到段的起始地址, 只需要關心在該段中的有效地址就行了. 在32位系統(tǒng)中,有效地址也是由32位數(shù)字表示, 就是說, 只要有一個段就足以涵蓋4GB線性地址空間, 為什么還要有不同的段選擇符呢? 正如前面所說的,這是為了對數(shù)據進行不同性質的訪問. 非法的訪問將產生異常中斷, 而這正是保護模式的核心內容, 是構造優(yōu)先級和多任務系統(tǒng)的基礎.這里有涉及到很多深層的東西, 初學者先可不必理會.
有效地址的計算方式是: 基址+間址*比例因子+偏移量. 這些量都是指段內的相對于段起始地址的量度, 和段的起始地址沒有關系. 比如, 基址=100000, 間址=400, 比例因子=4, 偏移量=20000, 則有效地址為:
100000+400*4+20000=100000+1000+20000=121000. 對應的線性地址是400000+121000=521000. (注意, 都是十六進制數(shù)).
基址可以放在任何32位通用寄存器中, 間址也可以放在除ESP外的任何一個通用寄存器中. 比例因子可以是1, 2, 4 或8. 偏移量是立即數(shù).如: [EBP+EDX*8+200]就是一個有效的有效地址表達式. 當然, 多數(shù)情況下用不著這么復雜, 間址,比例因子和偏移量不一定要出現(xiàn).
內存的基本單位是字節(jié)(BYTE). 每個字節(jié)是8個二進制位, 所以每個字節(jié)能表示的最大的數(shù)是11111111, 即十進制的255. 一般來說,用十六進制比較方便, 因為每4個二進制位剛好等于1個十六進制位, 11111111b = 0xFF. 內存中的字節(jié)是連續(xù)存放的,兩個字節(jié)構成一個字(WORD), 兩個字構成一個雙字(DWORD). 在INTEL架構中, 采用small endian格式,即在內存中,高位字節(jié)在低位字節(jié)后面. 舉例說明:十六進制數(shù)803E7D0C, 每兩位是一個字節(jié), 在內存中的形式是: 0C 7D 3E 80.在32位寄存器中則是正常形式,如在EAX就是803E7D0C. 當我們的形式地址指向這個數(shù)的時候,實際上是指向第一個字節(jié),即0C.我們可以指定訪問長度是字節(jié), 字或者雙字. 假設DS:[EDX]指向第一個字節(jié)0C:
mov AL, byte ptr DS:[EDX] ;把字節(jié)0C存入AL
mov AX, word ptr DS:[EDX] ;把字7D0C存入AX
mov EAX, dword ptr DS:[EDX] ;把雙字803E7D0C存入EAX
在段的屬性中,有一個就是缺省訪問寬度.如果缺省訪問寬度為雙字(在32位系統(tǒng)中經常如此),那么要進行字節(jié)或字的訪問,就必須用byte/word ptr顯式地指明.
缺省段選擇:如果指令中只有作為段內偏移的有效地址,而沒有指明在哪一個段里的時候,有如下規(guī)則:
如果用ebp和esp作為基址或間址,則認為是在SS確定的段中;
其他情況,都認為是在DS確定的段中。
如果想打破這個規(guī)則,就必須使用段超越前綴。舉例如下:
mov eax, dword ptr [edx] ;缺省使用DS,把DS:[EDX]指向的雙字送入eax
mov ebx, dword ptr ES:[EDX] ;使用ES:段超越前綴,把ES:[EDX]指向的雙字送入ebx
堆棧:
堆棧是一種數(shù)據結構,嚴格地應該叫做“棧”。“堆”是另一種類似但不同的結構。SS 和 ESP是INTEL對棧這種數(shù)據結構的硬件支持。push/pop指令是專門針對棧結構的特定操作。SS指定一個段為棧段,ESP則指出當前的棧頂。pushxxx 指令作如下操作:
把ESP的值減去4;
把xxx存入SS:[ESP]指向的內存單元。
這樣,esp的值減小了4,并且SS:[ESP]指向新壓入的xxx. 所以棧是“倒著長”的,從高地址向低地址方向擴展。pop yyy指令做相反的操作,把SS:[ESP]指向的雙字送到y(tǒng)yy指定的寄存器或內存單元,然后把esp的值加上4。這時,認為該值已被彈出,不再在棧上了,因為它雖然還暫時存在在原來的棧頂位置,但下一個push操作就會把它覆蓋。因此,在棧段中地址低于esp的內存單元中的數(shù)據均被認為是未定義的。
最后,有一個要注意的事實是,匯編語言是面向機器的,指令和機器碼基本上是一一對應的,所以它們的實現(xiàn)取決于硬件.有些看似合理的指令實際上是不存在的,比如:
mov DS:[edx], ds:[ecx] ;內存單元之間不能直接傳送
mov DS, 1A7 ;段寄存器不能直接由立即數(shù)賦值
mov EIP, 3D4E7 ;不能對指令指針直接操作.
“匯編語言”作為一門語言,對應于高級語言的編譯器,我們需要一個“匯編器”來把匯編語言原文件匯編成機器可執(zhí)行的代碼。高級的匯編器如MASM,TASM等等為我們寫匯編程序提供了很多類似于高級語言的特征,比如結構化、抽象等。在這樣的環(huán)境中編寫的匯編程序,有很大一部分是面向匯編器的偽指令,已經類同于高級語言?,F(xiàn)在的匯編環(huán)境已經如此高級,即使全部用匯編語言來編寫windows的應用程序也是可行的,但這不是匯編語言的長處。匯編語言的長處在于編寫高效且需要對機器硬件精確控制的程序。而且我想這里的人學習匯編的目的多半是為了在破解時看懂反匯編代碼,很少有人真的要拿匯編語言編程序吧?(汗......)
好了,言歸正傳。大多數(shù)匯編語言書都是面向匯編語言編程的,我的帖是面向機器和反匯編的,希望能起到相輔相成的作用。有了前面兩篇的基礎,匯編語言書上對大多數(shù)指令的介紹應該能夠看懂、理解了。這里再講一講一些常見而操作比較復雜的指令。我這里講的都是機器的硬指令,不針對任何匯編器。
無條件轉移指令jmp:
這種跳轉指令有三種方式:短(short),近(near)和遠(far)。短是指要跳至的目標地址與當前地址前后相差不超過128字節(jié)。近是指跳轉的目標地址與當前地址在用一個段內,即CS的值不變,只改變EIP的值。遠指跳到另一個代碼段去執(zhí)行,CS/EIP都要改變。短和近在編碼上有所不同,在匯編指令中一般很少顯式指定,只要寫 jmp目標地址,幾乎任何匯編器都會根據目標地址的距離采用適當?shù)木幋a。遠轉移在32位系統(tǒng)中很少見到,原因前面已經講過,由于有足夠的線性空間,一個程序很少需要兩個代碼段,就連用到的系統(tǒng)模塊也被映射到同一個地址空間。
jmp的操作數(shù)自然是目標地址,這個指令支持直接尋址和間接尋址。間接尋址又可分為寄存器間接尋址和內存間接尋址。舉例如下(32位系統(tǒng)):
jmp 8E347D60 ;直接尋址段內跳轉
jmp EBX ;寄存器間接尋址:只能段內跳轉
jmp dword ptr [EBX] ;內存間接尋址,段內跳轉
jmp dword ptr [00903DEC] ;同上
jmp fward ptr [00903DF0] ;內存間接尋址,段間跳轉
解釋:
在32位系統(tǒng)中,完整目標地址由16位段選擇子和32位偏移量組成。因為寄存器的寬度是32位,因此寄存器間接尋址只能給出32位偏移量,所以只能是段內近轉移。在內存間接尋址時,指令后面是方括號內的有效地址,在這個地址上存放跳轉的目標地址。比如,在[00903DEC]處有如下數(shù)據:7C
82 59 00 A7
01 85 65 9F 01
內存字節(jié)是連續(xù)存放的,如何確定取多少作為目標地址呢?dword ptr 指明該有效地址指明的是雙字,所以取
0059827C作段內跳轉。反之,fward ptr 指明后面的有效地址是指向48位完全地址,所以取19F:658501A7 做遠跳轉。
注意:在保護模式下,如果段間轉移涉及優(yōu)先級的變化,則有一系列復雜的保護檢查,現(xiàn)在可不加理會。將來等各位功力提升以后可以自己去學習。
條件轉移指令jxx:只能作段內轉移,且只支持直接尋址。
=========================================
調用指令CALL:
Call的尋址方式與jmp基本相同,但為了從子程序返回,該指令在跳轉以前會把緊接著它的下一條指令的地址壓進堆棧。如果是段內調用(目標地址是32位偏移量),則壓入的也只是一個偏移量。如果是段間調用(目標地址是48位全地址),則也壓入下一條指令的完全地址。同樣,如果段間轉移涉及優(yōu)先級的變化,則有一系列復雜的保護檢查。
與之對應retn/retf指令則從子程序返回。它從堆棧上取得返回地址(是call指令壓進去的)并跳到該地址執(zhí)行。retn取32位偏移量作段內返回,retf取48位全地址作段間返回。retn/f還可以跟一個立即數(shù)作為操作數(shù),該數(shù)實際上是從堆棧上傳給子程序的參數(shù)的個數(shù)(以字計)返回后自動把堆棧指針esp加上指定的數(shù)*2,從而丟棄堆棧中的參數(shù)。這里具體的細節(jié)留待下一篇講述。
雖然call和ret設計為一起工作,但它們之間沒有必然的聯(lián)系。就是說,如果你直接用push指令向堆棧中壓入一個數(shù),然后執(zhí)行ret,他同樣會把你壓入的數(shù)作為返回地址,而跳到那里去執(zhí)行。這種非正常的流程轉移可以被用作反跟蹤手段。
==========================================
中斷指令INT n
在保護模式下,這個指令必定會被操作系統(tǒng)截獲。在一般的PE程序中,這個指令已經不太見到了,而在DOS時代,中斷是調用操作系統(tǒng)和BIOS的重要途徑。現(xiàn)在的程序可以文質彬彬地用名字來調用windows功能,如 calluser32!getwindowtexta。從程序角度看,INT指令把當前的標志寄存器先壓入堆棧,然后把下一條指令的完全地址也壓入堆棧,最后根據操作數(shù)n來檢索“中斷描述符表”,試圖轉移到相應的中斷服務程序去執(zhí)行。通常,中斷服務程序都是操作系統(tǒng)的核心代碼,必然會涉及到優(yōu)先級轉換和保護性檢查、堆棧切換等等,細節(jié)可以看一些高級的教程。
與之相應的中斷返回指令IRET做相反的操作。它從堆棧上取得返回地址,并用來設置CS:EIP,然后從堆棧中彈出標志寄存器。注意,堆棧上的標志寄存器值可能已經被中斷服務程序所改變,通常是進位標志C,用來表示功能是否正常完成。同樣的,IRET也不一定非要和INT指令對應,你可以自己在堆棧上壓入標志和地址,然后執(zhí)行IRET來實現(xiàn)流程轉移。實際上,多任務操作系統(tǒng)常用此伎倆來實現(xiàn)任務轉換。
廣義的中斷是一個很大的話題,有興趣可以去查閱系統(tǒng)設計的書籍。
============================================
裝入全指針指令LDS,LES,LFS,LGS,LSS
這些指令有兩個操作數(shù)。第一個是一個通用寄存器,第二個操作數(shù)是一個有效地址。指令從該地址取得48位全指針,將選擇符裝入相應的段寄存器,而將32位偏移量裝入指定的通用寄存器。注意在內存中,指針的存放形式總是32位偏移量在前面,16位選擇符在后面。裝入指針以后,就可以用DS:[ESI]這樣的形式來訪問指針指向的數(shù)據了。
============================================
字符串操作指令
這里包括CMPS,SCAS,LODS,STOS,MOVS,INS和OUTS等。這些指令有一個共同的特點,就是沒有顯式的操作數(shù),而由硬件規(guī)定使用DS:[ESI]指向源字符串,用ES:[EDI]指向目的字符串,用AL/AX/EAX做暫存。這是硬件規(guī)定的,所以在使用這些指令之前一定要設好相應的指針。
這里每一個指令都有3種寬度形式,如CMPSB(字節(jié)比較)、CMPSW(字比較)、CMPSD(雙字比較)等。
CMPSB:比較源字符串和目標字符串的第一個字符。若相等則Z標志置1。若不等則Z標志置0。指令執(zhí)行完后,ESI 和EDI都自動加1,指向源/目標串的下一個字符。如果用CMPSW,則比較一個字,ESI/EDI自動加2以指向下一個字。
如果用CMPSD,則比較一個雙字,ESI/EDI自動加4以指向下一個雙字。(在這一點上這些指令都一樣,不再贅述)
SCAB/W/D 把AL/AX/EAX中的數(shù)值與目標串中的一個字符/字/雙字比較。
LODSB/W/D 把源字符串中的一個字符/字/雙字送入AL/AX/EAX
STOSB/W/D 把AL/AX/EAX中的直送入目標字符串中
MOVSB/W/D 把源字符串中的字符/字/雙字復制到目標字符串
INSB/W/D 從指定的端口讀入字符/字/雙字到目標字符串中,端口號碼由DX寄存器指定。
OUTSB/W/D 把源字符串中的字符/字/雙字送到指定的端口,端口號碼由DX寄存器指定。
串操作指令經常和重復前綴REP和循環(huán)指令LOOP結合使用以完成對整個字符串的操作。而REP前綴和LOOP指令都有硬件規(guī)定用ECX做循環(huán)計數(shù)器。舉例:
LDS ESI,SRC_STR_PTR
LES EDI,DST_STR_PTR
MOV ECX,200
REP MOVSD
上面的代碼從SRC_STR拷貝200個雙字到DST_STR. 細節(jié)是:REP前綴先檢查ECX是否為0,若否則執(zhí)行一次MOVSD,ECX自動減1,然后執(zhí)行第二輪檢查、執(zhí)行......直到發(fā)現(xiàn)ECX=0便不再執(zhí)行MOVSD,結束重復而執(zhí)行下面的指令。
LDS ESI,SRC_STR_PTR
MOV ECX,100
LOOP1:
LODSW
.... (deal with value in AX)
LOOP LOOP1
.....
從SRC_STR處理100個字。同樣,LOOP指令先判斷ECX是否為零,來決定是否循環(huán)。每循環(huán)一輪ECX自動減1。
REP和LOOP 都可以加上條件,變成REPZ/REPNZ 和 LOOPZ/LOOPNZ. 這是除了ECX外,還用檢查零標志Z. REPZ 和LOOPZ在Z為1時繼續(xù)循環(huán),否則退出循環(huán),即使ECX不為0。REPNZ/LOOPNZ則相反。
高級語言程序的匯編解析
在高級語言中,如C和PASCAL等等,我們不再直接對硬件資源進行操作,而是面向于問題的解決,這主要體現(xiàn)在數(shù)據抽象化和程序的結構化。例如我們用變量名來存取數(shù)據,而不再關心這個數(shù)據究竟在內存的什么地方。這樣,對硬件資源的使用方式完全交給了編譯器去處理。不過,一些基本的規(guī)則還是存在的,而且大多數(shù)編譯器都遵循一些規(guī)范,這使得我們在閱讀反匯編代碼的時候日子好過一點。這里主要講講匯編代碼中一些和高級語言對應的地方。
1.普通變量。通常聲明的變量是存放在內存中的。編譯器把變量名和一個內存地址聯(lián)系起來(這里要注意的是,所謂的“確定的地址”是對編譯器而言在編譯階段算出的一個臨時的地址。在連接成可執(zhí)行文件并加載到內存中執(zhí)行的時候要進行重定位等一系列調整,才生成一個實時的內存地址,不過這并不影響程序的邏輯,所以先不必太在意這些細節(jié),只要知道所有的函數(shù)名字和變量名字都對應一個內存的地址就行了),所以變量名在匯編代碼中就表現(xiàn)為一個有效地址,就是放在方括號中的操作數(shù)。例如,在C文件中聲明:
int my_age;
這個整型的變量就存在一個特定的內存位置。語句 my_age= 32; 在反匯編代碼中可能表現(xiàn)為:
mov word ptr [007E85DA], 20
所以在方括號中的有效地址對應的是變量名。又如:
char my_name[11] = "lianzi2000";
這樣的說明也確定了一個地址,對應于my_name. 假設地址是007E85DC,則內存中[007E85DC]=‘l‘,[007E85DD]=‘i‘, etc. 對my_name的訪問也就是對這地址處的數(shù)據訪問。
指針變量其本身也同樣對應一個地址,因為它本身也是一個變量。如:
char *your_name;
這時也確定變量"your_name"對應一個內存地址,假設為007E85F0. 語句your_name=my_name;很可能表現(xiàn)為:
mov [007E85F0], 007E85DC ;your_name的內容是my_name的地址。
2. 寄存器變量
在C和C++中允許說明寄存器變量。register int i; 指明i是寄存器存放的整型變量。通常,編譯器都把寄存器變量放在esi和edi中。寄存器是在cpu內部的結構,對它的訪問要比內存快得多,所以把頻繁使用的變量放在寄存器中可以提高程序執(zhí)行速度。
3. 數(shù)組
不管是多少維的數(shù)組,在內存中總是把所有的元素都連續(xù)存放,所以在內存中總是一維的。例如,int i_array[2][3];在內存確定了一個地址,從該地址開始的12個字節(jié)用來存貯該數(shù)組的元素。所以變量名i_array對應著該數(shù)組的起始地址,也即是指向數(shù)組的第一個元素。存放的順序一般是i_array[0][0],[0][1],[0][2],[1][0],[1][1],[1][2]即最右邊的下標變化最快。當需要訪問某個元素時,程序就會從多維索引值換算成一維索引,如訪問i_array[1][1],換算成內存中的一維索引值就是1*3+1=4.這種換算可能在編譯的時候就可以確定,也可能要到運行時才可以確定。無論如何,如果我們把i_array對應的地址裝入一個通用寄存器作為基址,則對數(shù)組元素的訪問就是一個計算有效地址的問題:
; i_array[1][1]=0x16
lea ebx,xxxxxxxx ;i_array 對應的地址裝入ebx
mov edx,04 ;訪問i_array[1][1],編譯時就已經確定
mov word ptr [ebx+edx*2], 16 ;
當然,取決于不同的編譯器和程序上下文,具體實現(xiàn)可能不同,但這種基本的形式是確定的。從這里也可以看到比例因子的作用(還記得比例因子的取值為1,2,4或8嗎?),因為在目前的系統(tǒng)中簡單變量總是占據1,2,4或者8個字節(jié)的長度,所以比例因子的存在為在內存中的查表操作提供了極大方便。
4. 結構和對象
結構和對象的成員在內存中也都連續(xù)存放,但有時為了在字邊界或雙字邊界對齊,可能有些微調整,所以要確定對象的大小應該用sizeof操作符而不應該把成員的大小相加來計算。當我們聲明一個結構變量或初始化一個對象時,這個結構變量和對象的名字也對應一個內存地址。舉例說明:
struct tag_info_struct
{
int age;
int sex;
float height;
float weight;
} marry;
變量marry就對應一個內存地址。在這個地址開始,有足夠多的字節(jié)(sizeof(marry))容納所有的成員。每一個成員則對應一個相對于這個地址的偏移量。這里假設此結構中所有的成員都連續(xù)存放,則age的相對地址為0,sex為2, height 為4,weight為8。
; marry.sex=0;
lea ebx,xxxxxxxx ;marry 對應的內存地址
mov word ptr [ebx+2], 0
......
對象的情況基本相同。注意成員函數(shù)具體的實現(xiàn)在代碼段中,在對象中存放的是一個指向該函數(shù)的指針。
5. 函數(shù)調用
一個函數(shù)在被定義時,也確定一個內存地址對應于函數(shù)名字。如:
long comb(int m, int n)
{
long temp;
.....
return temp;
}
這樣,函數(shù)comb就對應一個內存地址。對它的調用表現(xiàn)為:
CALL xxxxxxxx ;comb對應的地址。這個函數(shù)需要兩個整型參數(shù),就通過堆棧來傳遞:
;lresult=comb(2,3);
push 3
push 2
call xxxxxxxx
mov dword ptr [yyyyyyyy], eax ;yyyyyyyy是長整型變量lresult的地址
這里請注意兩點。第一,在C語言中,參數(shù)的壓棧順序是和參數(shù)順序相反的,即后面的參數(shù)先壓棧,所以先執(zhí)行push 3.第二,在我們討論的32位系統(tǒng)中,如果不指明參數(shù)類型,缺省的情況就是壓入32位雙字。因此,兩個push指令總共壓入了兩個雙字,即8個字節(jié)的數(shù)據。然后執(zhí)行call指令。call 指令又把返回地址,即下一條指令(mov dwordptr....)的32位地址壓入,然后跳轉到xxxxxxxx去執(zhí)行。
在comb子程序入口處(xxxxxxxx),堆棧的狀態(tài)是這樣的:
03000000 (請回憶small endian 格式)
02000000
yyyyyyyy <--ESP 指向返回地址
前面講過,子程序的標準起始代碼是這樣的:
push ebp ;保存原先的ebp
mov ebp, esp;建立框架指針
sub esp, XXX;給臨時變量預留空間
.....
執(zhí)行push ebp之后,堆棧如下:
03000000
02000000
yyyyyyyy
old ebp <---- esp 指向原來的ebp
執(zhí)行mov ebp,esp之后,ebp 和esp 都指向原來的ebp. 然后sub esp, xxx 給臨時變量留空間。這里,只有一個臨時變量temp,是一個長整數(shù),需要4個字節(jié),所以xxx=4。這樣就建立了這個子程序的框架:
03000000
02000000
yyyyyyyy
old ebp <---- 當前ebp指向這里
temp
所以子程序可以用[ebp+8]取得第一參數(shù)(m),用[ebp+C]來取得第二參數(shù)(n),以此類推。臨時變量則都在ebp下面,如這里的temp就對應于[ebp-4].
子程序執(zhí)行到最后,要返回temp的值:
mov eax,[ebp-04]
然后執(zhí)行相反的操作以撤銷框架:
mov esp,ebp ;這時esp 和ebp都指向old ebp,臨時變量已經被撤銷
pop ebp ;撤銷框架指針,恢復原ebp.
這是esp指向返回地址。緊接的retn指令返回主程序:
retn 4
該指令從堆棧彈出返回地址裝入EIP,從而返回到主程序去執(zhí)行call后面的指令。同時調整esp(esp=esp+4*2),從而撤銷參數(shù),使堆棧恢復到調用子程序以前的狀態(tài),這就是堆棧的平衡。調用子程序前后總是應該維持堆棧的平衡。從這里也可以看到,臨時變量temp已經隨著子程序的返回而消失,所以試圖返回一個指向臨時變量的指針是非法的。
為了更好地支持高級語言,INTEL還提供了指令Enter 和Leave 來自動完成框架的建立和撤銷。Enter 接受兩個操作數(shù),第一個指明給臨時變量預留的字節(jié)數(shù),第二個是子程序嵌套調用層數(shù),一般都為0。enter xxx,0 相當于:
push ebp
mov ebp,esp
sub esp,xxx
leave 則相當于:
mov esp,ebp
pop ebp
=============================================================
好啦,我的學習心得講完了,謝謝各位的抬舉。教程是不敢當?shù)?,因為我也是個大菜鳥。如果這些東東能使你們的學習輕松一些,進步快一些,本菜鳥就很開心了。