在軟件開(kāi)發(fā)中,特別是使用C語(yǔ)言的一些有關(guān)字符串處理的函數(shù),ANSI和UNICODE是區(qū)分是用的,那么ANSI類(lèi)型的字符和UNICODE類(lèi)型的字符如何定義,如何使用呢?ANSI和UNICODE又如何轉(zhuǎn)換呢?
一.定義部分:
ANSI: char str[1024]; 可用字符串處理函數(shù):strcpy( ), strcat( ), strlen( )等等。UNICODE:wchar_t str[1024];可用字符串處理函數(shù)
二.可用函數(shù):
ANSI:即 char, 可用字符串處理函數(shù):strcat( ),strcpy( ), strlen( )等以str打頭的函數(shù)。
UNICODE:即wchar_t 可用字符串處理函數(shù):wcscat(),wcscpy(),wcslen()等以wcs打頭的函數(shù)。
三.系統(tǒng)支持
Windows 98 :只支持ANSI。
Windows 2k :既支持ANSI又支持UNICODE。
Windows CE :只支持UNICODE。
說(shuō)明
1. 在COM里面只支持UNICODE。
2. Windows 2000整個(gè)OS系統(tǒng)都是基于UNICODE的,為此在windows 2000下使用ANSI是需要付出代價(jià)的,雖然在編碼上不用任何的轉(zhuǎn)換,但是這種轉(zhuǎn)化是隱藏的,是占用系統(tǒng)資源的(CPU,內(nèi)存)。
3. 在Windows 98下必須使用UNICODE,則需要自己手動(dòng)的編碼切換。
三.如何區(qū)分:
在我們軟件開(kāi)發(fā)中往往需要即支持ANSI又支持UNICODE,不可能在要求類(lèi)型轉(zhuǎn)換的時(shí)候,重新改變字符串的類(lèi)型,和使用于字符串上的操作函數(shù)。為此, 標(biāo)準(zhǔn)的C 運(yùn)行期庫(kù)和Windows 提供了宏定義的方式。
在C語(yǔ)言里面提供了 _UNICODE宏(有下劃線),在Windows里面提供了UNICODE宏(無(wú)下劃線),只要定了_UNICODE宏和UNICODE宏,系統(tǒng)就會(huì)自動(dòng)切換到UNICODE版本,否則,系統(tǒng)按照ANSI的方式進(jìn)行編譯和運(yùn)行。
只定義了宏并不能實(shí)現(xiàn)自動(dòng)的轉(zhuǎn)換,他還需要一系列的字符定義支持。
1. TCHAR
如果定義了UNICODE宏則TCHAR被定義為wchar_t。
typedef wchar_t TCHAR;
否則TCHAR被定義為char
typedef char TCHAR;
2. LPTSTR
如果定義了UNICODE宏則LPTSTR被定義為L(zhǎng)PWSTR。
typedef LPTSTR LPWSTR;
否則TCHAR被定義為char
typedef LPTSTR LPSTR;
在使用字符串常量的時(shí)候需要使用_TEXT(“MyStr”)來(lái)支持系統(tǒng)的自動(dòng)轉(zhuǎn)換。
用于字符串處理的函數(shù)
如果你要分類(lèi)Unicode標(biāo)準(zhǔn)字符串,你會(huì)有以下幾個(gè)函數(shù)可供選擇:
wcscmp(), wcsncmp(), wcsicmp(), 和wcsnicmp()
wcscoll(), wcsncoll(), wcsicoll(),和wcsnicoll()
CompareString()
第一類(lèi)函數(shù)可用來(lái)對(duì)字符串進(jìn)行比較,不參考當(dāng)?shù)兀↙ocale)或外文字符。如果你永遠(yuǎn)不想支持外文,或者你僅僅想測(cè)試一下兩個(gè)字符串的內(nèi)容是否相同,這類(lèi)函數(shù)非常好用。
第二類(lèi)函數(shù)使用現(xiàn)有的當(dāng)?shù)卦O(shè)置(current locale settings)(系統(tǒng)設(shè)置,除非你在字符串比較函數(shù)之前調(diào)用了wsetlocale()函數(shù))來(lái)比較兩個(gè)字符串。這些函數(shù)也能正確分類(lèi)外文字符。如果當(dāng)?shù)氐淖址?C"("C" locale)被選定,這些函數(shù)與第一類(lèi)函數(shù)就具有了相同的功能。
第三類(lèi)函數(shù)是Win32函數(shù)CompareString()。這個(gè)函數(shù)類(lèi)似于第二類(lèi)函數(shù),但是它允許你指定當(dāng)?shù)卦O(shè)置(the locale)作為一個(gè)參數(shù),而不是使用現(xiàn)有的當(dāng)?shù)卦O(shè)置(current locale settings)。CompareString()函數(shù)允許你選擇性地指定兩個(gè)字符串的長(zhǎng)度。你可以將第二個(gè)參數(shù)設(shè)置為NORM_IGNORECASE,從而使函數(shù)比較字符串時(shí)不比較大小寫(xiě)。
通常,即使不將第二個(gè)參數(shù)設(shè)置為NORM_IGNORECASE,CompareString()函數(shù)也不用來(lái)區(qū)分大小寫(xiě)。我們經(jīng)常用wcsncoll()函數(shù)來(lái)區(qū)分大小寫(xiě),除非使用當(dāng)?shù)氐淖址?C"("C" locale)。所以,在我們的代碼中,不使用CompareString()函數(shù)來(lái)區(qū)分大小寫(xiě),而用wcsncoll()函數(shù)來(lái)區(qū)分大小寫(xiě)
2. 不要混淆TCHARs和bytes
如果你正在Windows CE上寫(xiě)非Unicode應(yīng)用程序,你或許要將所有的字符串從單個(gè)字符(chars)轉(zhuǎn)換為寬字符(widechars)(例如,C變量類(lèi)型whcar_t)。幾乎所有Windows CE支持的Win32和運(yùn)行時(shí)間庫(kù)函數(shù)都要求寬字符變量。Windows 95不支持Unicode,然而,為了使程序代碼具有可移植性,你要盡可能采用tchar.h中定義的TCHAR類(lèi)型,不要直接使用wchar_t。
TCHAR是定義為wchar_t還是char,取決于預(yù)處理器的符號(hào)UNICODE是否定義。同樣,所有有關(guān)字符串處理函數(shù)的宏,如_tcsncpy宏,它是定義為Unicode函數(shù)wcsncpy還是定義為ANSI函數(shù)strncpy,取決于UNICODE是否定義。
在現(xiàn)存的Windows應(yīng)用程序中,有些代碼也許暗示字符長(zhǎng)為單字節(jié)。這在給字符串分配內(nèi)存時(shí)經(jīng)常用到,例如:
int myfunc(char *p)
{
char *pszFileName;
pszFileName = malloc(MAXFILELEN);
if(pszFileName)
strncpy(pszFileName, p, MAXFILELEN);
/*etc*/
在這段代碼中,分配的內(nèi)存塊應(yīng)該寫(xiě)作(MAXFILELEN * sizeof(char)),但是大多數(shù)程序員喜歡將它簡(jiǎn)化為MAXFILELEN,因?yàn)閷?duì)于所有的平臺(tái)來(lái)說(shuō)sizeof(char)的值等于1。然而,當(dāng)你用TCHARS代替多個(gè)字符時(shí),很容易忘記這種固有的概念,于是將代碼編寫(xiě)成下面的形式:
int myfunc(TCHAR *p)
{
TCHAR *pszFileName;
PszFileName = (TCHAR*)malloc(MAXFILELEN);
If (pszFileName)
tcsncpy(pszFileName, p, MAXFILELEN);
/*etc*/
這是不行的。它馬上會(huì)導(dǎo)致出錯(cuò)。這里的錯(cuò)誤在于malloc函數(shù)中指定變量大小為bytes,然而_tcsncpy函數(shù)中使用的第三個(gè)變量卻指定為T(mén)CHARs而不是bytes。當(dāng)UNICODE被定義時(shí),一個(gè)TCHAR等于兩個(gè)字節(jié)數(shù)(bytes)。
上述代碼段應(yīng)該改寫(xiě)為:
int myfunc(TCHAR *p)
{
TCHAR *pszFileName;
PszFileName = (TCHAR*)malloc(MAXFILELEN * sizeof(TCHAR));
if(pszFileName)
tcsncpy(pszFileName, p, MAXFILELEN);
/*etc*/
3. 不要將Unicode 字符串放入奇數(shù)內(nèi)存地址
在Intel系列處理器上,你可以在一奇數(shù)內(nèi)存地址儲(chǔ)存任何變量或數(shù)組,不會(huì)導(dǎo)致任何致命的錯(cuò)誤影響。但在H/PC上,這一點(diǎn)不一定能行 ? 你必須對(duì)大于一個(gè)字節(jié)的數(shù)據(jù)類(lèi)型小心謹(jǐn)慎,包括定義為無(wú)符號(hào)短型(unsigned short)的wchar_t。當(dāng)你設(shè)法訪問(wèn)它們的時(shí)候,將它們置于奇地址會(huì)導(dǎo)致溢出。
編輯器經(jīng)常在這些問(wèn)題上提醒你。你無(wú)法管理堆棧變量地址,并且編輯器會(huì)檢查確定這些地址與變量類(lèi)型是否相匹配。同樣,運(yùn)行時(shí)間庫(kù)必須保證從堆中分配的內(nèi)存總是滿足一個(gè)word邊界,所以你一般不必?fù)?dān)心那兩點(diǎn)。但是,如果應(yīng)用程序含有用memcpy()函數(shù)拷貝內(nèi)存區(qū)域的代碼,或者使用了某種類(lèi)型的指針?biāo)阈g(shù)以確定內(nèi)存地址,問(wèn)題也許就出現(xiàn)了??紤]下面的例子:
int send_name (TCHAR * pszName)
{
char *p, *q;
int nLen=(_tcslen(pszName) + 1) * sizeof(TCHAR);
p=maloc(HEADER_SIZE + nLen);
if(p)
{
q = p + HEADER_SIZE;
_tcscpy((TCHAR*)q, pszName);
}
/* etc */
這段代碼是從堆中分配內(nèi)存并復(fù)制一個(gè)字符串,在字符串的開(kāi)頭留一個(gè)HEADER_SIZE的大小。假設(shè)UNICODE定義了,那么該字符串就是一個(gè)widechar字符串。如果HEADER_SIZE是一個(gè)偶數(shù),這段代碼就會(huì)正常工作,但如果HEADER_SIZE為奇數(shù),這段代碼就會(huì)出錯(cuò),因?yàn)閝指向的地址也將為奇數(shù)。
注意,當(dāng)你在Intel系列處理器中的Windows CE仿真器上測(cè)試這段代碼時(shí),這個(gè)問(wèn)題是不會(huì)發(fā)生的。
在這個(gè)例子中,只要確保HEADER_SIZE為偶數(shù),你就可以避免問(wèn)題的發(fā)生。然而,在某些情況下你也許不能這么做。例如,如果程序是從一臺(tái)式PC輸入數(shù)據(jù),你也許不得不采用事先定義過(guò)的二進(jìn)制格式,盡管它對(duì)H/PC不適合。在這種情況下,你必須采用函數(shù),這些函數(shù)用字符指針控制字符串而不是TCHAR指針。如果你知道字符串的長(zhǎng)度,就可以用memcpy()復(fù)制字符串。因此,采用逐個(gè)字節(jié)分析Unicode字符串的函數(shù)也許足以確定字符串在widechars中的長(zhǎng)度。
4. 在ANSI和Unicode字符串之間進(jìn)行翻譯
如果你的Windows CE應(yīng)用程序接口于臺(tái)式PC,也許你必須操作PC機(jī)中的ANSI字符串?dāng)?shù)據(jù)(例如,char字符串)。即使你在程序中只用到Unicode字符串,這都是事實(shí)。
你不能在Windows CE上處理一個(gè)ANSI字符串,因?yàn)闆](méi)有操縱它們的庫(kù)函數(shù)。最好的解決辦法是將ANSI字符串轉(zhuǎn)換成Unicode字符串用到H/PC上,然后再將Unicode字符串轉(zhuǎn)換回ANSI字符串用到PC上。為了完成這些轉(zhuǎn)換,可采用MultiByteToWideChar()和WideCharToMultiByte () Win32 API 函數(shù)。
5. 對(duì)于Windows CE 1.0的字符串轉(zhuǎn)換,劈開(kāi)(hack)
在Windows CE 1.0 版本中,這些Win32API函數(shù)還沒(méi)有完成。所以如果你想既要支持CE 1.0又能支持CE 2.0,就必須采用其它函數(shù)。將ANSI字符串轉(zhuǎn)換成Unicode字符串可以用wsprintf(),其中第一個(gè)參數(shù)采用一widechar字符串,并且認(rèn)識(shí)"%S"(大寫(xiě)),意思是一個(gè)字符串。由于沒(méi)有wsscanf() 和 wsprintfA(),你必須想別的辦法將Unicode字符串轉(zhuǎn)換回ANSI字符串。由于Windows CE 1.0不在國(guó)家語(yǔ)言支持(NLS)中,你也許得求助于hack,如下所示:
/*
Definition / prototypes of conversion functions
Multi-Byte (ANSI) to WideChar (Unicode)
atow() converts from ANSI to widechar
wtoa() converts from widechar to ANSI
*/
#if ( _WIN32_WCE >= 101)
#define atow(strA, strW, lenW) \
MultiByteToWidechar (CP_ACP, 0, strA, -1, strW, lenW)
#define wtoa(strW, strA, lenA) \
WideCharToMutiByte (CP_ACP, 0, strW, -1, strA, lenA, NULL, NULL)
#else /* _WIN32_WCE >= 101)*/
/*
MultiByteToWideChar () and WideCharToMultiByte() not supported on Windows CE 1.0
*/
int atow(char *strA, wchar_t *strW, int lenW);
int wtoa(wchar_t *strW, char *strA, int lenA);
endif /* _WIN32_WCE >= 101*/
#if (_WIN32_WCE <101)
int atow(char *strA, wchar_t *strW, int lenW)
{
int len;
char *pA;
wchar_t *pW;
/*
Start with len=1, not len=0, as string length returned
must include null terminator, as in MultiByteToWideChar()
*/
for(pA=strA, pW=strW, len=1; lenW; pA++, pW++, lenW--, len++)
{
*pW = (lenW = =1) ? 0 : (wchar_t)( *pA);
if( ! (*pW))
break;
}
return len;
}
int wtoa(wxhar_t *strW, char *strA, int lenA)
{
int len;
char *pA;
wchar_t *pW;
/*
Start with len=1,not len=0, as string length returned
Must include null terminator, as in WideCharToMultiByte()
*/
for(pA=strA, pW=strW, len=1; lenA; pa++, pW++, lenA--, len++)
{
pA = (len==1)? 0 : (char)(pW);
if(!(*pA))
break;
}
return len;
}
#endif /*_WIN32_WCE<101*/
這種適合于Windows CE 1.0的實(shí)現(xiàn)辦法比使用wsprintf()函數(shù)要容易,因?yàn)槭褂脀sprintf()函數(shù)更難以限制目標(biāo)指針?biāo)赶虻淖址拈L(zhǎng)度。
6. 選擇正確的字符串比較函數(shù)
如果你要分類(lèi)Unicode標(biāo)準(zhǔn)字符串,你會(huì)有以下幾個(gè)函數(shù)可供選擇:
wcscmp(), wcsncmp(), wcsicmp(), 和wcsnicmp()
wcscoll(), wcsncoll(), wcsicoll(),和wcsnicoll()
CompareString()
第一類(lèi)函數(shù)可用來(lái)對(duì)字符串進(jìn)行比較,不參考當(dāng)?shù)兀↙ocale)或外文字符。如果你永遠(yuǎn)不想支持外文,或者你僅僅想測(cè)試一下兩個(gè)字符串的內(nèi)容是否相同,這類(lèi)函數(shù)非常好用。
第二類(lèi)函數(shù)使用現(xiàn)有的當(dāng)?shù)卦O(shè)置(current locale settings)(系統(tǒng)設(shè)置,除非你在字符串比較函數(shù)之前調(diào)用了wsetlocale()函數(shù))來(lái)比較兩個(gè)字符串。這些函數(shù)也能正確分類(lèi)外文字符。如果當(dāng)?shù)氐淖址?C"("C" locale)被選定,這些函數(shù)與第一類(lèi)函數(shù)就具有了相同的功能。
第三類(lèi)函數(shù)是Win32函數(shù)CompareString()。這個(gè)函數(shù)類(lèi)似于第二類(lèi)函數(shù),但是它允許你指定當(dāng)?shù)卦O(shè)置(the locale)作為一個(gè)參數(shù),而不是使用現(xiàn)有的當(dāng)?shù)卦O(shè)置(current locale settings)。CompareString()函數(shù)允許你選擇性地指定兩個(gè)字符串的長(zhǎng)度。你可以將第二個(gè)參數(shù)設(shè)置為NORM_IGNORECASE,從而使函數(shù)比較字符串時(shí)不比較大小寫(xiě)。
通常,即使不將第二個(gè)參數(shù)設(shè)置為NORM_IGNORECASE,CompareString()函數(shù)也不用來(lái)區(qū)分大小寫(xiě)。我們經(jīng)常用wcsncoll()函數(shù)來(lái)區(qū)分大小寫(xiě),除非使用當(dāng)?shù)氐淖址?C"("C" locale)。所以,在我們的代碼中,不使用CompareString()函數(shù)來(lái)區(qū)分大小寫(xiě),而用wcsncoll()函數(shù)來(lái)區(qū)分大小寫(xiě)
7. 不要使用相對(duì)路徑
與Windows NT不一樣,Windows CE沒(méi)有當(dāng)前目錄這個(gè)概念,因此,任何路徑只是相對(duì)于根目錄而言的。如果你的軟件給文件或目錄使用相對(duì)路徑,那么你很可能把它們移到別的地方了。例如,路徑".\abc"在Windows CE中被當(dāng)作"\abc"看待。
8.移走了對(duì)calloc()和 time()函數(shù)的調(diào)用
C運(yùn)行庫(kù)中的calloc()函數(shù)不能使用,但是malloc()函數(shù)可以代替calloc()函數(shù)。并且不要忘記,calloc()函數(shù)初始化時(shí)分配的內(nèi)存為零,而malloc()函數(shù)不一樣。同樣,time()函數(shù)也不能使用,但你可以使用Win32函數(shù)GetSystemTime()函數(shù)代替time()函數(shù)。
經(jīng)過(guò)以上的警告后,你會(huì)高興地學(xué)習(xí)最后令你驚訝的兩點(diǎn)忠告。
9. 不需要改變Win32 輸入/輸出(I/O)文件的調(diào)用
Win32的輸入輸出函數(shù),Windows CE也支持。允許你象訪問(wèn)Win32文件系統(tǒng)那樣訪問(wèn)對(duì)象。CreateFile()函數(shù)在Windows CE中不能辯認(rèn)標(biāo)志FILE_FLAG_RANDOM_ACCESS,但是這個(gè)標(biāo)志僅用作可選的磁盤(pán)訪問(wèn),并且不影響函數(shù)調(diào)用的功能。
10. 不要擔(dān)心字節(jié)的狀態(tài)
當(dāng)我們把應(yīng)用程序?qū)懭隬indows CE時(shí),有了一個(gè)美好的發(fā)現(xiàn),那就是Windows CE的數(shù)字?jǐn)?shù)據(jù)類(lèi)型的字節(jié)狀態(tài)與Intel結(jié)構(gòu)的字節(jié)狀態(tài)一樣,在所有的處理器上,Windows CE均支持。
幾乎象所有的數(shù)據(jù)庫(kù)引擎一樣,Raima數(shù)據(jù)庫(kù)管理器在數(shù)據(jù)庫(kù)文件中以二進(jìn)制形式保存數(shù)字?jǐn)?shù)據(jù)。這就意味一個(gè)記錄無(wú)論何時(shí)寫(xiě)入數(shù)據(jù)庫(kù)或從數(shù)據(jù)庫(kù)讀出,均被當(dāng)作一系列的字節(jié)來(lái)處理,不管它域的內(nèi)容。只要數(shù)據(jù)庫(kù)文件不要傳給別的任何系統(tǒng),數(shù)字?jǐn)?shù)據(jù)的字節(jié)狀態(tài)問(wèn)題就解決了。如果數(shù)據(jù)庫(kù)文件被一個(gè)來(lái)自原始系統(tǒng)且?guī)в胁煌止?jié)狀態(tài)的處理器訪問(wèn),數(shù)字?jǐn)?shù)據(jù)將被誤解。
無(wú)論何時(shí),當(dāng)你在擁有不同處理器的機(jī)器上傳輸文件時(shí),就會(huì)出現(xiàn)這個(gè)問(wèn)題。在這個(gè)問(wèn)題上,值得高興的是所有類(lèi)型的處理器都使用相同的字節(jié)狀態(tài)。
#include <stdio.h>
#include <string.h>
main()
{
char string[]="string to TTsearch";
char test[]="Tsear";
/* strstr returns a pointer into 'string'
* if 'test' is found' if not found, NULL
* is returned. */
char *p = strstr(string, test) ;
printf("%s", *p);
}