调教美女视频网站,江疏影视频在线

Java字符集編碼研究2

Gemmy >《技術(shù)》

2009.02.22

關(guān)注

第二篇：JAVA字符編碼系列二：Unicode,ISO-8859-1,GBK,UTF-8編碼及相互轉(zhuǎn)換

１、函數(shù)介紹

在Java中，字符串用統(tǒng)一的Unicode編碼，每個字符占用兩個字節(jié)，與編碼有關(guān)的兩個主要函數(shù)為：

１）將字符串用指定的編碼集合解析成字節(jié)數(shù)組，完成Unicode－〉charsetName轉(zhuǎn)換

public byte[] getBytes(String charsetName) throws UnsupportedEncodingException　

２）將字節(jié)數(shù)組以指定的編碼集合構(gòu)造成字符串，完成charsetName－〉Unicode轉(zhuǎn)換

public String(byte[] bytes, String charsetName) throws UnsupportedEncodingException

２、Unicode與各編碼之間的直接轉(zhuǎn)換

下面以對中文字符串＂ａ中文＂的編碼轉(zhuǎn)換為例，來了解各種編碼之間的轉(zhuǎn)換

１）Unicode和GBK

測試結(jié)果如下，每個漢字轉(zhuǎn)換為兩個字節(jié)，且是可逆的，即通過字節(jié)可以轉(zhuǎn)換回字符串

String－GBK〉ByteArray：\u0061\u4E2D\u6587（a中文）－〉0x61 0xD6 0xD0 0xCE 0xC4

ByteArray－GBK〉String：0x61 0xD6 0xD0 0xCE 0xC4－〉\u0061\u4E2D\u6587（a中文）

２）Unicode和UTF-8

測試結(jié)果如下，每個漢字轉(zhuǎn)換為三個字節(jié)，且是可逆的，即通過字節(jié)可以轉(zhuǎn)換回字符串

String－UTF-8〉ByteArray：\u0061\u4E2D\u6587（a中文）－〉0x61 0xE4 0xB8 0xAD 0xE6%0x96 0x87

ByteArray－UTF-8〉String：0x61 0xE4 0xB8 0xAD 0xE6%0x96 0x87－〉\u0061\u4E2D\u6587（a中文）

３）Unicode和ISO-8859-1

測試結(jié)果如下，當存在漢字時轉(zhuǎn)換失敗，非可逆，即通過字節(jié)不能再轉(zhuǎn)換回字符串

String－ISO-8859-1〉ByteArray：\u0061\u4E2D\u6587（a中文）－〉0x61 0x3F 0x3F

ByteArray－ISO-8859-1〉String：0x61 0x3F 0x3F－〉\u0061\u003F\u003F（a??）

３、Unicode與各編碼之間的交叉轉(zhuǎn)換

在上面直接轉(zhuǎn)換中，由字符串（Unicode）生成的字節(jié)數(shù)組，在構(gòu)造回字符串時，使用的是正確的編碼集合，如果使用的不是正確的編碼集合會怎樣呢？會正確構(gòu)造嗎？如果不能正確構(gòu)造能有辦法恢復嗎？會信息丟失嗎？

下面我們就來看看這種情況，這部分可以說明在某些情況下雖然我們最終正確顯示了結(jié)果，但其間仍然進行了不正確的轉(zhuǎn)換。

１）能夠正確顯示的中間不正確轉(zhuǎn)換

我們知道String－GBK〉ByteArray－GBK〉String是正確的，但如果我們采用String－GBK〉ByteArray－ISO-8859-1〉String呢？通過測試結(jié)果如下：

String－GBK〉ByteArray－ISO-8859-1〉String：\u0061\u4E2D\u6587（a中文）－〉0x61 0xD6 0xD0 0xCE 0xC4－〉\u0061\u00D6\u00D0\u00CE\u00C4（a????）

這時我們得到的字符串為？亂碼“a????”，但是通過繼續(xù)轉(zhuǎn)換我們?nèi)匀豢梢詮驮卣_的字符串“a中文”，過程如下：

String－GBK〉ByteArray－ISO-8859-1〉String－ISO-8859-1〉ByteArray－GBK〉String

對應：\u0061\u4E2D\u6587（a中文）－〉0x61 0xD6 0xD0 0xCE0xC4－〉\u0061\u00D6\u00D0\u00CE\u00C4（a????）－〉0x61 0xD6 0xD0 0xCE0xC4－〉\u0061\u4E2D\u6587（a中文）

也就是我們在首次構(gòu)造字符串時，我們用了錯誤的編碼集合得到了錯誤的亂碼，但是我們通過錯上加錯，再用錯誤的編碼集合獲取字節(jié)數(shù)組，然后再用正確的編碼集合構(gòu)造，就又恢復了正確的字符串。這時就屬于是“能夠正確顯示的中間不正確轉(zhuǎn)換”。在Jsp頁面提交數(shù)據(jù)處理時常常發(fā)生這種情況。

此外能夠正確顯示的中間不正確轉(zhuǎn)換還有：

String－UTF-8〉ByteArray－ISO-8859-1〉String－ISO-8859-1〉ByteArray－UTF-8〉String

和

String－UTF-8〉ByteArray－GBK〉String－GBK〉ByteArray－UTF-8〉String

對應：\u0061\u4E2D\u6587（a中文）－〉0x61 0xE4 0xB8 0xAD 0xE6%0x960x87－〉\u0061\u6D93\uE15F\u6783（a涓枃）－〉0x61 0xE4 0xB8 0xAD 0xE6%0x960x87－〉\u0061\u4E2D\u6587（a中文）

４、編碼過程中錯誤診斷參考

１）一個漢字對應一個問號

在通過ISO-8859-1從字符串獲取字節(jié)數(shù)組時，由于一個Unicode轉(zhuǎn)換成一個byte，當遇到不認識的Unicode時，轉(zhuǎn)換為0x3F，這樣無論用哪種編碼構(gòu)造時都會產(chǎn)生一個？亂碼。

２）一個漢字對應兩個問號

在通過GBK從字符串獲取字節(jié)數(shù)組時，由于一個Unicode轉(zhuǎn)換成兩個byte，如果此時用ISO-8859-1或用UTF-8構(gòu)造字符串就會出現(xiàn)兩個問號。

若是通過ISO-8859-1構(gòu)造可以再通過上面所說的錯上加錯恢復（即再通過從ISO-8859-1解析，用GBK構(gòu)造）；

若是通過UTF-8構(gòu)造則會產(chǎn)生Unicode字符＂\uFFFD＂，不能恢復，若再通過String－UTF-8〉ByteArray－GBK〉String，則會出現(xiàn)雜碼，如a錕斤拷錕斤拷

３）一個漢字對應三個問號

在通過UTF-8從字符串獲取字節(jié)數(shù)組時，由于一個Unicode轉(zhuǎn)換成三個byte，如果此時用ISO-8859-1構(gòu)造字符串就會出現(xiàn)三個問號；用GBK構(gòu)造字符串就會出現(xiàn)雜碼，如a涓枃。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

打開APP，閱讀全文并永久保存查看更多類似文章

java中文GBK和UTF-8編碼轉(zhuǎn)換亂碼的分析

java字符串的各種編碼轉(zhuǎn)換類ChangeCharset

中文化和國際化問題權(quán)威解析之二：Java國際化基礎(chǔ)

深入分析 Java 中的中文編碼問題

字符串的編碼解碼

java 中String編碼和byte 解碼總結(jié)

更多類似文章 >>

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看