漢字簡(jiǎn)介
漢字是漢語(yǔ)書寫的最基本單元,其使用最晚始于商代,歷經(jīng)甲骨文、大篆、小篆、隸書、楷書(草書、行書)諸般書體變化。秦始皇統(tǒng)一中國(guó),李斯整理小篆,“書同文”的歷史從此開始。盡管漢語(yǔ)方言發(fā)音差異很大,但是書寫系統(tǒng)的統(tǒng)一減少了方言差異造成的交流障礙。
東漢許慎在《說(shuō)文解字》中將漢字構(gòu)造規(guī)律概括為“六書”:象形、指事、會(huì)意、形聲、轉(zhuǎn)注、假借。其中,象形、指事、會(huì)意、形聲四項(xiàng)為造字原理,是“造字法”;而轉(zhuǎn)注、假借則為用字規(guī)律,是“用字法”。
三千余年來(lái),漢字的書寫方式變化不大,使得后人得以閱讀古文而不生窒礙。但近代西方文明進(jìn)入東亞之后,整個(gè)漢字文化圈的各個(gè)國(guó)家紛紛掀起了學(xué)習(xí)西方的思潮,其中,放棄使用漢字是這場(chǎng)運(yùn)動(dòng)的一個(gè)重要方面。這些運(yùn)動(dòng)的立論以為:跟西方拼音文字相比,漢字是繁瑣笨拙的。許多使用漢字國(guó)家即進(jìn)行了不同程度的漢字簡(jiǎn)化,甚至還有完全拼音化的嘗試。日文假名的拉丁轉(zhuǎn)寫方案以及漢語(yǔ)多種拼音方案的出現(xiàn)都是基于這種思想。中國(guó)大陸將漢字筆劃參考行書草書加以省簡(jiǎn),于1956年1月28日審訂通過(guò)《簡(jiǎn)化字總表》,在中國(guó)及新加坡使用至今。臺(tái)灣則一直使用繁體中文。
目前在使用漢語(yǔ)的地區(qū),大都使用兩種規(guī)范漢字,分別是繁體中文(繁體字)和簡(jiǎn)體中文(簡(jiǎn)體字)。
--------------------------------------------------------------------------------
漢字,是記錄漢語(yǔ)的文字系統(tǒng),并仍然或曾經(jīng)在日語(yǔ)和朝鮮語(yǔ)、越南語(yǔ)中使用。漢字是世界上最古老的文字之一,擁有4500年以上的歷史。狹義地說(shuō),它是漢族的文字;廣義地言,它是漢字文化圈共同的文字。
漢字是承載文化的重要工具,目前留有大量用漢字書寫的典籍。不同的方言都使用漢字作為共同書寫體系,因而漢字在歷史上對(duì)中華文明的傳播起到了重要作用,并成為東南亞文化圈形成的內(nèi)在紐帶。在漢字發(fā)展過(guò)程中,留下了大量詩(shī)詞、對(duì)聯(lián)等文化,并形成了獨(dú)特的漢字書法藝術(shù)。
一個(gè)漢字一般具有多種含義,也具有很強(qiáng)的組詞能力,且很多漢字可獨(dú)立成詞。這導(dǎo)致了漢字極高的“使用效率”,2000左右常用字即可覆蓋98%以上的書面表達(dá)方式。加之漢字表意文字的特性,漢字的閱讀效率很高。漢字具備比字母文字更高的信息密度,因此,平均起來(lái),同樣內(nèi)容的中文表達(dá)比其他任何字母語(yǔ)言的文字都短。
目前的漢字體系分為繁體字和簡(jiǎn)體字,前者用于臺(tái)灣、香港、澳門和北美的華人圈中,后者用于中國(guó)大陸和新加坡以及東南亞的華人社區(qū)。通常說(shuō)來(lái),兩種漢字書寫系統(tǒng)雖然有差異,常用漢字的個(gè)體差異不到25%。
由于漢字書寫復(fù)雜,“漢字落后論”的說(shuō)法存在了很長(zhǎng)時(shí)間,認(rèn)為漢字是教育及信息化瓶頸,并有“漢字拉丁化”甚至廢除漢字的推動(dòng)行為?,F(xiàn)在一般認(rèn)為漢字也有突出優(yōu)點(diǎn),初始學(xué)習(xí)難度雖大,但掌握常用字后不存在類似海量英文單詞的繼續(xù)學(xué)習(xí)問(wèn)題,且其表意特性也能充分調(diào)動(dòng)人腦的學(xué)習(xí)能力。在計(jì)算機(jī)輸入問(wèn)題基本解決后,“漢字落后論”及“漢字拉丁化”已實(shí)際上逐漸被大多數(shù)人拋棄。
目前漢字系統(tǒng)已經(jīng)基本穩(wěn)定,但漢字的規(guī)范化、生僻字的自然消亡仍在繼續(xù)進(jìn)行。
關(guān)于漢字編碼
為進(jìn)行信息交換,各漢字使用地區(qū)都制訂了一系列漢字字符集標(biāo)準(zhǔn)。
?、?/span> GB2313字符集,收入漢字6763個(gè),符號(hào)715個(gè),總計(jì)7478個(gè)字符,這是大陸普遍使用的簡(jiǎn)體字符集??w-GB2313、仿宋-GB2313、華文行楷等市面上絕大多數(shù)字體支持顯示這個(gè)字符集,亦是大多數(shù)輸入法所采用的字符集。市面上絕大多數(shù)所謂的繁體字體,其實(shí)采用的是GB-2313字符集簡(jiǎn)體字的編碼,用字體顯示為繁體字,而不是直接用GBK字符集中繁體字的編碼,錯(cuò)誤百出。
?、?/span> BIG-5字符集,收入13060個(gè)繁體漢字,808個(gè)符號(hào),總計(jì)13868個(gè)字符,目前普遍使用于臺(tái)灣、香港等地區(qū)。臺(tái)灣教育部標(biāo)準(zhǔn)宋體楷體等港臺(tái)大多數(shù)字體支持這個(gè)字符集的顯示。
?、?/span> GBK字符集,又稱大字符集(GB=GuóBiāo國(guó)標(biāo),K=擴(kuò)展),包含以上兩種字符集漢字,收入21003個(gè)漢字,882個(gè)符號(hào),共計(jì)21885個(gè)字符,包括了中日韓(CJK)統(tǒng)一漢字20902個(gè)、擴(kuò)展A集(CJK Ext-A) 中的漢字52個(gè)。Windows 95\98簡(jiǎn)體中文版就帶有這個(gè)GBK.txt文件。宋體、隸書、黑體、幼圓、華文中宋、華文細(xì)黑、華文楷體、標(biāo)楷體(DFKai-SB)、Arial Unicode MS、MingLiU、PMingLiU等字體支持顯示這個(gè)字符集。微軟拼音輸入法2003、全拼、紫光拼音等輸入法,能夠錄入如镕镕炁夬喆嚞姤赟赟龑昳堃慜靕臹等GBK簡(jiǎn)繁體漢字。
BIG-5 (繁體中文)與GB-2313 (簡(jiǎn)體中文),編碼不相兼容,字符在不同的操作系統(tǒng)中便產(chǎn)生亂碼。文本文字的簡(jiǎn)體與繁體(文字及編碼)之間的轉(zhuǎn)換,可用BabelPad、TextPro或Convertz之類的轉(zhuǎn)碼軟件來(lái)解決。若是程序,Windows XP操作系統(tǒng),可用Microsoft AppLocale Utility 1.0解決;Windows 2000的操作系統(tǒng),大概只有用:中文之星、四通利方、南極星、金山快譯之類的轉(zhuǎn)碼軟件方能解決了。
?、?/span> GB18030字符集,包含GBK字符集、CJK Ext-A 全部6582個(gè)漢字,共計(jì)27533個(gè)漢字。宋體-18030、方正楷體(FZKai-Z03)、書同文楷體(MS Song)宋體(ht_cjk+)、香港華康標(biāo)準(zhǔn)宋體(DFSongStd)、華康香港標(biāo)準(zhǔn)楷體、CERG Chinese Font、韓國(guó)New Gulim,以及微軟Windows Vista操作系統(tǒng)提供的宋黑楷仿宋等字體亦支持這個(gè)字符集的顯示。Windows 98支持這個(gè)字符集,以下的字符集則不支持。手寫輸入法逍遙筆4.0版支持GB18030字符集及方正超大字符集漢字的錄入。
?、?/span> 方正超大字符集,包含GB18030字符集、CJK Ext-B中的36862個(gè)漢字,共計(jì)64395個(gè)漢字。宋體-方正超大字符集支持這個(gè)字符集的顯示。Microsoft Office XP或2003簡(jiǎn)體中文版就自帶有這個(gè)字體。Windows 2000的操作系統(tǒng)需安裝超大字符集支持包“Surrogate更新”。
?、?/span> ISO/IEC 10646 / Unicode字符集,這是全球可以共享的編碼字符集,兩者相互兼融,涵蓋了世界上主要語(yǔ)文的字符,其中包括簡(jiǎn)繁體漢字,計(jì)有:CJK統(tǒng)一漢字20902個(gè),CJK Ext-A 6582個(gè),Ext-B 42711個(gè),共計(jì)70195個(gè)漢字。SimSun-ExtB(宋體)、MingLiU-ExtB(細(xì)明體)能顯示全部Ext-B漢字。至今尚無(wú)單獨(dú)一款字體能夠顯示全部70195個(gè)漢字,但可用海峰五筆、新概念五筆、倉(cāng)頡輸入法世紀(jì)版、新版的微軟新注音、倉(cāng)頡輸入法 6.0 版(單碼功能)等輸入法錄入。Ext-C還有2萬(wàn)多個(gè)漢字。詳情請(qǐng)參閱香港中文大學(xué)網(wǎng)站、馬來(lái)西亞倉(cāng)頡之友網(wǎng)站、福建陳清鈺個(gè)人網(wǎng)站。
?、?/span> 漢字構(gòu)形數(shù)據(jù)庫(kù)2.3版,內(nèi)含楷書字形60082個(gè)、小篆11100個(gè)、楚系簡(jiǎn)帛文字2627個(gè)、金文3459個(gè)、甲骨文177個(gè)、異體字12768組。可以安裝該程序,亦可以解壓后使用其中的字體文件,對(duì)于整理某些古代文獻(xiàn)十分有用。
如果超出了輸入法所支持的字符集,就不能錄入計(jì)算機(jī)。如果沒(méi)有相應(yīng)字體的支持,則顯示為黑框、方框或空白。如果操作系統(tǒng)或應(yīng)用軟件不支持該字符集,則顯示為問(wèn)號(hào)(一個(gè)或兩個(gè))。在網(wǎng)頁(yè)上亦存在同樣的情況。
關(guān)于Unicode
由于各國(guó)國(guó)家標(biāo)準(zhǔn)字集所收的漢字字?jǐn)?shù)、常用字的差異,雖然象中國(guó)兩岸GB/BIG5字集常用字基本類似,轉(zhuǎn)換后閱讀并不成問(wèn)題,但是這種編碼轉(zhuǎn)換的混亂關(guān)系,對(duì)文字交流始終是一種障礙。因此相關(guān)國(guó)家的標(biāo)準(zhǔn)化組織和文字工作者經(jīng)過(guò)共同努力,終于在93年完成了包含中日韓(CJK)漢字的Unicode 漢字標(biāo)準(zhǔn)ISO 10646.1。 Unicode是完全雙字節(jié)表示的多國(guó)文字編碼體系,編碼空間0x0000-0xFFFF。 ISO 10646.1漢字標(biāo)準(zhǔn)使用編碼0x4E00-9FA5,共包含20902個(gè)漢字。其中: 大陸(S)提出的漢字17124個(gè),臺(tái)灣(T)提出的漢字17258個(gè); S與T的并集,即中國(guó)(C)提出的漢字為20158個(gè)。 日本(J)提出的漢字為12157個(gè),中國(guó)未提出的690個(gè)(Ja); 韓國(guó)(K)提出的漢字為7477個(gè),其中中國(guó)未提出的90個(gè)(Ka); Ja與Ka并集共744字。 支持Unicode編碼的相關(guān)電腦系統(tǒng)軟件,如Unix, Win95已有推出,但是由于Unicode的ASCII碼是用雙字節(jié)編碼(即一般電腦系統(tǒng)中的單字節(jié)ASCII碼前加 0x00),同時(shí)其漢字編碼與各國(guó)的現(xiàn)有編碼也不兼容,造成現(xiàn)有的軟件和數(shù)據(jù)不能直接使用,所以目前完全使用Unicode軟件系統(tǒng)的用戶并不多,大多數(shù)只將它此作為一個(gè)國(guó)際語(yǔ)言編碼標(biāo)準(zhǔn)來(lái)使用。
聯(lián)系客服