韓小明: 原來(lái)漢語(yǔ)的思路更接近計(jì)算機(jī)語(yǔ)言 | 2009-11-15 14:23:01 | |
漢語(yǔ)不需要變單數(shù),復(fù)數(shù)和時(shí)態(tài),我要表示復(fù)數(shù),只需要加功能詞就可以了,不會(huì)影響單詞本身,比如一只鳥,一些鳥,但是在英語(yǔ)中就要影響所有的幾萬(wàn)個(gè)單詞,相應(yīng)的“是”在英語(yǔ)中也要變成is are were be等等,但是我們?cè)诤芏嗲闆r下不需要關(guān)心時(shí)態(tài)和數(shù)量,這與使用面象對(duì)象是一個(gè)道理。
漢語(yǔ)可以表達(dá)“樹上有鳥”的相對(duì)抽象概念,而用英語(yǔ)表達(dá)類似“樹上有鳥”時(shí),每次都要指定具體數(shù)量和時(shí)態(tài)以及單詞的變化,只能表達(dá)“一棵樹上有只鳥”“一棵樹上有一些鳥”“一棵樹上曾經(jīng)有一些鳥”“一些樹上有些鳥”“一些樹上曾經(jīng)有一些鳥”等等,就是無(wú)法表達(dá)“樹上有鳥”。漢語(yǔ)中這個(gè)函數(shù)“()樹上有()鳥”是不變的,變的只是不同的參數(shù),而英語(yǔ)卻要連單詞和整句一起變,相當(dāng)于是重寫一段,無(wú)法直接調(diào)用函數(shù)。
漢語(yǔ)基本字庫(kù)GB2312,只需要掌握2312個(gè)常用漢字,就可以了,而在新的詞匯,比如類似計(jì)算機(jī),互聯(lián)網(wǎng),飛機(jī),電視這樣的新詞匯根本就不需要學(xué)習(xí)就會(huì),但是在英語(yǔ)就是兩個(gè)新的單詞,要重新讀會(huì)和背會(huì)拼寫方法,所以即使背了2萬(wàn)個(gè)英語(yǔ)單詞遠(yuǎn)遠(yuǎn)不夠,我們還是覺得很困難。漢字是主表意的,并且具有組合和繼承性、派生性,所以我們只需要掌握2千個(gè)字漢而不是要學(xué)5萬(wàn)個(gè)完全不一樣的新單詞。所以我們稱漢字是智能語(yǔ)言,屬高級(jí)語(yǔ)言,而英語(yǔ)就是密碼語(yǔ)言,類似于二進(jìn)制的機(jī)器語(yǔ)言。
漢語(yǔ)不因數(shù)或時(shí)態(tài)等等而作詞尾變化,用C++(一種計(jì)算機(jī)語(yǔ)言)的概念來(lái)講,實(shí)際上就是一種重載(Overload)。重載是C++的兩大主要特點(diǎn)之一(另一個(gè)特點(diǎn)是類(Class))。所謂重載就是一個(gè)函數(shù)或算符具有一個(gè)以上的不同含義,而計(jì)算機(jī)根據(jù)執(zhí)行函數(shù)或算符時(shí)的環(huán)境來(lái)確定其含義。這里的“環(huán)境”,在C++中,包括變量的類型,個(gè)數(shù),順序等等。在本文先前提到的“樹上有鳥”的例子中,這個(gè)“有”字,當(dāng)指一只鳥時(shí),就相當(dāng)于“is”;當(dāng)指許多鳥時(shí),就相當(dāng)于“are”。若再包括時(shí)態(tài),那么,“有”字實(shí)際上重載了4種含義,即“is”,“are”,“was”和“were”。這樣的重載的好處和C++中的重載的好處是一樣的,都使語(yǔ)言的適應(yīng)性更強(qiáng) ,效率更高。沒有重載的計(jì)算機(jī)語(yǔ)言在調(diào)用函數(shù)前,必須將變量的類型,個(gè)數(shù)一一查明以便調(diào)用所對(duì)應(yīng)的函數(shù)。與此類似,未重載的英語(yǔ)必須先把鳥數(shù)清楚后才能造出邏輯和語(yǔ)法都正確的句子來(lái)。而重載的漢語(yǔ)不必預(yù)先數(shù)鳥就能造出正確的句子來(lái)。這正是漢語(yǔ)語(yǔ)法優(yōu)越的地方。C++中的重載是狹義的,而人們的語(yǔ)言包含更廣義的重載,因?yàn)樯厦嫠龅摹碍h(huán)境”在人類語(yǔ)言中遠(yuǎn)較C++中的多樣化??梢赃@樣認(rèn)為:同樣一句話在不同的時(shí)間、場(chǎng)合、地點(diǎn)等等可能具有不同的含義,實(shí)際上就是廣義的重載。正是因?yàn)橛辛酥剌d,人們的語(yǔ)言才顯得生動(dòng)、活潑、富有內(nèi)涵。順便提一下,C++的另一特點(diǎn)――類,其實(shí)也正是漢語(yǔ)的特點(diǎn)。以英語(yǔ)看漢語(yǔ)的“是”確實(shí)屬于重載(Overload)的。 漢語(yǔ)還有個(gè)好處就是面向?qū)ο蟆?金-所有金屬的虛的祖先類鐵,銅,銀等等都是由金派生的。所以看到金字旁就知道是金屬石-所有非金屬的虛的祖先類 碳,碘,硒看到石字旁就知道是非金屬 氣-氣體的虛的祖先類等等所以用漢語(yǔ)學(xué)習(xí)自然科學(xué)(包括物理、化學(xué)等等)最方便了。否則給你一個(gè)S(硫)。誰(shuí)知道是什么東西呢。還有中國(guó)的一些哲學(xué)思想也和計(jì)算機(jī)有關(guān)道家認(rèn)為世界都是由陰陽(yáng)兩種東西構(gòu)成的。按不同組合可以構(gòu)成萬(wàn)物。這不就是現(xiàn)在的二進(jìn)制么,計(jì)算機(jī)里面的世界在復(fù)雜也是由二進(jìn)制數(shù)構(gòu)成的道家還說(shuō)道生一,一生二,二生三,三生萬(wàn)物。比較符合現(xiàn)代計(jì)算機(jī)語(yǔ)言的單根繼承。一二三都是虛的祖先類。比較新的語(yǔ)言例如Delphi、Java、.Net都是單根繼承的。
本人曾問系里的幾個(gè)教授“長(zhǎng)方體”如何用英文講,可這幾位母語(yǔ)是英文的工科教授竟說(shuō)不知道,接下來(lái)連問幾個(gè)本地的研究生,結(jié)果他們也不知道。著實(shí)令我大吃一驚!現(xiàn)在我要問讀者:您知道么?反正不是Cube,Rectangular...。后來(lái),我倒是真的在字典里找到了該詞,可現(xiàn)在又忘了,原因是它太生辟。感嘆,英文真是笨人的語(yǔ)言,試圖給天下每一事物起一個(gè)名字。宇宙無(wú)窮,英文詞匯無(wú)!!!詞匯如“光幻覺”、“四環(huán)素”、變阻器”、“碳酸鈣”、“高血壓”、“腎結(jié)石”、“七邊形”、“五面體”都只有專業(yè)人士才會(huì)。根本不可能象漢語(yǔ)那樣觸類旁通,不信?去親自問問母語(yǔ)是英文的人好了。英文是發(fā)散的。搞的一些基本概念如“長(zhǎng)方體”也只有專家才會(huì)講!怪不得英文世界里專家那么多,而且都那么自信;是啊,一般人連他們的基本術(shù)語(yǔ)如“酒精綿球”“血壓計(jì)”都不會(huì)講。生活在英文世界真是對(duì)無(wú)知無(wú)奈!可悲可憐!
英文是一維的,是密碼語(yǔ)言。寫英文是編碼,讀英文是解碼。細(xì)想想:如把英文的a、b、c、d、e換成1、2、3、4、5,并沒有什么原則上的區(qū)別。按上邊的對(duì)應(yīng),如一開始就把cab寫成312,用一樣的讀音,又有什么不可以?漢語(yǔ)就不同了,是二維的(紙面上的最大維數(shù)),最大限度地利用了紙面的幾何空間。每個(gè)漢字就是一幅畫。試問從一幅畫上得到的信息快,還是從一行密碼中得到的信息快?
國(guó)家漢字的掃盲標(biāo)準(zhǔn)是1500個(gè)字,理工科的大學(xué)生一般掌握2000個(gè)漢字。就憑這2000個(gè)字,大家可以讀書、看報(bào)、搞科研??稍谟⑽氖澜缋?,沒有20000個(gè)字別想讀報(bào),沒有30000個(gè)字別想把周刊讀順,大學(xué)畢業(yè)10年后的職業(yè)人士一般都懂80000字。新事物的涌現(xiàn),總伴隨者英文新詞,例如火箭(ROCKET),計(jì)算機(jī)(COMPUTER)等,可漢語(yǔ)則無(wú)須,不就是用“火”驅(qū)動(dòng)的“箭”么,會(huì)“計(jì)算”的“機(jī)”么!可英文就不能這么干,不能靠組詞,原因是“太長(zhǎng)”了。如火箭將成為“FIRE-DRIVEN-ARROW”,計(jì)算機(jī)將成為“COMPUTAIONAL-MACHINE”等。人的視角有限,太長(zhǎng)的字會(huì)降低文章的可讀性與讀者的理解能力?! ?
目前,英文詞匯已突破40萬(wàn),預(yù)計(jì)下世紀(jì)中葉,將突破100萬(wàn)大關(guān)。而漢語(yǔ)則相對(duì)穩(wěn)定,現(xiàn)在中學(xué)生還可以瑯瑯上口地讀屈原的楚詞。英文就難了,太不穩(wěn)定?,F(xiàn)在的人們讀沙士比亞的原著已困難重重,更不用說(shuō)讀400年前英國(guó)詩(shī)人喬叟的詩(shī)了。學(xué)GRE的時(shí)候,注意到很多韋氏字典收錄的詞匯竟是本世紀(jì)件初的新詞,如“Gargantuan”取自拉伯雷的小說(shuō)。這也不奇怪,畢竟英文400年前才統(tǒng)一了拼寫。
___________________________________________
關(guān)于 gb2312, 也叫g(shù)b2312-1980, 是全球廣泛使用的一個(gè)字符集,由于歷史比較早,所有受眾面也最大.
GB2312或GB2312-80是一個(gè)簡(jiǎn)體中文字符集的中國(guó)國(guó)家標(biāo)準(zhǔn),全稱為《信息交換用漢字編碼字符集--基本集》,由中國(guó)國(guó)家標(biāo)準(zhǔn)總局發(fā)布,1981年5月1日實(shí)施。GB2312編碼通行于大陸;新加坡等地也采用此編碼。幾乎所有的中文系統(tǒng)和國(guó)際化的軟件都支持GB2312。
GB2312標(biāo)準(zhǔn)共收錄6763個(gè)漢字,其中一級(jí)漢字3755個(gè),二級(jí)漢字3008個(gè);同時(shí),GB2312收錄了包括拉丁字母、希臘字母、日文平假名及片假名字母、俄羅斯語(yǔ)西里爾字母在內(nèi)的682個(gè)全形字符。
GB2312的出現(xiàn),基本滿足了漢字的計(jì)算機(jī)處理需要,它所收錄的漢字已經(jīng)覆蓋99.75%的使用頻率。
對(duì)于人名、古漢語(yǔ)等方面出現(xiàn)的罕用字,GB2312不能處理,這導(dǎo)致了后來(lái)GBK及GB18030漢字字符集的出現(xiàn)。
接下來(lái)就是比較新的gb18030
* GB18030 也是對(duì) GB2312 的擴(kuò)展,其編碼長(zhǎng)度由 2 個(gè)字節(jié)變?yōu)?1~4 個(gè)字節(jié)
o 單字節(jié),其值從 0 到 0x7F。
o 雙字節(jié),第一個(gè)字節(jié)的值從 0x81 到 0xFE,第二個(gè)字節(jié)的值從 0x40 到 0xFE(不包括 0x7F )。
o 四字節(jié),第一個(gè)字節(jié)的值從 0x81 到 0xFE,第二個(gè)字節(jié)的值從 0x30 到 0x39,第三個(gè)字節(jié)的值從 0x81 到 0xFE ,第四個(gè)字節(jié)的值從 0x30 到 0x39 。
是以保持 GB2312/GBK 反向兼容的條件下,加入 4-byte 部份,讓 GB18030 可以
完全地 一對(duì)一 映射到 Unicode U+0000..U+10FFFF,是一個(gè)「一勞永逸」的方案。