從“萬碼奔騰”中解放出來
2010年01月27日 來源:作者賜稿
摘要: 不必記憶編碼的中文信息處理 中文信息處理,從它的主要功能來說,就是在“語詞處理機”(電腦或電子打字機)上,輸入和輸出漢字文件(書信、文章、資料等),對文件加工、貯存、檢索和打印;聯(lián)系激光...
不必記憶編碼的中文信息處理 中文信息處理,從它的主要功能來說,就是在“語詞處理機”(電腦或電子打字機)上,輸入和輸出漢字文件(書信、文章、資料等),對文件加工、貯存、檢索和打印;聯(lián)系激光排印機進行排版和印刷,聯(lián)系遠距離的語詞處理機進行文件的傳輸。 實現(xiàn)這些功能的第一步,也是最關鍵的一步,是“輸入”漢字,“輸入”漢字的方法經(jīng)歷了三個發(fā)展階段。 第一階段:“速成字輸入法”。通過“大鍵盤”或“大字表”,用手指擊鍵或電筆點觸,把漢字逐個輸入。這種方法現(xiàn)在已經(jīng)不用。 第二階段:“拆字編碼法”。把漢字拆開,成為“筆畫”或者“部件”,稱作“碼元”;把“碼元”編成“代碼”,在通用的字母鍵盤上,輸入“代碼”,變成漢字。漢字的筆畫和結構非常復雜,“拆字”有無窮的可能性,因此已經(jīng)產生了了七百五十種以上的“編碼”設計,據(jù)說現(xiàn)在超過了一千種。人們戲稱為“萬碼奔騰”!這是漢字輸入法的第二階段。 第三階段:“拼音變換法”。輸入“拼音”,以“語詞”(包括“詞組、成語、語組”等)為單位,自動變換成為漢字,叫做“拼音漢字變換法”,簡稱“拼音變換法”。這種不用編碼輸入法是漢字輸入法的第三階段。 “編碼”需要學習,“拼音”也需要學習。不同的是,“拼音”在中國大陸是小學的必修課,“編碼”不是小學課程。聯(lián)合國、外國華人聚居區(qū)、外國學校的漢語課,都利用“國際標準化組織”規(guī)定為國際標準的“拼音”(ISO7098)。 輸入拼音、自動輸出漢字 “輸入拼音、自動輸出漢字”有高低兩個層次: 低層次:以“漢字”為輸入單位。例如:輸入“中國”把“中國”分為:“中”和“國”兩個“漢字”,在鍵盤上分別打“zhong”和“guo”,打“zhong”屏幕出現(xiàn)“中衷忠盅”等同音漢字,從中選擇“中”字,打“guo”屏幕出現(xiàn)“馘國摑幗”等同音漢字,從中選擇“國”字。這叫做“同音選擇法”。這種方法費事而緩慢,應當盡少使用。 高層次:以“語詞”為輸入單位。例如:輸入“中國”,不把它分為“中”和“國”兩個漢字,而是把它作為一個“語詞”整體,只要打zhongguo,屏幕就出現(xiàn)“中國”(沒有同音詞)。這叫做 “以詞定字法”。 “詞組、成語、語段”的利用。“以詞定字”,除以“語詞”作為輸入單位外,還要以“詞組、成語或語段”作為輸入單位。 “詞組”多半是兩個語詞的組合(例如“破除迷信”、“強迫命令”、“經(jīng)營管理”、“經(jīng)驗教訓”等),可以作為一個單位來輸入,也可以作為兩個單位來輸入。機關、團體和事物的“名稱”,一般是詞組形式。常用的“名稱”可以作為一個輸入單位,不常用的“名稱”可以分為若干語詞單位。 “成語”大都是“四言成語”,這要作為一個單位來輸入。“成語”常常是“文言”,其中有很多生僻漢字,作為一個單位來輸入,可以自動輸出正確的漢字,不會出現(xiàn)錯別字。例如:“懲前毖后”、“姹紫嫣紅”,其中“懲毖”、“姹嫣”等漢字很生僻,寫起來容易錯誤,由拼音自動變換成為漢字,不會錯誤。 “語段”是不成完整意義的語言片段,辭書一般不收。“常用語段”(例如:“看來”、“而又”、“之一”、“有的”、“用于”、“不是”、“也是”、“不能不”、“能不能”、“不至于”、“不方便”、“越來越…”、“百分之…”等),在打字時候常常要用到。作為輸入單位,可以大量減少同意漢字的選擇,對提高輸出效率有顯著的作用。這是由實際應用得來的經(jīng)驗,值得重視。 高頻先見和用過提前 以“語司”作為輸入單位,仍舊會遇到“同音詞”。為了減少在一組“同音詞”中的選擇麻煩,要利用語司的“使用頻度”。一組“同音詞”,往往一個常用,一個不常用。例如:“完善”和“紈扇”同音,“完善”比較常用。“紗廠”和“沙場”同音,“紗廠”比較常用。處理機要“記好”哪個常用,首先把它顯示出來。這樣可以減少選擇,提高輸出速度。這叫做“高頻先見”。 有時需要的語詞湊巧是一個不常用的。這時候就不能避免在“同音詞”中進行選擇??墒?,只要選擇一次,不要選擇第二次。處理機已經(jīng)知道用戶的“需要”,下一次就立刻把“需要”的一個首先顯示出來。這是一種“記憶功能”,叫做“用過提前”。 “高頻先見”和“用過提前”使同音選擇減少到最低限度。 對打簡拼和雙打全拼 輸入“拼音”的打字有兩種打法。一種是“全拼”,另一種是“雙拼”。 “全拼”是通俗說法。正確的說法是:“逐個字母打”。每個音節(jié)平均要打三下,如果標調,要打四下。 “雙拼”也是通俗說法。正確的說法是:“聲韻雙打”。“聲韻雙打”又有兩種方式: 一種是:“雙打簡拼”。例如:“中”的音節(jié)zhong,分為聲母zh和韻母ong,用v作為“雙字母zh”的簡拼,用b作為“復韻母ong”的簡拼,打兩下,出現(xiàn)“vb”兩個字母,代表“中”的音節(jié)。用戶要記好什么字母代表什么“雙字母”和“復韻母”。“雙打簡拼”實際是一種“縮略碼”,使用不便。 另一種是:“雙打全拼”。例如:打zhongguo(中國),第一下整個出現(xiàn)“zh”,第二下整個出現(xiàn)“ong”,第三下出現(xiàn)“g”,第四下整個出現(xiàn)“uo”,不用簡拼。每字打兩下,就出現(xiàn)完整的“zhongguo”。“雙打全拼”要求把“雙字母”和“復韻母”都刻印在字鍵上,一看即知,不用記憶。 “雙打”的原理是:奇數(shù)(單數(shù))擊鍵是“聲母”,偶數(shù)(雙數(shù))擊鍵是“韻母”。沒有聲母(aoe開頭)的音節(jié),要補打一個“零聲母”打(o)。 Y和W作為“聲母”。“雙打”的擊鍵次數(shù)最少,每個音節(jié)只打兩次。以“語詞、詞組、成語、語段”作為輸入單位,沒有必要打調號,這對方言區(qū)來說是個方便。 “拆字編碼”和“拼音變換”都可以規(guī)定“最常用字”一鍵一字的輸入法。“拆字編碼”的一鍵一字,例如:“G一,R的,B了,T和,J是,O為等,字音跟字母沒有聯(lián)系,不便記憶。“拼音變換”的一鍵一字,例如:“Y一,D的,L了,H和,S是,W為”等,字音聯(lián)系字母,容易記憶。 看打、聽打、想打 使用中文電腦或中文電子打字機,有三種使用方式:看打、聽打和想打。 看打:看著已經(jīng)寫好的文稿來打字,叫做“看打”。這是職業(yè)打字員的工作方式。這種打字,可以用“拆字編碼法”,也可以用“拼音變換法”。 聽打:聽著別人講話,在處理機上打成文字,這叫“聽打”。“聽打”有速記的作用,這是開會記錄、法院開庭等場合所需要的工作。在拼音文字的國家里,辦公室寫信,常常是一人口說,一人“聽打”。“拆字編碼法”不便使用于“聽打”。使用“拼音變換法”來聽打,比較方便。 想打:寫作者在處理機上自己寫信、寫文章,一面想,一面打,沒有預先寫好的原稿,這叫做“想打”。在拼音文字的國家里,這是最普遍的打字方式。對“想打”來說,“拆字編碼”是不方便的。因為,“想打”時候,想的是語言,不是漢字。要把語言變成漢字,再把漢字的形體變成“編碼”,這種多轉一個彎的輸入法,會干擾“想打”的思路。使用“拼音輸入”,可以把想到的語言,立即變成“拼音”,不必考慮漢字如何寫,由處理機去自動轉換成漢字,而且簡體繁體都能自動變換。 設計速度和操作速度 “輸入速度”有兩種:“設計速度”和“操作速度”。兩種速度不可“混而統(tǒng)之”稱為“速度”。 “設計速度”:打一個漢字,不同的設計,按鍵次數(shù)不同。次數(shù)多,速度慢;次數(shù)少,速度快。這可以根據(jù)設計來計算。“拼音輸入”,以“語詞、詞組、成語、語段”作為輸入單位,用“雙打全拼法”來輸入,每個漢字平均只打兩下,不用標調。這是最快的設計速度。 這里要說明一點:計算“設計速度”,要看基本設計,不能看“縮略法”。“縮略法”能提高速度。可是,“縮略法”是任何設計都可以使用的,不是某一種設計的特點。例如:任何設計都可以用一個漢字或一個字母代表一長串文字。這是“基本設計”之外的“附加設計”。 “操作速度”:“操作速度”決定于打字員操作技能的熟練程度。同樣的輸入設計,各人的“操作速度”不同。比賽“操作速度”要用同樣的輸入設計來測定。“設計水平”和“熟練程度”是兩種不同的因素。用不同的設計來測定所謂“速度”,只能得到“設計水平”和“熟練程度”兩種不同因素的“混合效果”,既不能完全說明“設計”的好壞,也不能完全說明“熟練”的程度。 機械化和電子化 “打字機”有兩種:一種是“機械打字機”,另一種是“電子打字機”(處理機)。 “機械打字機”是“機械化”時代的產物,已經(jīng)有一百年的歷史。漢字字數(shù)太多,不便造成靈便的機械打字機,寫作者無法在“中文機械打字機”上起稿打寫書信和文章。中國的知識分子失去了一個“機械打字機”的時代。 “電子打字機”是“電子化”時代的產物。“電子打字機”實際是一臺微型電腦。它能夠處理“大字符集”的文字,包括中文、日文和朝鮮文。“大字符集”的文字,只能通過“媒介”(“編碼”或“拼音”)來間接輸入,不能用字母來直接輸入??墒沁@也使中國、日本和朝鮮進入了“信息處理”的國際行列。如何使“中文電腦”或“中文電子打字機”成為使用便利、不用編碼的現(xiàn)代化“想打”工具,是“中文信息處理”今后應當探討的課題。“拼音變換法”可以兼容臺灣通行的“注音符號”。 “拼音變換法”起源于日本。日本處理機經(jīng)過了三個發(fā)展階段:整字輸入、編碼輸入和假名變換。80年代開始,假名變換(包括日語羅馬字變換)占領了整個日本市場。日本已經(jīng)進入“無編碼”信息處理時代。中國應當向日本看齊,急起直追。 從“萬碼奔騰”中解放出來! 上文所談是本文作者的實際經(jīng)驗和研究體會,謹供同好者參考,并請指正錯誤、提出疑問。 長期以來,本文作者試用過多種輸入方法,自己在50年代就設計過編碼。“拼音變換法”本身必須精益求精,不斷改進。但是,改進的方法是增加智能化的功能,不是附加編碼。在過去六個年頭里,本文作者用“拼音變換法”每天寫信、寫文章、寫書稿,沒有一天間斷。實踐使我深信:從“拆字編碼”到“拼音變換”是中文信息處理向前發(fā)展的必由之路。中文信息處理完全可能從“萬碼奔騰”中解放出來。