四川省科學技術協會 錢玉趾
文字記錄語言,是傳輸信息的重要工具。世界已經跨入電腦為特征的信息時代,語文應該跟上這個時代,也就是說,語文的現代化,必須適應高度信息化的要求。文字與書寫工具之間有一定的聯系和相互制約的關系,古代的蘇美爾人用蘆葦或骨棒在泥板上"壓寫"楔形文字,而印歐文字、漢字等是用筆"劃寫"出來的。在電腦時代,文字主要通過鍵盤"觸寫"出來。鍵盤上有26個字母鍵,10個數字鍵和其他符號鍵。人們敲擊這些鍵符,就能書寫、傳輸和存貯文字符號。英文是由26個拉丁字母按線型排列書寫的文字,用電腦鍵盤"觸寫",可以說是珠聯璧合,得心應手。我國的漢字,是由筆畫按平面組合的一種二維圖形。其特點是漢字的平均筆畫多、結構復雜,總字數多,而且一字一音,全靠死記硬背,不能直接用電腦進行信息處理,必須先將漢字進行編碼才行。現有的漢字編碼(包括形碼、音碼、音形碼),可以將漢字輸入電腦,在一定的范圍傳輸、存貯和輸出,在排序和情報檢索方面還無能為力。所以,實際上漢字編碼只使電腦變為一種漢字打字機,并且是效率不太高的打字機。
文字信息處理技術可分為三種方式:一、鍵盤處理;二、字符識別;三、語音識別。漢字編碼只能用于鍵盤處理的某些部分(不是全部),不能用于更高級的字符識別和語音識別方面。所以,漢字編碼只是使文字信息處理技術處于低級階段。在這種情況下,有人設計了一種漢字編碼,可應用于電腦打字,就宣布說使古老的漢字"趕上了電腦時代","在信息時代重光了",這相當于在社會主義初級階段宣布進入了共產主義一樣幼稚可笑。
在字符識別方面,光學字符識別機對于拉丁字母和阿拉伯數字的印刷體,采用16×16或18×20點陣就行,而方塊漢字的印刷體,用60×60點陣還不夠。識別英文只需識別26個字母。在日本,識別50個假名和2000個漢字,識別字符的數量約是英文字符的80倍,加之漢字結構的復雜性,日本專家估計:日本漢字識別的難度是拉丁字母的500倍。我國專家估計,識別中國一、二級漢字的難度將是拉丁字母的2000倍[1].
漢字不是拼音文字,在語音識別方面更為困難,現有的編碼也不能用于語音識別。在機器翻譯方面,我國1957年開始研究,至今近40年,成績不小。但是翻譯質量還不十分令人滿意,一些稍長的句子或結構復雜的句子,譯文質量就較差,有時簡直不能卒讀[2]。曾有人指出:"采用方塊漢字中文-外文翻譯系統,即使勉強實現,也將是世界上造價最高、效率最低的機器翻譯系統。[3]"要解決機器翻譯的質量問題,提高機器的智能化是一個方面,更重要的是要有一種精密而單義的漢語拼音文字所表達的形式語文,可惜現在沒有。
世界進入了信息時代,真正有用的信息將是具有跨文化傳通功能的信息,并且是高度精密、高度可靠的信息。作為這種信息載體的語言文字,也必須具有跨文化傳通的功能,高度精密、高度可靠,能滿足信息處理技術三種方式的要求,能滿足機器翻譯的高質量的要求。
符合高度信息化要求的漢語拼音文字,具體地說,我們認為,應該滿足以下條件:
一、采用26個國際通用的拉丁字母,從左至右,線型排列;
二、漢語是有聲調的語文,其音節應該使用字母妥善地標明聲調;
三、妥善分化同音詞,拼音詞與方塊漢字詞應基本上一一對應,沒有同形詞;
四、為了便于識讀和理解(包括人和機器的識讀理解),詞匯應有標明詞性詞義之類的詞綴,并按詞分寫。
五、有科學合理的正詞法及語法規則。
當然,上述條件不是一成不變的,在其些場合為了簡便快捷,音節可有簡化形式,詞語可有縮略式等等。
漢語拼音文字既然是一種拼音形式的文字,就應該具備拼音文字必須具備的特點。我們不妨分析一下世界上主要語種的文字。
印歐語系的絕大多數文字都具有表示詞性的詞尾或冠詞。西班牙語的名詞的性可根據詞尾辨認,以?結尾的名詞,一般都是陽性,以?結尾的名詞,一般都是陰性,冠詞放在名詞之前,表示名詞的性、數等等。形容詞的性和它所修飾的名詞的性、數相一致,修飾陽性名詞時以?結尾,修飾陰性名詞時以?結尾。動詞的原形動詞都以-ar、-er、-ir結尾(分別稱為第一、第二、第三變位動詞)。
德語的名詞是用冠詞來表示的,而且,名詞的第一個字母必須大寫,這些名詞的特征更強,如陽性名詞:der Mann(男人、夫);陰性名詞:die Frau(婦女)。德語的形容詞與西班牙語類似,也必須與名詞的性、數和格一致。德語的動詞的不定式,是由動詞的詞根加后綴-en或n構成。
世界語的單數名詞以-o結尾,陰性名詞以-ino結尾;形容詞以-a結尾;動詞不定式的詞尾都是-i,其現在式、過去式等等都有明確規定。
英語的名詞也有自己的特點,約有50個習用詞(稱為名詞限定詞),主要作用是標明其后的詞是名詞。表示人的名詞有相應的后綴,還有專門表示女性名詞的后綴。英語的形容詞也有專門的構詞后綴。英語中的名詞、動詞、形容詞相互轉類都有一定的規則。
日本在古代借用中國的漢字作為書寫文字,初期全用漢字,在平安時代產生了假名。現代日文是漢字假名混用的文字。日本借用漢字并沒有照搬,而讓有些漢字詞長了尾巴。日語的動詞以う段音結尾,如:會ぅ(會見)、行く(去)、踴る (跳)、打つ(打)、踏む(踩);日語的形容詞都以假名字母い結尾,如:赤い(紅的)、甘い(甜的)、高い(高的)、美しい(美的)。此外,還有一些助詞,在句子中起到確定主語、賓語、謂語等等的語法作用。
漢語拼音文字加上詞性詞義的詞綴,主要的作用是使文字變得精密,能準確表達,便于識讀和機器翻譯,同時還可以與區分同音詞結合起來考慮。可謂一舉兩得。例如:"父女兩個談枇杷"、"婦女兩個彈琵琶"兩句,其中詞性相同的"父女"與"婦女","談"與"彈","枇杷"與"琵琶"必須有不同的音節拼寫形式,才不致弄混。有人認為,詞性不同的同音詞不全混淆,其實不然。例如:"(撞見/壯健)的是個大傻瓜",就容易混淆。如用動詞性詞尾?、形容詞詞尾?加以區分,即:撞見zhuàngjiànd、壯健zhuàngjiànx(標調字母暫不討論),就比較理想了。
三十年代制訂推行拉丁化新文字的年代,中國還是半封建半殖民地的國家,十分貧窮落后,為了掃除眾多的文盲,文字的簡易是歷史的需要。趙元任的《通字方案》也是在中國比較貧窮的歷史背景下產生的,"兒童不識"簡化為"而同不式",已經不適應今天的需要。科學技術飛速發展的今天,每秒運算4000億次的超級計算機已經造成,宇宙飛船可以在太空對接。這一切都與高速度、高精密、高可靠分不開。我國未來的文字,必須能滿足超級計算機信息處理的要求。有些人喜歡沉緬于"一東二冬"的音韻和"篆隸行草"的書法,故步自封。從秦代兵馬俑深坑里挖出的車輛,就算轉動靈活,再加注高級潤滑油,在高速公路上只能起堵車作用。在信息高速公路上,古老的漢字也只能起堵車作用。為了國家的現代化,必須實現語文現代化。而語文現代化,必須著眼于高度信息化,設計出相應的漢語拼音文字。
注釋:
[1] 陳明遠:《語言文字的信息處理》,知識出版社1985年版
[2] 馮志偉:《邁向實用化和商品化的機器翻譯研究》,《語文建設》1994年8月
[3] Chen Guan:《機器翻譯和漢語拼音正詞法》、《語文現代化》1980.3
[語文現代化應著眼于高度信息化]相關文章:
1.信息化技術論文
8.小班教案應彩云
10.會計信息化論文