- 相關推薦
機器翻譯中漢語動結式生成的過程和困難
1.引言
當電子計算機1946年問世的時候,人們就提出了機器翻譯的想法,并且在1954年進行了第一次機器翻譯試驗。然而與后來的各種語言信息處理研究和應用(語言信息檢索、文本自動分類、自動文摘、信息提取等等)相比,機器翻譯卻是進展最慢的。學者們傾其大半生精力、商家投入為數(shù)可觀的資金,經歷五十多年不懈的研究和開發(fā),得到的成果或者產品卻常常不能令人滿意。
原因是什么呢?從語言研究的角度來說,機器翻譯系統(tǒng)分析、理解和生成自然語言的能力都還不到位,處理不了的語言現(xiàn)象很多:有的是句子結構層次弄錯了,有的是結構關系弄錯了,有的是成分之間的語義關系弄錯了,有的是詞義辨識錯了,還有的錯誤是源語和目標語之間的對比差異造成的。下面是機器翻譯處理漢語動結式不成功的幾個例子(來自三個機器翻譯系統(tǒng))。
先看生成的情況,機器翻譯目前還很難生成漢語的動結式,所以我們很少在漢語譯文里見到含有動結式的句子。對于下面這個英譯漢的例子,三個系統(tǒng)都不能翻譯成“他把地掃干凈了”:
He swept the floor clean. * 他干凈地掃地了。
* 他清掃清潔的地板。
* 他清掃地板干凈。
再看漢語動結式翻譯成英語的例子,它們可以說明目前機器翻譯系統(tǒng)分析和理解漢語動結式的能力:
他踢壞了三雙鞋。 *He plays three pairs of evil shoes.
*He kicked three pairs of shoes bad.
*Him kick spoil 3 pairs of shoes.
這段路把媽媽走累了。*The way make mother tired after the walk.
*This section of way was walked mother tired(ly).
*This road mother walk tired.
大家吃膩了剩菜。*Everybody has fedded up with the leftovers.
*That everybody ate greasy(ly)surplus vegetable.
*All eat,is loathe to leave vegetable.
下面我們只討論動結式的生成問題,其中不包括以下三種情況:1)補語用“得”字連接的;2)補語虛化的,如:“抓住”、“買著”、“看完”、“辦成”等;3)補語和動結式的賓語有固定搭配關系的,如:“說走了板”、“看愣了神”、“苦出了頭”等等。
2.機器翻譯中的動結式問題
為了說明機器翻譯如何處理動結式述語結構,我們需要先看看機器翻譯的過程。下圖說明了機器翻譯的原理,也是機器翻譯的整個過程。
附圖
圖1 機器翻譯的過程
顯然,這是一個理想化的機器翻譯過程。從S到I再到T的過程是中介語言的翻譯策略,中介語言通常是某種獨立于源語和目標語的邏輯表達式。如果是英譯漢,對英語的分析和理解要從表層深入到底層,得到描述句子意義的中介語言邏輯表達式。同樣地,漢語也要從底層到表層一步一步生成。分析時從表層到底層走得越深,生成時從底層回到表層的過程也就越復雜。因此,需要分別對這兩種語言的句法和語義系統(tǒng)作深入的研究。實際上目前大部分機器翻譯系統(tǒng)都作不到這個程度,常見的翻譯策略是直接法或轉換法,或直接和轉換相結合的混合方法。我們可以通過一個英譯漢的例子對直接法、轉換法和中介語言法這三種翻譯策略作一個比較:
You get good reception on your radio.(摘自某產品說明書)
譯句1 你得到好的接收在你的收音機上。
譯句2 你用你的收音機得到好的接收。
譯句3 你的收音機接收情況良好。
在機器翻譯系統(tǒng)中,用直接法可以得到譯句1;用基于句法的轉換法,再加上一些語義關系的分析,能得到譯句2;譯句3是基于理解的,用中介語言法有可能作到。顯然,前一節(jié)關于動結式英譯漢和漢譯英的例子,都不是基于理解的翻譯。
動結式的結構形式簡潔,語義關系復雜,在漢語里是很有特點的一種結構。呂叔湘先生(1986)曾用它說明漢語句法的靈活性。人們在從各種角度論述動結式述補結構的時候,常常會提到它在對外漢語教學當中是個難點。同樣,在機器翻譯中它也是個難題。在漢語翻譯成外語的系統(tǒng)里,難的是如何分析和理解動結式述補結構。在外語翻譯成漢語的系統(tǒng)里,難的是如何生成含有動結式的句子。
我們在這里只討論生成的情況。在這種情況下,源語(例如英語)往往沒有相當于漢語動結式的結構形式,也很難用轉換規(guī)則把英語的某些結構形式與漢語動結式聯(lián)系起來。所以除非用個別處理的辦法,采用直接法和轉換法翻譯策略的系統(tǒng)很難生成漢語的動結式譯文。要讓系統(tǒng)有
生成動結式的能力,就要按中介語言法的思路,增加分析的深度,理解源語句子要表達的意思(各個成分的概念意義、成分之間的關系意義,句子的句式意義,等等),然后根據(jù)意義表達的需要,選擇動結式的一種結構形式,再生成表層的句子。目前我們對漢語的研究還不足以支持這樣的生成過程。所以在現(xiàn)有的機器翻譯系統(tǒng)輸出的漢語譯文當中,很難找到地道的含有動結式述補結構的句子。于是就有了下面的譯文:
He has made the question complicated.他已使問題復雜化。(他把問題搞復雜了。)
The children have had enough to eat.孩子們已吃了足夠。(孩子們吃飽了。)
這樣的譯文對機器翻譯來說就算不錯了,只是念起來有些別扭,有點“機器味兒”。
3.動結式的生成過程
機器翻譯譯文生成的任務是從要表達的意義出發(fā),經過選擇詞語、確定詞語間的語義關系、確定目標語句子的句法結構等步驟,最終輸出與源語言句子在意義上等價的表層字符串。對于動結式的生成,有以下幾步:
(一)確定要表達的意思 。ㄋ模┱险Z義結構
。ǘ┻x擇詞語、分派語義角色 (五)選擇句法表現(xiàn)形式
。ㄈ┡袛嗪戏ㄐ浴 。┨幚肀韺釉~語
3.1 制定要表達的意思
漢語動結式述語結構表達的是一種“動作—結果”事件。比如要生成的意思是:小王讀了這篇文章,結果小王懂了這篇文章。在漢語生成開始之前,機器翻譯系統(tǒng)用中介語言邏輯表達式表示要生成的譯文是什么意思。一般來說,如果這個表達式里面有兩個謂詞結構,并且二者之間有“動作—結果”關系,就可以進入漢語動結式的生成過程。
中介語言邏輯表達式是從源語(譬如英語)分析得到的,源語中的述謂結構和“動作—結果”關系會在表達式中有所體現(xiàn)。但這并不是判斷能否生成漢語動結式的惟一依據(jù)。我們在上一節(jié)提到,英語往往沒有相當于漢語動結式的結構形式,也很難用轉換規(guī)則把英語的某些結構形式與漢語動結式聯(lián)系起來,這是就句法結構來說的。實際上,由于英、漢語之間在“動作—結果”關系表達上的差異,(注:戴浩一(2002)指出:“動作—結果”基模雖然在漢、英語中都存在,但是在漢語中占主導地位,而在英語中占次要甚至邊緣地位。而且,這個基模在兩個語言對客觀情況的構建上也因經驗的概念化不同而呈現(xiàn)不同的形式。)在從源語分析得來的語義表達式里,可以用漢語動結式生成的“動作—結果”關系有時是隱含的,與此相關的述謂關系也有不同的表現(xiàn)形式。比如:
英語對動作對象的描寫在漢語中有時可以表達成動作的結果:
She married the wrong person. 她嫁錯了人。
He entered the wrong door. 他進錯了門。
漢語中動詞的結果補語在英語中有時是說明動作的狀態(tài)和程度的成分:
電視看久了!o watch TV for a very long time.
我英語學晚了。 It was very late when I started to learn English.
還有,致使“動作—結果”事件發(fā)生的某些因素在漢語里常?梢猿洚攧咏Y式的一個論元角色,(注:袁毓林(2001)稱其為外來的致事。)而在英語里它們往往充當其他成分:
那場可怕的暴風雪凍死了不少人。Many people froze to death in the terrible snowstorm.
沙發(fā)把你坐懶了。You are becoming lazy on the sofa.
所以我們需要一組規(guī)則,在要生成的語義表達式里判斷有沒有應該用漢語動結式表達的述謂關系。在這組規(guī)則里,除了兩個謂詞結構及其顯性的“動作—結果”關系符合判斷條件以外,還應該有能夠識別和提取隱含的“動作—結果”關系及其述謂結構的條件。這就需要研究英語和漢語在表達“動作—結果”關系時的差異。這種差異有時在某種類別下表現(xiàn)出來,有時又很個性化,只跟具體詞語有關。目前機器翻譯系統(tǒng)還沒有找到這樣的規(guī)則。所以我們就暫時只能看到“她嫁給了錯誤的人”和“他進了錯誤的門”這樣的譯文。
3.2 選擇詞語
選擇詞語需要有一部用于信息處理的漢語詞典,告訴我們詞語和它們的意義,以及它們的用法(比如,謂詞的配價結構及其論元的限制條件)。對于前面的例子,需要先在詞典里選出“小王”、“讀”、“懂”、“文章”這些詞,然后根據(jù)詞語的意義和邏輯關系為它們分派語義角色。這些詞在中介語言邏輯表達式里是實體和謂詞。“了”、“結果”、“這”等是算子或關系,把它們轉成詞匯形式還需要另外的分析和處理。詞語選擇和語義角色分派的結果可以表示成樹形圖或特征集合等形式。
附圖
圖2 詞語選擇和角色分派的結果
Agen表示施事,Pred表示謂詞,Pati表示受事,Cont表示內容,Expe表示經驗者(當事)。
即使有一部詳盡的詞典,要讓機器根據(jù)意義選擇詞語也不是一件容易的事情。我們經常需要在幾個同義詞或近義詞當中進行取舍。比如,漢語的“看”有read的意思,用它來表達我們要生成的意思比“讀”更地道。根據(jù)什么樣的規(guī)則選擇“看”,不選擇“讀”?目前漢語詞匯和語義的研究還不能形式化地回答這個問題。機器翻譯系統(tǒng)只好先根據(jù)詞語搭配的優(yōu)先關系來判斷。一種作法是,借助描寫詞語概念的語義詞典,用統(tǒng)計語言模型計算語義相似度,讓計算機學會表示和比較詞語搭配的優(yōu)先關系。但是,用這種工程化的方法并不能繞過漢語研究的作用,因為一個統(tǒng)計語言模型能否達到比較好的處理效果,很大程度上取決于采用什么樣的語言學知識作為參數(shù)。
3.3 判斷合法性
經過詞語
選擇和角色分派,得到了圖2表示的兩個謂詞結構。這一步的任務是,判斷能不能用動結式述語結構表示這兩個謂詞結構及其關系。具體說就是,“看”和“懂”能不能合成“看懂”,并且表示中介語言邏輯表達式要求的“動作—結果”關系。因此合法性的問題關系到哪些動詞和哪些形容詞(或動詞)能夠組合成符合漢語習慣的動結式。
如果給機器翻譯系統(tǒng)提供一個詞表,列出一批動結式的詞語,而“看懂”又剛好在這個詞表里,那么判斷這件事情就比較容易。譬如,在動詞“學”的兩個義項(“學習”和“模仿”)下面,《漢語動詞用法詞典》(孟琮等,1999)列舉了8個動結式實例,《中國語補語例解》(侯精一等,2001)列舉了12個。這兩部詞典是面向人的,如果給機器翻譯用就還需要收錄更多的實例。比如“學懂”、“學膩”,等等(我們在本文的第四部分列舉了“學”下面84個可能需要生成的動結式實例)。實際上,詞表只適用于小范圍的實驗型翻譯系統(tǒng)。動結式述語是一種自由結構,是根據(jù)說話的需要臨時造出來的,因此應該是不勝枚舉的。
我們可以這樣想,“學”是一種認知行為,“懂”、“明白”等詞語表示認知活動的效果,因此可以當“學”的結果補語。但人們也常說“這孩子學歪了”、“把身體學垮了”。“歪”和“垮”又根據(jù)什么是“學”的結果補語呢?這些補語該用什么條件來生成?我們將在第四部分進一步討論這個問題。
如果這一步判斷的結果是不能生成合法的動結式,那么就需要回到上一步,重新選擇詞語,直到找不到符合預定的語義要求的詞語為止。
3.4 整合語義結構
作為一個述謂性的結構整體,動結式有自己語義上的支配成分,包括論元成分和附加成分,我們把這些語義關系的和統(tǒng)稱為語義結構。在這一步,我們需要根據(jù)動詞和補語各自的語義結構,確定動結式整體的語義結構,主要是配價結構(價語的數(shù)量和性質)。
動結式的配價結構不等于其構件(動詞或補語)的配價結構,也不簡單地等于二者之和。動結式的配價與其構件的配價之間有沒有對應關系?如何從動詞和補語各自的配價結構得到動結式的配價結構?袁毓林(2001)、郭銳(1995)和王紅旗(1995)都曾經作過研究,在解釋成因的同時,尋找動結式對其構件原有的論元進行選擇的控制規(guī)則。在一定范圍內應用這些規(guī)則,我們可以從動詞和補語的配價結構推算出動結式的配價結構。包括價語的數(shù)量:動結式是一價的、二價的,還是三價的;以及價語的性質:動結式述語結構中各個論元的語義角色是什么(主要分為主體格(主論元)、客體格(賓論元))。對于前面的例句,我們就可以得到,動結式“看懂”是二價的,它的兩個論元是“他”(主體格)和“文章”(客體格)。價語的數(shù)量和性質是下一步選擇句法結構的主要依據(jù)。
在動結式生成的整個過程中,漢語語法學者提出的論元整合規(guī)則是可以直接影響生成算法的規(guī)則,這樣的結論在目前的漢語語法研究中還為數(shù)甚少。機器翻譯十分重視這一組規(guī)則的作用,也期待著對它更加深入的研究和完善。(注:譬如,袁毓林(2001)提出的準入規(guī)則在論元整合結果為等價的情況下是有效的,也是可操作的,對增價的情況雖然有處理的規(guī)則,但是計算機不大容易操作,對減價的情況還沒有提出有效的處理辦法。)
3.5 選擇句法表現(xiàn)形式
這一步要做的是,選擇什么樣的句法手段去表現(xiàn)動結式的語義結構。動結式有很多表層結構類型,李臨定(1986,181-204頁)曾歸納了五類句型:
(1)N[,1]+V+C 媽媽急哭了
(2)N[,1]+V+N[,2]+V+C 他走路走累了
(3)N[,1]+V+C+N[,2] 我點亮了油燈
(4)N[,1]+V+N[,2]+V+C+N[,3] 他拍桌子拍疼了手
(5)N[,1]+把+N[,2]+V+C+N[,3] 火把他的衣服燒穿了幾個洞
前四類還各有四種可能的表層變換形式(“把”、“被”、“得”字句及其他)。到底應該選取哪一種生成我們的句子呢?這是如何在語義結構和句法結構之間尋找對應關系的問題,我們打算在第五部分就這個問題作進一步的討論。
3.6 處理表層詞語
選定了句子的表層結構和語序以后,剩下的事是用詞匯手段表達某些句法或語義范疇。比如:時、體、否定、指代、有定、數(shù)量,等等。然后輸出最后生成的結果。對于我們的例子就是:“他看懂了這篇文章”。句子里的“了”、“這”和“篇”是在這一步生成的。
機器翻譯生成漢語動結式時,在句子表層要處理的問題很多,每一個問題也都很復雜,比如時體成分、否定成分的語序等,需要作專門的研究。
3.7 操作過程的控制
需要說明的是,上面各個步驟的操作并不是無條件依次進行的。當在某一步無法得到確定的結論時,應該中止動結式的生成過程。
4.動詞和結果補語的組合關系
動詞和結果補語的組合應該是基于語義的。要想離開詞表的限制,判斷哪些動詞和哪些形容詞(或動詞)可以組合成符合漢語習慣的動結式,就需要從語義上研究動補之間的組合類型和規(guī)則。顯然,這件事情不是機器翻譯力所能及的。在這里我們只能先從個例入手,看看單音節(jié)動詞和單音節(jié)形容詞作動詞“學”的結果補語的情況,或許能夠從中看到這個問題的困難所在。
動詞“學”的意思是“學習”或“模仿”。在《現(xiàn)代漢語語法信息詞典》(注:由北京大學研制的用于信息處理的電子詞典,其中有按義項收錄的14479個動詞,2856個形容詞。通過檢索每個詞的屬性,我們可以知道哪些動詞可以帶結果補語,哪些形容詞、動詞可以作結果補語。)(俞士汶,1998,以下稱《語法信息詞典》)中,列出了可以作結果補語的單音節(jié)形容詞204個,(注:馬真等(1997)列出了可以作結果補語的單音節(jié)形容詞153個。)單音節(jié)動詞112個。經過一一搭配測試,其中有54個形容詞和30個動詞能作“學”的結果補語。這樣我們就從《語法信息詞典》中一共得到了84個可能的動結式實例。然后按照《知網》(注:用于自然語言處理的知識系統(tǒng),由董振東等研制。以從大量詞語中提取出來的“義原”為基本描述單位,采用一種結構化的描述語言來描述概念與概念之間,以及概念的屬性與屬性之間的關系,包括上下位關系、同義關系、反義關系、對義關系、部件與整體關系、材料和成品關系、屬性和宿主關系,以及屬性值和屬性的指向關系、時間和角色關系;ヂ(lián)網網址:http://www.keenage.com)(董振東等,2001)的定義為每一個實例的補語作語義類別標注,再作聚類分析,整理出“學”的結果補語的六個語義類別。其中A、E、F三類作補語的是形容詞,B、C、D三類作補語的是動詞,分別列在下面(括號里面是《知網》定義的義原)。
A.人的客觀屬性(智能、舉止、年齡、外貌、品性、經濟狀況)
A1.[智能]學笨了 學昏了 學蒙了 學癡了 學蠢了 學土了 學呆了 學木了 學乖了 學傻了
A2.[舉止]學刁了 學歪了 學賊了 學油了 學浮了 學狠了 學犟了 學俗了 學倔了 學皮了 學酸了 學混了 學摳了
A3.[年齡]學老了
A4.[經濟狀況]學富了 學窮了
A5.
[品性]學差了 學廢了 學好了 學黑了 學壞了 學糟了
A6.[外貌]學俏了
B.人的主觀感受(態(tài)度、感知)
B1.[態(tài)度]學煩了 學夠了 學慣了 學迷了 學惱了 學膩了 學怕了
B2.[感知]學懂了 學乏了 學會了 學累了 學通了 學忘了
C.人的狀態(tài)和行為(狀態(tài)、行動)
C1.[狀態(tài)]學病了 學成了 學瘋了 學垮了 學虧了 學蔫了 學瘸了 學死了 學癱了 學啞了 學暈了
C2.[行動]學哭了 學跑了 學散了 學走了
D.事物的狀態(tài)(狀態(tài))
學丟了 學沒了
E.事物的特性(特性)
學反了 學活了 學偏了 學淺了 學深了 學雜了 學窄了 學足了
F.事件的特性(特性)
學遍了 學遲了 學重了 學錯了 學對了 學多了 學久了 學濫了 學全了 學少了 學透了 學晚了 學早了
可以看出,“學”和它的結果補語之間在概念意義的組合上遵循一定的規(guī)律。能否根據(jù)這些規(guī)律,用計算機可操作的方法,在一定范圍內判斷詞表以外的動結式實例是否合法?比如,《語法信息詞典》沒有把“精”列入可作結果補語的形容詞當中,但是“學精了”是個合法的動結式實例。計算機可以這樣來確認它的合法性:根據(jù)《知網》,“精”的定義是[智能>靈](“>”的右部是左部的下位概念。下同),在A1類[智能>愚/訥/智/靈](“/”表示“或”的意思。下同。)的范圍內。同樣,與“精”定義相同的“鬼”、“靈”、“巧”,雖然也沒有被《語法信息詞典》指明可作結果補語,但計算機仍然能夠判定“學鬼了”、“學靈了”和“學巧了”是合法的動結式實例。
對于動補之間的語義組合,結果補語的概念意義是在動詞概念意義的制約下起作用的。我們再來看與“學”有對義關系(Converse)的動詞“教”!皩W”和“教”都表示認知行為,前者是使自我認知,后者是使他人認知。因此有可能要求相似的結果補語。實際上,“學”的結果補語基本上都可以作“教”的結果補語。(注:盡管各自的語義指向可能不同,比如:“學笨了”和“教笨了”。這與動詞的配價結構有關。在機器翻譯生成動結式的過程中,由“整合語義結構”這一步處理。)它們或者表示認知行為對其主體(“學”的施事、“教”的與事)產生的效果:改變主體的客觀屬性(智能、舉止、年齡、外貌、品性、經濟狀況)、主觀感受(態(tài)度、感知)、狀態(tài)和行為;或者表示認知行為對其涉及的事物產生的效果:改變涉及對象的狀態(tài)、性質(長短、寬窄、深淺、多少、正反、美丑);或者表示認知行為本身的特性(度量、頻率、程度)。不同的“動作—結果”關系產生了不同的動補組合關系,要把它們研究清楚,整理成規(guī)則,是一件非常復雜的事情。
即使有了基于詞語概念意義的規(guī)則,也還不能完全解決問題。在《知網》中,與“懂”有相同定義的單音節(jié)動詞還有“認”、“審”、“識”、“通”、“悉”、“曉”、“知”。除了“通”以外,其余的都不能作“學”的結果補語。與“精”定義相同的雙音節(jié)形容詞“聰明”、“機靈”、“伶俐”、“乖巧”可以作“學”的結果補語,而同樣定義的“聰穎”、“聰慧”卻不行。這說明影響動詞和結果補語組合關系的因素不僅僅是詞語的概念意義。那么,到底還有哪些因素可以作為判斷動結式合法與否的條件?如何把這些條件變成計算機可以操作的規(guī)則?我們現(xiàn)在還不得而知。
5.從語義結構到句法表現(xiàn)形式
在動結式的整個生成過程中,選擇什么樣的句法手段來表現(xiàn)其語義結構是比較復雜的一步。人們常說,漢語句法結構和語義結構之間的聯(lián)系比較松散,或者說句法成分和語義成分的配位很靈活,一種結構形式經常表示多種意義,一種語義內容也可以用多種結構形式來表示。這就給機器翻譯的漢語生成帶來很大的困難。對于動結式表層句法結構的選擇,我們目前能用到的條件非常有限,所以能生成的句型也很有限。
5.1 使生成目標受限
通過整合語義結構我們得到了動結式的配價結構,價語的數(shù)量可以幫助我們選擇句型。如果動結式是一價的,選擇有一個體詞性成分出現(xiàn)的句型;是二價的,選擇包含兩個體詞性成分的句型。至于在同屬一類句型的多個表層結構形式中間應該選擇哪一個,還需要更細致的條件和規(guī)則。下面討論如何把動結式組成成分之間的語義關系作為選擇的條件。
為了簡化討論的過程,我們在這里只考慮二價動結式的情況(略去“媽媽急哭了”、“他看書看花了眼”、“他扔進屋一塊石頭”等)。這樣,討論的范圍就限制在只含有兩個體詞性成分的表層結構形式里面。呂叔湘(1986)曾經按照補語跟主語或賓語的語義關系,把動結式述補結構分成15類(略去“得”字句等),其中有兩個體詞性論元成分出現(xiàn)的共9類(包括用“把”和“被的句子),分屬以下三種語義關系格式,其中S是V的主體格。(注:在本節(jié)討論的范圍內,主體格包括施事、當事;客體格包括受事、內容。)
附圖
綜合上述各種情況可以看出,二價動結式的六種語義結構可以用以下五種表層結構形式來表達。下面的討論將在這個范圍以內進行:
表層結構1:S+V+C+O
表層結構2:S+“把”+O+V+C
表層結構3:O+“把”+S+V+C
表層結構4:O+“被”+S+V+C
表層結構5:S+“被”+O+V+C
我們注意到,同時與二價動結式的六種語義結構有對應關系的只有表層結構1(S+V+C+O),所以可以把它當作生成動結式表層的首選?墒沁M一步觀察就會發(fā)現(xiàn),在用表層結構1表達某些語義結構時會受到限制。譬如語義結構Ⅱ,我們可以說“大家吃膩了剩菜”,卻不能說“我丟怕了錢包”,也不能說“他看傻了那幅畫”。能說與不能說應該有條件來控制,O和C之間的語義關系可能是一個控制條件,但是目前還沒有確切的規(guī)則可用。
在這種情況下,只好先避開表層結構1,選擇2和3。經過初步實驗我們看到,就表達命題意義來說,用表層結構3表達語義結構Ⅱ,用表層結構2表達語義結構Ⅰ、Ⅲ、Ⅳ、Ⅴ、Ⅵ,受到的限制最少。這樣,討論的范圍又縮小到了兩種表層結構形式。問題就變成了:如何找到用這兩種句法形式表達六種語義關系格式的控制條件。我們把這種逐步縮小問題范圍的做法叫作使生成目標受限,實際上這是對復雜問題的一種妥協(xié)。也就是對二價動結式,放棄生成所有的表層句式,尋找盡可能簡單和有效的控制條件,先用部分表層結構形式表達其多種語義格式。
5.2 生成表層結構的控制條件
從語義結構生成表層結構的主要控制條件是動結式組成成分之間的語義關系。
對于二價動結式的組成成分S、O、V、C,如果S是V的主體格,而且:
。ㄒ唬┤绻鸖、O、V、C相互之間滿足下列五個條件之一,則可以用表層結構2表達:
1.(O是V的客體格)且(O是C的主體格)且(C是一價的)
2.(S是C的主體格)且(O是V的客體格)且(O是C的客體格)
3.(O是C的主體格)且(V和C都是一價的)
4.(S是C的主體格)且(O是C的客體格)且(V是一價的)
5.(O是V的客體格)且(C是V的修飾成分)
。ǘ┤绻鸖、O、V、C相互之間滿足條件6,則可以用表層結構3表達:
6.(O是V的客體格)且(S是C的主體格)且(C是一價的)
表層結構2和3都是“把”字句。關于“把”字句,很多學者從各種角度作過研究。張伯江(2000)曾根據(jù)句式語法的觀點指出,除了組成成分的作用以外,“把”字句的整體意義當中還有句式意義的作用。因此,生成的時候還應當考慮上述控制條件能否符合“把”字句句式意義的要求。我們注意到,動結式與“把”字句似乎有一種自然的聯(lián)系!鞍选弊志渲蠽的“處置”意義、C是“把”后面賓語產生的變化等句式意義與動結式的句式意義基本相似。(注:在動結式的表層結構2中,賓語是O;在表層結構3中,賓語是S。)另外,為了體現(xiàn)“把”字句里動作過程的完整性,我們在生成過程的最后一步(處理表層詞語)規(guī)定,“把”字后面排斥否定謂語形式。
根據(jù)我們的觀察和實驗,在二價動結式述語結構的五種表層形式中,“把”字句在語義表達的適應性上比較好,常常能夠包容除語義關系之外的其他一些選擇控制因素。譬如,補語是雙音節(jié)的動結式一般不宜選擇表層結構S+V+C+O,但“把”字句不受這個限制。再如,用“把”字句來表達“你把坑挖淺了”這一類含有動結式的句子,正好能夠表示其偏離預期結果的意思,比用其他表層結構更合適一些!鞍选弊志湓趧咏Y式生成中為什么會有這樣的表現(xiàn)?這不是機器翻譯能夠解釋的問題。
現(xiàn)在再來看我們要生成的例句:“小王讀了這篇文章,結果小王懂了這篇文章”。經過“動作—結果”述謂關系的判斷、詞語選擇、合法性判定和語義結構整合,我們得知,它可以生成一個二價的動結式述補結構,其中各個組成成分之間的語義關系是:
S→V←O & S→C←O
這種語義結構符合控制條件2(S是V和C的主體格,而且O是V和C的客體格)。因此為它選擇的表層句法形式是:
S+“把”+O+V+C
再經過表層詞語的處理,最后生成:
小王把這篇文章看懂了。
6.余論
戴浩一(2002)在論述漢語語法的哲學基礎時指出,語法現(xiàn)象是概念系統(tǒng)概念化的結果。他從宏觀角度提出了從概念結構到漢語句法和詞匯形式的過程,說明在這個過程中起作用的是漢語的概念化原則。應該說,機器翻譯從中介語言邏輯表達式生成動結式譯文的過程就是這樣一個實例。從“動作—結果”述謂關系的判斷、詞語選擇、合法性判定、語義結構整合、直到句法形式選擇和表層詞語處理,我們需要的是具體的、可操作的句法化、詞匯化的原則和規(guī)則,這樣才能從生成機制上找到動結式的構成條件。多年來,漢語語法一直比較重視動結式述語結構的研究,在結構層次、結構關系、句法功能、語義關系、配價結構,還有組成成分的特征和性質等問題上有許多論述。只是研究結論多數(shù)是面向人的,能為漢語信息處理和機器翻譯所用的還不多。比如,關于動結式是如何形成的,人們大多從歷時的角度,指出它的來源是古代漢語的使動用法。而機器翻譯需要的是從共時的角度找到動結式形成的控制條件,告訴計算機,在什么情況下,哪些動詞和哪些形容詞(或動詞)可以組合成、以及怎么組合成符合漢語習慣的動結式述語結構。還有,如何從要生成的句子意思里找到“動作—結果”關系及其述謂結構?如何根據(jù)要表達的意思選擇合適的詞語?如何從動詞和補語的配價結構推算出動結式的配價結構?如何從動結式的語義結構選擇它的句法表現(xiàn)形式?以及如何在句子表層處理時體成分、否定成分、指代關系、數(shù)量關系?在沒有找到解決這些問題的有效規(guī)則以前,機器翻譯系統(tǒng)還只能采用某些權宜之計來生成漢語的動結式。
在強調規(guī)則的作用的同時,我們也看到統(tǒng)計語言模型的方法近年來越來越多地應用在語言工程中,出現(xiàn)了基于實例的和基于統(tǒng)計的機器翻譯系統(tǒng)。在人們對語言和翻譯的機制還缺乏系統(tǒng)的了解,還沒有一種適合信息處理的語言理論可以應用的時候,統(tǒng)計語言模型可能會起到某種依靠“量”來獲取“質”的作用。它的前提是,大量語言現(xiàn)象的統(tǒng)計規(guī)律能夠確切地反映語句的構造規(guī)律和言語過程的認知規(guī)律。而實際上,這還是有待證明的觀點。更何況統(tǒng)計語言模型需要建立在語言學知識的基礎上,一個語言模型能否達到比較好的處理效果,很大程度上取決于我們能為它提供什么樣的語言學知識作為參數(shù)。計算的任務是獲取參數(shù)之間的統(tǒng)計學規(guī)律,參數(shù)才是建立模型的根本。目前統(tǒng)計模型方法在機器翻譯系統(tǒng)中效果不佳,其主要原因應該不是模型本身的計算能力有限,而是能夠提供給模型的關于機器翻譯的知識太少。漢語語法研究目前還沒有發(fā)掘出足夠的這一類知識,或者是還沒有把它們系統(tǒng)地、結構化地組織起來。這一點對基于規(guī)則的方法來說,同樣也是亟待解決的問題。
從機器翻譯系統(tǒng)總體設計的角度說,漢語動結式的生成包括兩個方面的問題。一個是根據(jù)哪些語言知識來生成,這與漢語研究有密切關系;另一個是怎樣實現(xiàn)生成的過程,這是把問題形式化和設計算法的事情。我們討論的內容只涉及第一個方面,目的是通過對動結式生成過程的描述,看看它需要哪些語言學知識的支持。實際上,我們談到的生成過程還相當粗略,提出的問題也僅僅是一小部分。曾經有人(白碩,1996)說過,繼說本族語言的人和說非本族語言的人之后,計算機的出現(xiàn)給語言研究帶來了一個新的參照物。它將幫助人們認識到一些在舊的參照物下很難揭示出來的語言現(xiàn)象和規(guī)律。希望我們提出的這些問題也能成為這樣的一種“參照”。
【參考文獻】
1 白碩 1996 《語言研究中的實用主義》,《計算機時代的漢語和漢字研究》,北京,清華大學出版社。
2 戴浩一 2002 《概念結構與非自主性語法:漢語語法概念系統(tǒng)初探》,《當代語言學》第1期。
3 董振東等 2001 《知網和漢語研究》,《當代語言學》第1期。
4 郭銳 1995 《述結式的配價結構與成分的整合》,《現(xiàn)代漢語配價語法研究》,沈陽等主編,北京大學出版社。
5 侯精一等 2001 《中國語補語例解》(日文版),北京,商務印書館。
6 黃昌寧等主編 2001 《自然語言理解與機器翻譯》,北京,清華大學出版社。
7 Hutchins,W.J. 1993 《機器翻譯:過去、現(xiàn)在、未來》,臺灣,致文有限公司。
8 李臨定 1986 《現(xiàn)代漢語句型》,商務印書館。
9 —— 1980 《動補格句式》,《中國語文》第2期。
10 陸儉明 1990 《“VA了”述補結構的語義分析》,《漢語學習》第1期。
11 呂叔湘 1986 《漢語句法的靈活性》,《中國語文》第1期。
12 馬希文 1987 《與動結式動詞有關的句式》,《中國語文》第6期。
13 馬真等 1997 《形容詞作結果補語情況考察》,《漢語學習》第1期。
14 孟琮等 1999 《漢語動詞用法詞典》,北京,商務印書館。
15 王紅旗 1995 《動結式述補結構配價研究》,《現(xiàn)代漢語配價語法研究》,沈陽等主編,北京大學出版社。
16 翁富良等 1998 《計算語言學導論》,北京,中國社
會科學出版社。
17 俞士汶 1998 《現(xiàn)代漢語語法信息詞典》,清華大學出版社。
18 袁毓林 2001 《述結式配價的控制—還原分析》,《中國語文》第5期。
19 張伯江 2000 《論“把”字句的句式語義》,《語言研究》第1期。
【機器翻譯中漢語動結式生成的過程和困難】相關文章:
讓語文教學在預設和生成中綻放活力08-17
情動于中而形于外08-17
漢語中結構話題的語用解釋和關系化08-07
在經歷中感受,在開放中生成08-17
在成長的過程中作文11-28
中廣進入中寶過程08-05
在困難中前行作文01-22
在困難中成長作文12-23
生活中的困難作文07-27