亚洲精品高清久久_免费看黄的软件在线看免费观_黄色短文合集_台湾a级艳片红楼梦

譯雅馨10年翻譯品牌,20000家企業見證的深圳翻譯公司
400-8808-295
18038126442
網站地圖官方微信服務城市
文件翻譯

文件翻譯

10年專業筆譯品牌?

陪同翻譯

陪同翻譯

10年數萬場口譯

證件翻譯

證件翻譯

專業留學移民翻譯

本地化翻譯

本地化翻譯

多語言網站翻譯

小語種翻譯

小語種翻譯

89種語言服務

當前位置:主頁 > 翻譯者手冊

現有翻譯系統的技術瓶頸及發展趨勢

日期:2012-09-24 | 閱讀: 翻譯系統, 發展趨勢
從商業觀點來看,目前的機器翻譯確已可以達成一些經濟效益,協助需要大量翻譯的機構,迅速獲得外文資料。但從研究者的角度來看,許多機器翻譯的研究議題仍未有適當的解決之道

從商業觀點來看,目前的機器翻譯確已可以達成一些經濟效益,協助需要大量翻譯的機構,迅速獲得外文資料。但從研究者的角度來看,許多機器翻譯的研究議題仍未有適當的解決之道。加以大部份的機器翻譯研究人員,并沒有實際運轉機器翻譯系統的經驗,因此,所研究的議題或方向難免偏向學院式的作法。而傳統的機器翻譯發展策略,大抵上是傳統語言學、形式語言學及少數人工智慧技術的綜合體。利用這些技術所發展的機器翻譯,在歷經數十年的研究后,還是未能大量使用,顯示以往的作法有其先天上的限制。以我們多年發展及運轉機器翻譯系統的經驗來看,傳統的機器翻譯架構、發展模式及方法,主要的缺陷可以歸結為幾點:

1. 缺乏一致性的歧義解決方案

由前面的架構及原理,大家可以發現機器翻譯系統所要處理的細節相當繁瑣。就技術層面來看,機器翻譯最大的問題,即在於每一個處理步驟都充滿了不確定性 (uncertainty)及歧義性(ambiguity)。例如,"bank"可能當動詞或名詞使用,這是詞類的歧義;當它做為名詞時,可能是"銀行",也可能是"河岸",這是字義 (word sense)上的歧義;"I saw a girl with a telescope."可能是"看到一個帶著望遠鏡的女孩"或者"用望遠鏡看到一個女孩",這是修飾語修飾不同詞組所造成的語法歧義;"The police were ordered to stop drinking by midnight."句中的"police"可能是要阻止別人喝酒 (或其它飲料) 的人,也可能是被阻止繼續喝酒的對象,這是語意角色不同所造成的歧義;"She was elected the president of the United States bythe public."可以翻成被動式的"她被大眾推選為美國總統"或主動式的"大眾推選她為美國總統",這是轉換及生成過程產生不同句法結構所造成的歧義。

這些歧義現象涵蓋的層次,包括分析(詞匯分析、句法分析、語意分析)、轉換(詞匯轉換、結構轉換)、合成(結構合成、詞素合成)等各個階層。每一種歧義現象都需要其它的訊息來幫忙解決。傳統的機器翻譯系統,主要是依靠語言學家或電腦專家依現有的語言知識,構建一條條的規則,來決定在何種情況下該採取什麼行動。這就是所謂的規則式機器翻譯 (rule-based MT)。遇有某一個層次不能解決的問題,就利用更多細瑣的知識,作更深一層的分析。無可否認的,這種作法可以直接利用一些現有的語言學理論及人工智慧的理論,來構建基本的機器翻譯系統。但是,當系統由實驗室的雛形系統轉化到大型的實際系統,面對各式各樣的文章時,問題就來了。

首先遇到的問題是,不管加入多少知識,只要是沒有辦法把所需知識加全,不確定性及歧義現象就會存在。由於系統的整體績效直接與系統誤判的機率成正比,因此,降低系統誤判的機率,就成了首要的工作。在此情況下,系統必需利用一個評分的標準,來作最少風險的判斷。目前各系統主要是以規則式系統為主,故鮮少對不確定之情況予以評分;許多系統在實驗室發展時,一遇到問題就希望透過更深層的分析,或加入一些經驗法則進去,來解決眼前所遇到的問題,使得這樣的規則式系統混亂異常。事實上,要想利用一些一般性的規則,來解決復雜的語言問題并不容易。而且,每加深一層分析時,又會引入另一個層次的歧義現象。因此,并無法真正解決歧義及不確定性的問題。

雖然有些規則式系統也採用評分的方式來處理不確定的情況,但所用的評分標準多數是缺乏學理根據的經驗法則。這種經驗式也許在實驗室裡能針對少數例子予以調整至最佳狀況,但整體而言,并不能推廣到其它文章及領域,達到最佳化的結果,也無法用一種有系統、可控制的方式持續地改進系統績效;當系統修正某些法則或參數來處理某些問題時,表面上解決了這些問題,實際上對其它問題及整個系統的影響卻無法評估,甚至於造成不良影響。因此,系統會一直在反覆修正這些經驗法則的過程中打滾,很難擴充到大型系統。

要突破這種技術瓶頸,唯有發展出一套客觀的評分函數,利用有鑑別力的詞匯、語法及語意特徵作判斷,才能用最少的知識,作最不具風險的判斷,同時隨時保持系統整體的績效。目前BehaviorTran所使用的評分方法,是結合詞匯、語法及語意模式與貝式決策法 (Baysian Decision Rule)所發展出來的一套評分函數[Su 88, 91, Liu 90, Chan 92a, Lin 92]。由於是利用最佳化的決策法則在語言模式之上,因此,理論上可以達到最少決策成本的最佳化結果。

2. 知識抽取不易

另一個問題是,如何抽取這些繁瑣的知識 (knowledge acquisition)而達到相當的涵蓋面,且在不斷更新的過程中,仍能維持這些知識的一致性。一般的機器翻譯系統最起碼要有一、二十萬個詞匯、一兩千條分析文法,及一兩千組轉換規則才足敷使用。如何用人工把這些詞典資料一一填齊,而使得這裡面的規則保持一致,不會互相衝突,是個相當耗時費力、高成本、高難度的工程問題。不要說這種工作需要透過一群人來作,就算一個人包辦整個工作,也很難保持資料及規則的一致性。事實上,即便是將同一個詞給予適當的語意分類,早上跟下午的想法都可能不一樣。更何況一套機器翻譯系統通常要歷經數年的時間,由一群不同知識背景的人經手呢。這種人工抽取知識的方式,對一個實驗式的系統也許已經足夠,但對於實際運作的大型系統而言,其涵蓋面和一致性就值得懷疑。而要維護一個這樣的系統也極為困難。

目前的趨勢是利用大量的語料,透過一些自動或半自動的統計方式來抽取必要的知識。例如,利用相鄰詞類間共存的頻率或機率,可以很準確地由數百以至於數千種可能的詞類組合中,決定各個字的正確詞類。而以往使用規則來限制這種詞類共生現象時,并無法作很完善的處理。

然而,純粹使用統計方式而不顧及語言本身的規律,也容易造成參數數目過大,而必需用極為龐大的語料,才能學習到語言學上已熟知的現象。例如,最近有些學者企圖利用極為簡單的語言模式來表達翻譯的內在行為,利用數百萬句的雙語語料(加拿大國會會議記錄),來求取這種翻譯模式的參數。其結果雖然顯示部份的可行性,但由於所需的語料庫極為龐大,故受到學界相當多的質疑與批評。

因此,比較好的方式應該是將一些已知的高層次語言學現象加以模式化,再利用統計的方式由語料中求得適當的模式參數。如此,既可發揮語言學家歸納一般性語言規則及建立語言學模式的長才,又可將繁瑣的知識抽取工作交給擅長處理大量資料的電腦來處理,獲取一致性的模式參數,避免人工抽取的問題,同時減輕人工成本,可謂一舉數得。這種以語料為基礎,架構在高層語言知識上的統計方式,簡稱CBSO (Corpus-Based Statistics-Oriented)方式[Su 92a],在最近一次召開的機器翻譯理論與技術會議(TMI-92, 1992)中,已被評為綜合傳統語言學與統計技術的一種最可能的未來趨勢。

3. 單向式的系統設計

機器翻譯的另一個重要問題,在於傳統的機器翻譯系統是一種單向式的設計。由於傳統的轉換式機器翻譯是遵循著『分析』、『轉換』及『生成』三個步驟一路作下來,使得『轉換』及『生成』帶有濃厚的原始語言色彩。因此,英中翻譯系統的輸出通常成了『英文式的中文』,日中翻譯系統通常產生的是『日文式的中文』,而非道地的『中文式中文』。換言之,用來產生中文的生成文法與一般用的中文 (分析) 文法并不相同,而是由英文或日文文法套過來的文法。這種輸出,自然需要相當的修繕動作,才能達到使用者的期望。為了避免使用這種具有原始語言傾向的目標語生成文法,釜底抽薪的方式,乃是利用原始語言及目標語言兩套文法,來擔任分析及生成語法,并利用原始語言及目標語言所構成的雙語語料庫(bilingual corpus)自動學習轉換動作及生成動作[Chan 92b]。

4. 忽略語言特徵的鑑別力及強健性

由於許多機器翻譯研究人員具有計算機科學的學識背景,而人工智慧又強調知識表達方式 (knowledge representation)的重要,因此,不少機器翻譯的研究人員都相信,良好的知識表達方式有助於機器翻譯品質的提昇。同樣地,許多語言學家也不斷尋求較適當的文法型式 (grammar formalism),企圖用比較適當的語法理論來表達或解釋同一種語言現象。這種作法并非沒有好處。但是,嚴格地說,知識表達方式只跟系統的表達能力(expressive power)有關,而與最重要的歧義解決能力無關。一個看似簡單的表達方式,就學理來看,可能與一個復雜的語法理論具有相同的表達能力 (例如,兩者可能都可以處理context-free型態的語言);其主要差別通常只在於表達的適切性及剖析的效率 (linguistic felicity, expressiveness, computational effectiveness),而非歧義解決能力。

一般而言,歧義解決能力主要視系統所採用的語言特徵(feature set)、這組語言特徵在實際語料中的行為或機率分佈(probabilistic distribution),及系統所採用的決策模式(decision rules)而定。因此,改善系統績效可以由幾方面來進行。就語言特徵之選取而言,可以利用較有鑑別力的鑑別性特徵(discriminative features),來作決策依據,而不一定是用很容易觀察到的特性式特徵(characteristic features)。採用良好的語言特徵及語言模式,有助於讓每一種不同的語言行為,在觀察空間中,都有個比較突出的機率分佈。如此,較容易判定某類行為應該採取何種特定行動。而良好的決策模式則可降低誤判所造成的風險。通常鑑別性的特徵可以由各種特性式特徵加權之后獲得,因此,使用具有增強鑑別力及強健性的學習策略,可在使用相同資料的情況下,改善系統的績效。

然而,一般的機器翻譯系統多數採用階層式的分析方法,詞匯分析無法解決的問題即推給語法分析,語法分析無法解決的即推給語意分析,再無法解決的,便寄望於所謂的一般性知識 (real world knowledge, common sense knowledge),較少強調在使用同樣的資訊下,如何強化系統的鑑別力 (discrimination power)及強健性 (robustness)。

實際上,一般系統雖然可依詞匯、語法、語意等步驟逐一分析。然而,系統分析的深度并非一成不便;有些資料未必有用,有些資料則與其它資料帶有相同的訊息,而形成冗贅的資料。這種加深分析層次的作法大致相當於增加系統所用的語言特徵的維度(dimensionality)。依據語音處理及樣型識別等類似技術的經驗,一味加深及加細系統分析深度,或增加系統據以制定決策的特徵,容易導致系統的知識庫過份偏向某些特定知識,使系統對測試用的例句顯得相當有效,但卻降低了系統對一般輸入的整體績效。

因此,目前新的作法是強調使用有鑑別力的語言特徵及語言模式,利用強健性的自動學習策略來調整系統參數;能在低層次分析中解決的問題,儘量利用提高系統鑑別力及強健性的方式,在低層次分析中加以解決,而不再一味地加深分析的層次。這種作法,不僅使得系統能對可用的語言特徵作最有效的運用,也因不過份使用深層的語言特徵,而減輕了知識抽取的負擔[Chia 92, Lin 92]。

5. 設計者與使用者的期望不同,系統改善的方向無法隨客戶需求變動

前面已經說過,目前研究人員已經比較能認清機器翻譯難以達成FAHQMT的事實,故在設計系統時,是以資訊抽取 (informationretrieval)等不需太高翻譯品質的應用為目標,系統改善則主要是以增加輸出的可讀性為主,以期減少譯后修繕的工作。不幸的是:(1)要求高品質翻譯的使用者還是佔絕大多數,這些使用者的基本要求是翻譯結果要能以出版品的型態出現 (publishable),而不只是可以讀得通 (readable, understandable);(2)改善輸出的可讀性,一般是可以減少譯后修繕工作。但是,實際的實驗顯示,兩者并非直接相關;有時甚至於還會稍微增加修繕的成本。因為,修繕成本正比於修繕到客戶所能接受的成品所需的編輯指令 (editing stroke)個數,而不是無法具體衡量的『可讀性』。

要解決這樣的問題,首先要有客觀的方法,來衡量客戶可接受的標準與系統輸出的差距,并直接利用這樣的差距當作回饋,來調整系統的參數,以達到特定客戶所指定的詞匯及風格。所謂客戶可接受的標準,具體地說,就是客戶所提供的翻譯范例,或者以前為該特定客戶所翻譯的完稿稿件。根據這些客戶已接受的稿件,以及系統對這些稿件所產生的原始初稿,我們可以很客觀地計算出,兩者之間的差距到底要用多少個編輯指令才能修正過來,以及需修正部份到底是因何原因而導致錯誤。如此,即可將『客戶的期望』與『系統輸出』的差距,用具體的『修繕成本』表示出來,并以此修正系統的行為。

要能實現這種架構,系統本身必需具有調適性 (adaptable)及可控制性 (controllable),而且可以將使用者的需求利用一條回饋的路徑併入系統,隨使用者的需求調整系統的執行行為,以達到整體的最佳化。因此,機器翻譯系統本身必需是一個可參數化的回饋系統 (parameterized feedback control system);系統核心重要的決策模組,如辭匯分析、句法分析、語意分析、轉換模組及生成模組,都要能夠參數化,才有可能將客戶的回饋納入系統,直接降低可能的修繕成本。

這種參數化的系統,其特性是容易利用系統的參數,以可預期的方式控制系統的執行績效。而一般規則式系統,基本上很難掌握不同規則之間的互動關系及相互影響,無法預測增刪規則對整體績效可能造成的影響。因此,BehaviorTran 大約在開始研究后的第三年,即開始轉向這方面的研究。去 (1992)年,在全世界最大的計算語言學會議COLING-92上,提出參數化的回饋系統架構時,也引起不少學者的興趣與討論[Su 92b]。這種融合使用者期望的系統架構,勢將在未來的機器翻譯發展中,扮演一個重要的角色。

 

上一篇:機器翻譯與人工翻譯

在線預約,獲取專屬優惠報價
您的姓名
您的電話
翻譯類別
在線咨詢
與我們取得聯系
電話咨詢
免費熱線:18038126442
關注微信
返回頂部