10年專業筆譯品牌?
10年數萬場口譯
專業留學移民翻譯
多語言網站翻譯
89種語言服務
據譯雅馨翻譯公司了解到,話語翻譯技術研究是國家重點基礎研究發展規劃項目(973項目)“圖象、語音、自然語言理解與知識挖掘”的子課題之一(編號:G1998030504-01)。在該項目的資助下,課題組在數據資源建設、翻譯方法研究、實驗系統開發和國際合作等方面均確立若干主要的研究成果。
1 數據資源建設
大規模真實語料和數據是口語信息處理的基礎。但國內真實口語語料資源十分缺乏,大規模的雙語對照口語語料尤其匱乏。因此,我們把基礎語料資源的建設作為一項首要的工作,有針對性地進行了口語語料、多語對照語料的收集和處理,建立了一個現場收錄的自然口語語料庫及一個通用的口語語料庫,并建立了多個大規模多語口語對照語料庫及專用語料庫。主要包括:
(1)收集旅游咨詢真實場景下的口語對話約90段,3000個對自然口語句,并在此基礎上對全部口語語料進行了標注和分析。
(2)與國際語音翻譯聯盟(C-STAR)成員聯合收集旅行過程中最常用的中-英-日三語對照句子各2萬多句,其中每個中文語句又由3個意義相近的句子構成,約7萬句的規模。另外,與C-STAR成員聯合收集日常多領域多語言口語對照語句(每種語言)約20萬句。
(3)與國外有關研究機構聯合收錄中國人名地名及機構名約300多萬個,經過分析處理后,用于識別人名地名、及機構名稱。
2 基于多策略的口語翻譯方法
在口語翻譯方法研究中,我們先后提出了基于靈活模板的漢英口語直接翻譯方法、交互式口語翻譯方法,以及多翻譯引擎的串行工作策略等。這些新方法在我們的實驗系統中均取得了初步的成功。
基于靈活模板的直接翻譯方法是多引擎口語翻譯系統中采用的基本翻譯策略,使翻譯機制與語言保持較好的相對獨立性,便于實現語言擴充和系統向多領域移植。我們還提出了靈活的“柔性”翻譯模板匹配策略,既允許模板中出現關鍵詞和詞性變量,也允許多個候選關鍵詞以邏輯“或”的形式出現,還允許跳過任意詞匯,并且語義特征可作為限制條件,目標語言生成也采用了靈活的處理方式。這個策略有效地克服了一般基于模板的翻譯方法對于翻譯句型缺乏靈活性、翻譯結果過于死板的弱點。測試結果表明基于模板的翻譯器可以對完全正確的文本輸入的語句得到70%以上的正確翻譯結果,對于語音識別模塊給出的前10個候選結果,可以獲得68%的翻譯正確率。
根據前面的分析,目前的語音翻譯實驗系統主要存在魯棒性差、翻譯正確率低的問題,其主要原因一方面源自于語音識別器有限的正確率和魯棒性,另一方面翻譯系統缺乏人機交互的能力,因此,我們提出了基于對話管理的交互式語音翻譯方法。在這種翻譯方法中,綜合了基于模板的翻譯方法、基于中間語義表示(IF)的翻譯方法、基于統計的翻譯方法和基于對話管理引導的槽填充翻譯模式等多種翻譯方法[Zong, 2002a],該方法在理論上體現了人充當翻譯角色時的基本工作方式和思維過程。
3 實驗系統開發
基于上述工作基礎,我們先后開發了多個口語翻譯實驗系統,其中包括上面提到的LodeStar中日、中英語音翻譯實驗系統,基于C-STAR III翻譯平臺的中英雙向電話語音翻譯實驗系統和與韓國電子通信研究院(ETRI)聯合開發的基于C-STAR III翻譯框架的中韓雙向電話語音翻譯實驗系統。中韓雙向電話語音翻譯實驗系統建立在旅館預定領域,可識別韓語詞匯約16000個,中文詞匯約12000個,系統可以約2到3倍的實時速度運行。該系統于2002年3月在C-STAR III國際口語翻譯聯盟首次在我國召開的C-STAR研討會上成功地演示。
值得提及的是,目前自動化所模式識別國家重點實驗室正與北京首都信息集團公司等多家單位聯合開展面向2008年北京奧運會的多語言網絡信息服務系統的聯合攻關研究,其中,語音翻譯是重要的技術模塊之一。
4 國際合作
在本項目的資助下,口語翻譯研究在國際合作方面取得了重要進展,自動化所作為核心成員參與了國際七國語言電話語音自然口語互譯合作計劃,與國際上本研究領域最具實力和水平的大學和研究所共同合作。同時與日本ATR、韓國ETRI建立了長期的合作關系,與日本松下公司實現了富有成效的合作開發聯合實驗;與國際著名的法國機器翻譯研究所(GETA, IMAG)建立了良好的合作關系,雙方聯合開展中法口語翻譯技術的研究,雙方曾多次互派訪問學者,并就雙邊聯合培養碩士生、博士生一事達成協議;與Nokia中國研發中心建立了良好的合作關系,雙方就口語翻譯中的若干基礎問題,包括語料收集,語音識別等方面,聯合攻關,并在已有的工作基礎上聯合參與了歐共體項目“面向多語種口語翻譯的詞匯處理(LC-STAR)”