5月25日,2019機器翻譯論壇在西湖大學舉行。會議有來自中科院、華為諾亞方舟實驗室、微軟亞洲研究院等知名機構的自然語言處理專家,以及來自翻譯工具廠商、翻譯服務業(yè)和教學界的90多名參會者。
在會議發(fā)言環(huán)節(jié),專家們分享了機器翻譯研究的最新成果,訊飛聽見介紹了訊飛機器翻譯的落地應用,對外經(jīng)貿(mào)大學崔啟亮博士就機器翻譯的應用提出了問題和建議。下午,東北大學朱靖波老師主持了機器翻譯技術發(fā)展與應用落地研討會,與會者就機器翻譯技術應用的場景、商業(yè)模式、質量評估、發(fā)展前景等進行了熱烈討論。
我在會上認真聽專家發(fā)言,會下跟NLP專家、翻譯工具廠商、翻譯公司同行進行了交流。以下幾點觀察和個人思考,權當會后交流。
- 真正的專家們看到的都是問題,沒有陶醉于自己的研究成果,也沒有被一些宣傳所困擾。在會上做分享報告的專家講的更多是問題和解決方案。向這些專家致敬!
- ?自然語言處理技術通過神經(jīng)網(wǎng)絡翻譯技術(NMT)獲得突破后,又進入了新的瓶頸期,質量提升緩慢,同質化問題比較明顯。參會專家和廠商普遍提到優(yōu)質語料匱乏及對提升機器翻譯質量的制約:擁有語料的翻譯公司對語料知識產(chǎn)權保護比較謹慎,語料清洗成本高,機翻公司購買語料容易碰到坑,等等。
- ?機器翻譯技術在特定場景已經(jīng)有很不錯的應用,比如情報、輔助閱讀和日常溝通等,甚至C端的應用探索也有成功的范例,如科大訊飛的翻譯機等產(chǎn)品。
4. 機器翻譯技術在專業(yè)翻譯領域的應用還有待于突破。傳統(tǒng)CAT工具的用戶基本是職業(yè)譯員和翻譯公司,機器翻譯雖然已經(jīng)成為了非專業(yè)譯員的另類“CAT工具”,但在專業(yè)翻譯領域的應用較難普及,也缺乏盈利模式。對于機器翻譯+譯后編輯(PE)和類似Lilt的交互式應用的前景,見仁見智,有待于更多驗證。
5.? 機器翻譯質量評測方法需要革新,長期使用的Bleu值評測系統(tǒng)很過時,會上也有專家提到這個問題。建議NMT質量評估納入翻譯和本地化行業(yè)的譯文質量評價模型,以克服Bleu值評測的缺陷。
6.? 機器翻譯專家和工具產(chǎn)商都在摸索NMT的落地應用場景,中科院自動化所等都組建了公司團隊來開發(fā)用戶需求牽引的機器翻譯系統(tǒng)。傳統(tǒng)翻譯公司不應該排斥,應該積極牽手機譯廠商一起探索。
7. 翻譯圈和技術圈都應有更大的包容性。對于一些技術應用探索,翻譯學術和教學圈比較抵觸,大可不必。比如,科大訊飛的翻譯機,受限于技術本身,從學術圈來看,其缺點是明顯的。但翻譯機產(chǎn)品本身無疑是語音識別和機器翻譯技術的成功應用,幫助不懂外語的人們更便捷地獲得即時翻譯服務。翻譯圈在比較翻譯質量時,應區(qū)分應用環(huán)境或場景。如,不宜用筆譯的質量要求來衡量會議現(xiàn)場的口語翻譯。同時,應多從用戶角度來看這樣的產(chǎn)品是否有意義。畢竟專業(yè)譯員的服務不是隨時隨地可以獲得,也不是所有人都能用得起。從市場或傳播學的角度,能幫助用戶解決問題的產(chǎn)品就是好產(chǎn)品。
8. 機器廠商在做產(chǎn)品宣傳時,注意機譯的工具屬性,不要動輒就拿人類譯員來做比較,更不要將機器和譯員描述誤導成替代關系。這種做法,就像把汽車和人來做比較一樣荒唐。汽車應該和人力車或火車或飛機等交通運輸工具做比較,而不是和人比較。此外,建議找些不懂中文的外國聽眾來對人類譯員的同傳和機器同傳做比較,評價哪種方式信息傳達更好,或者他們更愿意使用哪種服務。這樣的比較結果或客戶反饋才有真正的說服力。
最引人思考的一個問題在討論環(huán)節(jié)。論壇主持人問阿里達摩院陳博興下一代機器翻譯技術是什么樣子?陳博士回答“好問題,不過我也不知道”。其在朋友圈做了解釋:“顛覆第一代規(guī)則翻譯系統(tǒng)的人不是做規(guī)則的,顛覆第二代統(tǒng)計翻譯模型的人不是做統(tǒng)計翻譯的,同樣,顛覆第三代神經(jīng)機器翻譯系統(tǒng)的人不會是我們現(xiàn)在這批做神經(jīng)機器翻譯的人。所以,作為一個目前在從事神經(jīng)機器翻譯技術研究的,我也不知道下一代機器翻譯技術會是什么樣的,但是我知道肯定不是基于神經(jīng)網(wǎng)絡的?!薄拔蚁嘈旁谖业挠猩?,我能看到第四代甚至第五代機器翻譯技術的出現(xiàn)。”這樣的回答體現(xiàn)了求實的科學精神,引人思考,也給人期待。
以上僅為個人觀察和思考,不是會議總結。感謝會議承辦單位西湖大學和贊助單位小牛翻譯、語言橋、深知無限。再次向與會專家學者致敬!
譯直播為本次會議提供了直播,完整視頻回放鏈接:http://ttv.cn/archives/4042