外語盲有福了 谷歌推出神經網路翻譯 水平堪比真人

【摘要】翻譯系統面世后,根據用戶們的測試,發現漢譯英的準確率高得驚人。



9月27日,推出了新的翻譯系統,聲稱該套翻譯系統基於對於神經思考的模仿,能夠與真人翻譯競相匹敵。

繼阿爾法狗戰勝韓國職業棋手李世石沒多久,再下一城。9月27日,谷歌推出了新的翻譯系統,聲稱該套翻譯系統基於對於人類神經思考的模仿,能夠與真人翻譯競相匹敵。

在谷歌的發文《規模生產中的神經翻譯》(A Neural Network for Machine Translation,at Production Scale)中,宣布將機器學習技術納入網頁和手機APP翻譯中,從前漢譯英的尷尬局面將大為扭轉。

翻譯系統面世后,根據用戶們的測試,發現漢譯英的準確率高得驚人。

眾所周知,將漢語恰切地譯介為英語是一件不易之事。輸入中文,翻譯系統給出的答案往往是「慘不忍睹」,簡單的機械翻譯對於那些谷歌翻譯的依賴者來說已遠遠不夠。谷歌公司稱,相較之前的演算法,谷歌神經機器翻譯能減少80%的錯誤,與通過標準測試的真人翻譯所差無幾。

在之前的一項西班牙語譯為英語的測試中,設定滿分為6分,谷歌舊的翻譯系統得到3.6分,人類普遍得分為5.1分,而谷歌的新系統得到了5分的好成績。


三種譯介方式評估。分為6分,橘色為真人翻譯,綠色為谷歌神經網路翻譯,藍色為短語式翻譯。

從前的譯介模式是短語式的,翻譯系統將一句話拆分成單詞或者片語進行翻譯,往往得到一些狗屁不通的結果。而新的翻譯系統稱之為谷歌神經機器翻譯(GNMT),這項新的技術運用更少的機器設計選擇,它將一句話視為整體進行解碼,雖然仍是將一句話分割成若干獨立單元,但每個單元都放在句子的前後進行考量。這就像一個初中生進入高中大門,為完成作業,要嘗試在一本巨大的詞典中查找單詞和短語。神經機器翻譯與以往的翻譯模式用的是同樣一本大詞典,但舊的翻譯模式只是逐個查詞,而神經機器翻譯卻訓練出兩種神經網路,可以生產出另一種語言的完整的文本。這對於漢語翻譯是極為重要的,因為漢語中由於搭配不同導致一個詞往往有不同的意思。

谷歌神經網路翻譯為何能夠在準確性上有質的飛躍?

據悉,谷歌神經翻譯克服了之前神經機器翻譯在準確性和速度上的缺陷,帶有8個編碼層和8個解碼層的長短時記憶(LSTM)網路用來增強注意以及記錄瞬間感覺殘留。注意力機制則連接下層解碼層和上層編碼層,以此來提高并行度從而降低耗時,推理計算中的低精度的演算法則提升了最終的翻譯速度。


谷歌神經網路翻譯漢譯英進程圖

第一步,網路將中文單詞編碼為一系列向量,每個向量代表整句話所有單詞的含義。一旦整個句子被神經網路閱覽,解碼即開始,生成相應的英語句子。而解碼則是一個將已編碼的中文向量與相關的英語單詞生成的加權分佈的過程。連接編碼解碼的曲線代表解碼過程中所考量到的編碼詞彙。

而為提高對生僻詞的處理,谷歌將詞語分成有限的子詞單元,從而方便輸入與輸出。而束搜索技術則使搜索長度規格化以及具有覆蓋性,這使得翻譯輸出的句型可大量覆蓋譯介語種的所有單詞。這一切都可歸為人工智慧,人工智慧演算法不依賴於人類邏輯,比起人們從前使用的手工編寫的演算法來說,人工智慧演算法能找到更好的方式完成任務。人工智慧網路自身會學習怎樣翻譯,它專註于結果如何,而不受人類思維優先的干擾。麥克·舒斯特,開發此項目的谷歌工程師說,「你不必選擇,系統會全面進行翻譯。」

中譯英只是谷歌翻譯所支持的一萬種語言中的一種。谷歌表示,今後翻譯將更多依賴於人工智慧。在之後的幾個月時間里,谷歌還會設計出適用於更多語言的谷歌神經機器翻譯。當然,此種神經機器翻譯還不能稱得上完美,固然基於神經的人工智慧表現不錯,但仍有很多細微之處機器演算法不能夠真正領悟。比起人類翻譯,谷歌神經網路翻譯仍會犯許多人類翻譯不會出現的錯誤,如掉詞、誤譯專有名詞、罕見術語,以及忽略上下文語境孤立翻譯某句話等等。不過,起碼這種新的翻譯模式只是讓意思流失在翻譯結果上,而非在翻譯過程中就面目全非。


短語式翻譯、谷歌神經網路翻譯、真人翻譯對比

來源:澎湃新聞

責編:祥和

喜歡、支持,請轉發分享↓
贊助商鏈接