行業新聞

人工智能“自學”做翻譯2017.12.05

得益于神經網絡——從人腦獲得靈感的計算機算式——的發展,自動化的語言翻譯已經存在了相當長一段時間。但訓練這些網絡需要海量數據:數以千萬計的逐句翻譯,以展示人類如何做這項工作。現在,兩篇新論文表明神經網絡可以在無需平行文本的情況下學習翻譯——這一令人震驚的進展或讓人們獲得許多不同語言的文獻記錄。

"想象一下,你給一個人很多中文書籍和阿拉伯書籍,而且它們沒有任何重疊性,然后一個人需要學習將其從中文翻譯為阿拉伯語。這聽起來似乎不可能,對吧?"其中一項研究的第一作者、西班牙圣西巴提巴斯克國家大學(UPV)計算機專家Mikel Artetxe說,"但我們證明計算機可以做到這一點。"

大多數機器學習——神經網絡和其他從經驗中學習的計算機算式會受到"監督"。計算機會進行推測,然后接收到正確答案,并據此調整相應的過程。在教一臺計算機如何在諸如英語和法語之間進行翻譯時,這種模式會非常有效,因為很多文獻在這兩種語言中同時存在。但它對于罕見的語言,或者是那些沒有很多平行文本的通用語言并不奏效。

這兩篇尚未經過同行評議的新文章均已被提交給明年的國際學習表征會議,它們聚焦了另一種方法:不監督機器學習。一開始,計算機在沒有人類老師告訴它們其推測是否正確的情況下建設雙語詞典。這是因為語言在詞匯結合方面有著很強的相似性。例如,在各種語言中,桌子和椅子的詞匯經常會一起使用。因此,如果計算機將這些共現性像一個城市巨大的公路地圖那樣描繪出來,那么不同語言的地圖就會彼此相似,只不過它們擁有不同的名字。如此一來,計算機就能找出將一個地圖集覆蓋在另一個地圖集上的最佳方法。瞧!一本雙語詞典出現了。

不過,這兩種技術之間也有些微差異。UPV的系統在訓練過程中進行了更多的回譯。而另一個由位于法國巴黎的臉譜網計算機科學家與其合作者研發的系統,則在翻譯過程中加入了額外的步驟。在將其"解碼"為另一種語言之前,兩套系統都會將一種語言的一個句子編碼為一種更加抽象的表征,但臉譜網的系統驗證了中間的"語言"是真正抽象的。Artetxe和Artetxe均表示,他們可以通過應用對方論文中的技術來改善自己的結果。

在兩篇文章之間進行的唯一直接對比結果中——對摘自同一組約3000萬個語句在英語和法語文本之間進行翻譯,兩套系統在雙向翻譯中均獲得了15分的雙語評估分數(用來衡量翻譯準確性)。這個分值沒有谷歌翻譯高(該系統所用的受監督的方法得分為40分),也不如人類翻譯得分高(超過50分),但卻比逐字翻譯要好得多。作者表示,兩套系統可以很容易地通過變為"半監督性"得到改善,即把數千個平行的語句加入到它們的訓練中。

除了不需要平行文本進行跨語言翻譯之外,Artetxe和Lample均表示,他們的系統有助于進行諸如英語和法語之間的常用翻譯匹配,特別是如果平行文本是同一類的話,如新聞報道。但除此之外,人們還希望將其翻譯為不同類型的文本,如街頭俚語或是醫學術語。"但這一切尚處于新生階段。"Artetxe的共同作者Eneko Agirre說,"我們剛剛開始了一個新的研究大道,現在我們還不知道它會通向哪里。"

中國北京計算機學家、其工作對上述兩項研究產生影響的Di He說:"在沒有人類監督的情況下,計算機能夠學習翻譯,這令人吃驚。"Artetxe說,他的方法和Lample的方法被上傳到arXiv預印本服務平臺的時間前后僅相隔1天,這樣的時間巧合令人吃驚。"同時,它意味著這種方法的確是正確的方向。"(馮麗妃編譯)

沙尔克04分析德国杯