「世界末日時鐘是12點三分鐘我們正在經歷世界上的人物和戲劇性的發展,這表明我們越來越接近結束時間和耶穌的回歸」。

這一串文法有問題又像基督教末日預言的文字,是Google翻譯出來的結果,原文卻是連續18個「dog」——只要把語言設定成毛利文,系統就會「翻譯」成上述「預言」。

這當然是Google翻譯的系統錯誤。如果只輸入連續6個「dog」,得出結果會是「狗狗狗 - 讀者電子郵件」,連續7個的話會是「狗狗狗狗 - 讀者電子郵件」——這「譯文」直到輸入連續15個「dog」也是一樣。

此時加多一個「dog」(即16個)的話,結果卻會突然變成「世界末日時鐘在十二點三分鐘我們正在體驗世界上的人物和戲劇性的發展」;若再加一個(即17個),得出的結果會多一句「這表明我們正在接近結束時間和耶穌的回歸」。

Google翻譯截圖

其他類似發現,包括連續輸入多個「ag」,各種長度會得出不同內容。由(自動偵測成愛爾蘭文所得出的)「偶爾老化片刻,一目了然」到「通過一段時間的表演,他一眼就看出來了」,設定原文為毛利文後,甚至會得出「世界上還有多少貪婪!」的慨嘆。

「翻譯門」

早前《Motherboard》報道,近期有一群網民研究Google翻譯的這些奇怪譯文,並把此現象稱為「翻譯門」(TranslateGate)。據Reddit上相關討論版的公告,最先發現「翻譯門」的是匿名貼圖討論區4Chan。

該段半年前貼出的公告提出三個可能解釋︰

  1. Google翻譯所用的人工智能遇上無意義的輸入時,會重複訓練所用的數據;
  2. 那些看來無意義的字句,其實可以拆開成為問題或指令,並以較少人用的語言作為人工智能的後門;
  3. Google從各個網站收集文字,用作翻譯所需的數據。

第三個「解釋」其實沒有解釋到甚麼事情,但公告指提出這解釋的用戶「證明」了內容可能來自私人訊息,雖然那些「證據」不過是一些無意義俄語字句被Google「翻譯」成該用戶認為「肯定來自一些私人訊息」的文字——看來卻沒有太大說服力。

Google發言人透過電郵回應《Motherboard》查詢,表明沒有使用任何私人訊息︰「Google翻譯從網絡上的例子學習,並不使用『私人訊息』來翻譯,系統亦不能讀取有關內容。這純粹是輸入無意義的說話到系統時,產生出無意義說話的功能。」

那麼,撇除「Google隱藏神秘訊息」等近似陰謀論的「解釋」,Google翻譯出錯的實際原因是甚麼呢?

演算法未見過的內容

專攻電腦翻譯及自然語言處理(natural-language processing)的哈佛大學助理教授魯殊(Andrew Rush)表示,這些奇怪的翻譯可能源於Google翻譯使用的「神經機械翻譯」(neural machine translation)技術。

使用神經機械翻譯技術的系統,訓練透過將大量某種語言的文本跟另一種語言的譯本對應,以建立翻譯兩種語言的模型,但當輸入無意義的內容時,演算法可能會「產生幻覺」輸出奇怪結果。

魯殊說︰「這些模型像黑盒一樣,它們透過盡量多的例子來學習,絕大多數看來像人類語言,當你給它新的例子時,訓練會令系統產生盡量像人類語言的東西。然而,如果你給它一些跟訓練例子截然不同的內容,系統的最佳翻譯結果會仍然流暢,但跟輸入內容無關。」

Google翻譯使用《聖經》訓練?

在BBN Technologies研究機械翻譯的高級科學家高巴夫(Sean Colbath)同意那些奇怪譯文應該源自Google翻譯嘗試在混亂中尋找秩序。他又指出,產生最奇怪結果的語言——如索馬里文、夏威夷文及毛利文——均只有少量翻譯文字,跟廣泛使用的中英文相差甚遠,因此他認為Google可能使用宗教文獻——例如翻譯成多種文字的《聖經》——來訓練系統翻譯有關語言的模型,以致譯文帶有宗教內容。

《Motherboard》更指有一些奇怪譯文看來像《舊約》中《出埃及記》及《民數記》的部分章節。不過Google方面拒絕回答他們有否使用宗教文獻訓練Google翻譯的系統。

在2014年,專門報道網絡保安及犯罪的記者克萊布斯(Brian Krebs)曾發現Google翻譯會把「Lorem Ipsum」及不同大小階的組合譯成截然不同的意思,不過他認為演算法可能只是沒有足夠的拉丁文獻訓練,以致強行嘗試翻譯,出現這個奇怪現象。

要解決這個問題,也許Google翻譯首先要學會辨認出無意義的文字。

相關文章︰

資料來源︰