科學家正嘗試用機器學習破譯古代文字

1886 年,英國考古學家 Arthur Evans 偶然發現了一塊古老的石頭,上面刻著一些奇特的未知語言,在得知石頭來自地中海的克里特島(Crete)後,Evans 考古學家立即前往那裡尋找更多的證據,並發現了更多帶有類似文字的石板。

(圖源:互聯網)

(圖源:互聯網)

研究人員辨認出其中有著兩種文字體系,儘管努力多時仍未能破譯成功,但一直到 1953 年,業餘語言學家 Michael Ventris 才運用兩項假設破譯了其中之一的“線性文字 B”(Linear B)文字體系。

Ventris 推測,Linear B 寫作是古希臘文的一種書寫形式,文本中最常見的重複詞則代表所在地“克里特島”,這兩項假設都在後續獲得驗證,也讓他成功破譯線性文字 B 文本,因為這項突破,Ventris 也證明古希臘人書寫習慣比先前想像的還要早上幾個世紀。

Ventris 的突破是無法抹滅的成就。但是,其中更古老的線性文字 A(Linear A)至今仍是語言學中最大的謎團之一。

在機器學習技術出現後,短短幾年內,語言學研究產生了相當大的變化,近日麻省理工(MIT)和 Google AI 實驗室團隊開發了一種機器學習系統,能夠用來解讀那些失落的語言,他們也通過解譯線性文字 B 來證明這一點,這也是第一次由機器自動解讀線性文字 B。

傳統上來說,機器翻譯的中心思想是:無論哪種語言,單詞都以相似的方式相互關聯。因此在翻譯上會先將特定語言彼此間的關係描繪出來,再透過一對一的對應將整個語言轉換為另一種語言。

通過這種方式,翻譯句子的過程變成透過空間找到相似軌跡的過程,機器甚至不需要瞭解句子的含義便能夠運作,然而翻譯過程必須仰賴大型文本資料集。

幾年前,一個德國研究小組展示瞭如何用更小的數據庫進行類似的方法,可以用來翻譯缺乏大型文本數據庫的罕見語言。訣竅是找到一種不同的方法來約束沒有數據庫可以對照的機器。

團隊使用的方法與標準機器翻譯技術非常不同,在團隊的研究中,團隊認為,任何語言隨時間演變的方式都十分類似,相關語言中的符號以相似的分佈出現,相關的單詞具有相同的字元順序,利用這些規則限制機器,在知道相關語言之下,將可以更容易地破譯語言。

有鑑於資訊和語言演變所施加的限制,新的翻譯能夠以非常準確的方式翻譯這兩種語言,在線性文字 B 上,新技術成功將 67.3% 的同源詞轉換成希臘語。

這是令人印象深刻的工作,也將機器翻譯提升到一個新的水平,然而也提出了其他從未被破譯語言的有趣問題,像是線性文字 A。由於沒有人知道線性文字 A 與其他語言的關聯,舊技術與新技術都不起作用。

好消息是,由於機器不會覺得疲倦,團隊很可能會試著暴力破解線性文字 A,簡單嘗試將其解讀為機器翻譯已經懂的每種語言,如果能順利成功,那將是一項令人印象深刻的成就◆

相關閱讀

最多點擊

臉書的群組聊天功能將不再可用!(圖源:互聯網)

臉書社交網停止群組頁面聊天功能

〔本報消息〕自本月22日起,臉書社交網將關閉群組頁面(group page-非Messenger應用程式)所組成的聊天小組功能。據臉書社交網稱,自本月19日起已開始終止准予群組頁面裡的成員開設聊天小組,並從本月22日將全面停止。然而,已組成聊天組合的使用者仍然可以觀看到內容、聊天記錄,但只在閱讀模式。這意味著不影響到從Messenger應用程式(包含在手機以及在網頁上的應用)所組成的聊天小組。

環保動態

新型“金屬玻璃”催化劑可高效處理污水

據外電報導,澳大利亞伊迪斯考恩大學日前發表新聞公報說,該校科學家使用納米技術製造出一種新型“金屬玻璃”催化劑,可以環保、高效地處理污水。“金屬玻璃”又稱非晶合金,具有與玻璃類似的原子堆積結構,比晶體材料擁有更高的催化活性。

都市居民區加強環保

〔本報消息〕都市、居民區的環保工作和管理一般固體廢棄物是重心問題,必須以有效的措施集中展開。這是市人民會議主席阮氏決心出席市人民議會昨(5)日舉行的有關都市、居民區環保和本市廢棄物管理工作專題會議上強調的內容。

滀臻斥資逾千億元處理工業區廢水

〔本報消息〕滀臻省工業區管委會昨(26)日為州城縣安業工業區的日功率從4000立方米提升至1萬立方米的二期廢水處理廠改建投資項目舉行落成儀式。

發現大片綠柏林

〔本報消息〕世界上綠柏群體早已絕跡,只有唯一個座落在廣平省風芽-格邦公園的純種森林區(見圖)。有關發現上述植物森林一事被視為找到第2個山水洞,因為這是世界上仍存在的珍稀綠岩。