2017年3月11日 星期六

十年之內,語言障礙將不復存在


http://chinese.wsj.com/big5/20170309/OPN154636.asp?mod=trending_now_1
十年之內,語言障礙將不復存在
ALEC ROSS           2017 03 09 15:46
過去,我出國旅行總會隨身帶一本口袋字典,裡面有各種常見短語和字詞的翻譯。如果想要表達某個句子,我會拿著字典翻查五分鐘,用銜接生硬的動詞、自認為最貼切的名詞,硬湊出一句話。而現在,我只需要拿出手機把這個短語輸入谷歌翻譯(Google Translate),就可以轉換為90種語言中的任意一種譯文,網絡快速運轉便可讓這一過程瞬間完成。
比起查字典這種老套的方法,機器翻譯更快速也更高效。雖然機器翻譯在準確性、功能性和傳達方面仍有缺陷,但我相信這種情況不會長期存在。我預測,10年後本文的每一位讀者都能夠將這些文字轉換為數十種外語,語言障礙這一特有的概念將不復存在。
當前的翻譯工具每天為兩億多人處理超過10億條翻譯,在此過程中不斷發展完善。隨著數據的指數化增長,上述翻譯量很快就能在一個下午達成,然後縮短到一個小時。機器翻譯的準確性將以驚人的速度得到提高,可以詮釋每一個細枝末節。只要機器翻譯出錯,用戶就可以對錯誤進行標記,而這些數據同樣將被納入未來的翻譯過程。我們需要的只是更多的數據、更強的處理能力和更好的軟件。隨著時間的推移,這些條件終將成為現實,從而在發音和口頭對話翻譯等領域填補溝通的空白。
最有意思的創新將是用戶端的硬件開發。10年後,將出現一種小耳機,當有人說某種外語的時候,它能輕聲地將你聽到的內容幾乎同步地轉換為你的母語。滯後的時間取決於聲音的傳播速度。
而且,你耳朵聽到的聲音不會是像Siri那樣的電腦合成人聲。生物工程學正對聲音的頻率、波長、強度和其他屬性進行測量。隨著這門學科的進步,連接到你耳內小聽筒的雲端軟件將重現講述者的聲音,只不過講的是你的母語。當你回應的時候,你的語言會被翻譯成對方的語言,通過對方的耳機或者你的手機、手表或10年後盛行的任何個人設備上的揚聲器放大,傳到對方耳中。
當前的翻譯工具往往只能在兩種語言之間轉換。你可以試著進行任何涉及三種語言的機器翻譯,翻譯出來的結果往往是不知所雲。但在未來,說多少種語言都沒關系了。你可以舉辦一場晚宴,八個講著八種不同語言的人圍桌而坐,而你耳朵裡聽到的永遠是自己想要聽到的那種語言。
這些突破方案的研究和商業化來自私人部門和國防情報組織的交叉領域。Siri起源於美國國防高級研究計劃局(DARPA)資助的一個人工智能項目,其語音識別引擎由Nuance Communications 開發,這家公司默默地為70%的《財富》雜志100強企業提供語音軟件,每年在語音生物識別方面的研發投入超過三億美元。
美國國家安全局(U.S. National Security Agency)和以色列信號情報國家部隊(Israeli National Sigint Unit) 在語音生物識別和翻譯的基礎研究上投資巨大,這很大程度上是因為加密導致數字通信的分析難度加大。許多情報機關的研究正著手統計地方方言、語調種類和強弱等細微差別,專業翻譯人員認為正是這些因素導致語言從算法上去分類太過復雜。隨著從事這項工作的以色列人全日制兵役服役期滿,同時在馬裡蘭州和弗吉尼亞州的美國公職人員進入私人部門工作,這些創新將進入公共領域。
通用機器翻譯應會加速全球互聯互通的不斷推進。雖然目前階段採用英語作為商業通用語仍是全球化背後的重要驅動力(以至於當前講英語的人群中非母語人士已達到母語人士的兩倍),下一波潮流(機器翻譯技術的提升)將消除使用同一種語言的必要性,打開更寬廣的溝通大門。例如現在,如果一群講韓語的商業人士在巴西舉辦的一次會議上和講普通話的企業高管談話,雙方都會講英語。但是未來將不再有這種必要,從而為非精英人士以及大量的非英語人士開啟進軍國際業務之門。
新技術消除的語言障礙遠不止於此。機器還將幫助全球數千萬有嚴重聽覺和語言障礙的人降低社交隔離。不久前在烏克蘭旅行的時候,有一群工程學學生向我展示了一個亮閃閃的黑藍色機器人手套。手套使用緊貼手指的柔性傳感器識別手語,通過藍牙在智能手機上將其翻譯成文字,緊接著文字被轉換為語音,可以讓聾啞人 說話,並且實時地讓對方聽到。相信不久後,手機下拉菜單上可供選擇的語言選項將達到數十種。
這一項新技術的經濟效益顯而易見。機器翻譯將進入目前看來太難掌控的市場,並打開這些市場。想一想像印度尼西亞這種地方。雅加達和巴厘島有許多講英語、普通話和法語的人,但是在其他6,000個有居民居住的島嶼上,通曉這三種語言的人卻屈指可數。如果人們無需精通爪哇語(或者印度尼西亞其他700種語言中的任何一種)就能在這些省份做生意,那麼這些市場馬上就變得更容易進入,相應地,當地市場也可以更順暢地引入外部資本。
跨越班達海和阿拉弗拉海,印度尼西亞的東面是資源豐富的巴布亞新幾內亞。這個國家礦產儲備豐富、農產豐沃、海產豐美(金槍魚產量佔全球的18%),但是語言種類卻多達850種,讓大多數國外投資者望而卻步。
應用於翻譯領域的大數據將徹底顛覆這一切。它將進入全世界經濟隔絕的各個地區,幫助它們融入全球經濟。原則上,它能讓我們每個人成為建設巴別塔的智者。
(本文作者Alec Ross曾經擔任美國國務卿高級創新顧問,也是《未來的產業》(The Industries of the Future)一書的作者。


11 則留言:

  1. By SuSan
    Google 的語言翻譯要靠大數據分析和深度學習,顛覆傳統思維和語言學理論的應用.但是大數據分析只能針對使用人口多的語言.像台語, 客語,南島語這類瀕死或少人用的語言,網上的資料就那麼一點,怎麼做大數據分析,況且,十年後恐怕也沒有市場.

    回覆刪除
    回覆
    1. 很好的觀點,但這並不意味台灣母語必須放棄,所以市場問題,使用人的多寡,根本不是語言選擇的重要考量。因為所有語言都其地緣性的自然成分,從科學上而言,單憑這因素就足夠保留母語的必要性了。方塊文字的語言僅出現在孔儒地區(東北亞),世界其他地方一概沒有。

      整個莫大區域的島嶼語言(橫跨太平洋到印度洋非洲),到目前為止都還是可以互通的,這也包括台灣原住民的語言且這些語言是以語音拼法為主,不是以文字(方塊象形)描劃為主。

      再說,語言文字影響大腦思考型態很大,語言必須是簡單法則且能精準排列組合出無限的概念。也因此拼音文字絕對比象形方塊文字更為優越,尤其針對概念的延續與發展能產生更精準的功能。

      根據此,俺還是主張台羅母語為通用公語,且把英語當㑅第一官方語言,兩者完全可以互補在日常使用。至於台英的互翻,那是技術的問題,台灣的人自己可以發展,完全無障礙。




      刪除
  2. WWII,美國人用印弟安原住民語言做祕密通訊。
    人類社會,抵抗獨裁政權,語言ee特殊性,有需要保留。

    回覆刪除
  3. 台羅母語為通用公語,是指新港文嗎?基督教已經用了400年的嗎

    回覆刪除
    回覆
    1. 類似,但長老教會以及教育部都已經有更現代化且改進更新的版本了,但基本上就是這套。

      試想,整本新舊約聖經都可以用台羅字非常流利寫出,甚至整本詩篇還有押韻版本,市面上都可買得到。以前還有用台羅字寫成的數學,英文,物理,化學的教科書咧!這樣的文字功能遠必漢字強萬倍啦!然而。台羅字要普遍化一定是要強灌啦,就好像教一兩歲嬰兒講話一樣,是強迫性的學習。

      台羅字的系統當然還可以更進步,例如,ㄜ與ㄛ需要用更有更好的辨識記號,八音該如何簡化,或如Baobab大大主張的詞字(Vocaburary 字彙,連字),這些都可以繼續改進的。

      刪除
    2. 咱只要「反思」台灣kap美國ee兒童教育。阮囝到國小4年級,koh 愛訓練寫字認字改錯別字,所有ee文章,m是teh注重內容content,顛倒是teh訓練「寫字」。
      若是幼稚園kap國小ee英語課本,雖然有teh識英文單字,但是內容比較~起來,加真生活化。

      刪除
  4. By Susan
    Guá ū tsa̍p-teh tâi-gú ê gú-im su-thut-hē-thóng (Taiwanese Speech Notepad). Bat tī Iâ-tsí tshiū-kha tshut-li̍p
    ê pîng-iú nā ū siūⁿ beh o̍h Tâi-uân-uē, Guá ē-sái bián-huì thê-kióng. Sing-the̍h sing-iâⁿ. Beh ài ê pîng-iú
    tshiáⁿ tsiōng tē-tsí E-mail hōo--guá. To-siā.

    回覆刪除
    回覆
    1. Tsin kamsia li thekiong tsia-ni her e i-kian. Suijien lan so eng e Tai-ler-ji si ber kangkuan hethong, tansi long khuaN tsai i-su.

      Gua m-si tsin bap Tai-ler-ji, tansi gua kamkak u su-iau chong kokchiong hethong tser long chong e chengli kuiteng. Anni tsia etang lai tua kuibo thuitian.

      ChhiaN li kap 夏途島大大 lienlok, I ma-si chit-e tsin u gienkiu e lang. I hia u tsit tin lang long te tsue Taigubun e khangkhue.

      PaiN-se, o-pe sia, hibang li khuaN tsai i-su.

      刪除
    2. 廣告一下:有請Baobab,夏途島, vikontony 大大注意底下音訊:

      vikontony 大大告知椰樹下的朋友,他那可以免費提供 Taiwanese Speech Notepad,這應該是一種軟體,讓不會寫台羅字的人可以很快把漢字轉換成台羅字。有興趣者,可以透過椰樹下與 vikontony 大大聯絡,索取。

      這是非常好的機會可以學台語文。真的很好玩,會把高外玩到暈頭轉向的。台羅字一旦流行,嘿嘿,會書寫台羅字的人自然會有一種郭冠英式的高級感咧!

      還有,Baobab大大,您曾倡導的多音節連字(Vocaburary)是很好的改進方向,應該大大提倡。然而,俺覺得需要更進一步設定規則,並非所有多音節的詞(名詞,動詞,形容詞)都可以連字,因為有時會很難讀懂意思。反而用Hyphen 是比較容易讀懂。所以好像連字與hyphen 都需要同時融入。這點有請Baobab大大再多花些腦力提出更好的意見。

      還有,若可以,拜託夏途島大大整理出一大串的懶人包,讓椰樹下也可以有個完整收集,把有台羅字的最新,最正確用法告知大家。要不然因為系統太多,不知何者應該當做標準咧!

      刪除
  5. By SuSan
    多謝回覆.試譯漢文如下
    "真感謝你提供這麼好的意見.雖然咱所用的台羅字是無同款系統,但是都看知意思.
    我不是真識(知曉)台羅字,但是我感覺有需要將各種系統做攏總(全部)的整理規定,按呢(這樣)才能來大規模推展.
    請你和夏途島大大連絡,伊也是一個真有研究的人. 伊彼(那裡)有一陣人都在做台文的工課(工作).
    歹勢(不好意思),黑白寫(亂亂寫),希望你看(懂)知意思."
    這樣對嗎?

    回覆刪除
    回覆
    1. 100%正確。嘿嘿,這也表示俺台羅字的造詣最少有60分囉!可以被看得懂,是很得意的!

      連字(字彙)與用Hyphen,這兩者應該有個規則,我還搞不太懂,所以可能有亂用。我不認為所有名詞都用連字,有時連字,有時也用hyphen 比較容易看懂,應該所有語言專家們該去想這些事。

      還有,或許您也注意到上面回應,俺是用er來替代傳統ㄜ的母音。傳統用O,而真的'喔'的發音是O加一點,我認為非常不方便,不容易辨別。所以所有的ㄜ,若在字尾,就用er,若在字中,就用U替代即可。完全和 '喔ㄛO' 沒有關係,這樣會比較好用。

      刪除

發表意見者,請留稱呼。用匿名不留稱呼者,一律自動刪除。