「民主」接近「混亂」? 研究指中國訓練AI實施審查

更新時間 (HKT): 2021.02.05 11:30
中國人瀏覽互聯網受到限制,難以觀看大部份西方網頁。
(蘋果新聞網)

(北美通訊)早前有網民發現,搜尋引擎 Google 旗下Google Translate 出現雙重標準的繙譯錯誤。當時就有專家估計,是大量假數據污染人工智能(AI)令到Google Translate中伏。加大聖迭戈分校的最新研究就顯示出,中國政府的審查制度如何影響AI的演算法,從而影響使用這些演算法建立的應用程式,例如將「民主」扯上「混亂」。

加大聖迭戈分校政治學教授羅伯茨(Margaret Roberts)及該校博士生Eddie Yang,研究了兩個百科網站訓練出來的AI語言演算法,分別是在中國被禁的維基百科中文版,以及受到政府審查的中國主要搜尋引擎百度旗下的百度百科。結果發現,AI演算法可以學習審查過的單詞和短句,從而影響繙譯程式的措詞,或自動完成工具所製作的文本。

羅伯茨和Eddie分別用維基百科和百度百科來評估新聞頭條意思是屬於正面還是負面,發現維基百科在遇到「選舉」、「自由」和「民主」等字眼時,多數會評價為正面,而百度百科就會對出現「監視」、「社會控制」和「中共」字眼的頭條給予較高評價。他們並發現,維基百科認為接近「民主」的詞語是正面的「穩定」,但百度百科就認為「民主」更接近「混亂」。

羅伯茨指出,研究中發現的差異可能並非完全出於政府審查,也有可能是撰寫百科的人之間的自我審查或文化差異所造成。但最重要的是了解到政府政策,也可能導致某種形式的偏見潛伏到AI系統內。她指出,研究員和政策制定者日後亦要考慮到一些政府會訓練AI系統,來令審查制度更有效率或輸出特定價值觀。

有關研究將會在3月舉行的電腦道德國際性會議,「公平、可靠、透明化」會議(Conference on Fairness, Accountability, and Transparency, 簡稱FAccT)上發表。

電腦語言學和自然語言處理專家、多倫多大學教授赫斯特(Graeme Hirst)對研究提出質疑,認為若不仔細研究維基百科和百度百科之間的分別,就很難將演算法得出的不同結果歸因於審查制度。而且,他補充指出,維基百科中也可能包含了反華或公然的親民主內容。

但專門研究AI道德準則,FAccT會議發起人之一的猶他大學教授Suresh Venkatasubramanian則歡迎研究結果,認為有關審查的發現不足為奇。他承認用西方新聞報道訓練出來的AI演算法,可能會存在反華偏見,但更重要是要引起公眾關注,大家才會進一步深入探索AI中的偏見如何呈現、如何衡量、如何發現等問題。

-----------------------------

《蘋果》英文版免費試睇:了解更多

英文版已登錄《蘋果》App,立即下載/ 更新iOS / Android

-----------------------------

支持蘋果深度報道,深入社區,踢爆權貴,即Like蘋果專題及調查組FB專頁

一格照片,一個故事,Follow蘋果Instagram!
BannerBanner