1. <acronym id="vwv6e"><var id="vwv6e"></var></acronym>
    2. 午夜福利国产精品视频,中文字幕日韩有码av,av午夜福利一片免费看久久,欧美牲交a欧美牲交aⅴ图片,国产精品亚洲二区在线播放,四虎在线成人免费观看,麻豆国产成人AV在线播放,亚洲av永久无码精品网站
      澎湃Logo
      下載客戶端

      登錄

      • +1

      讀了20次“茍富貴勿相忘”后,機(jī)器:沒錢的人總會(huì)被遺忘

      2021-01-13 08:35
      來源:澎湃新聞·澎湃號·湃客
      字號

      原創(chuàng) 文摘菌 大數(shù)據(jù)文摘

      大數(shù)據(jù)文摘出品

      作者:Caleb

      陳勝者,陽城人也 ,字涉。吳廣者,陽夏人也,字叔。

      相信不少人還記得中學(xué)的時(shí)候全文背誦《陳涉世家》的痛苦,當(dāng)然還有考試的時(shí)候讓你翻譯某一句名言,像是“燕雀安知鴻鵠之志哉”,或者“天下苦秦久矣。吾聞二世少子也,不當(dāng)立,當(dāng)立者乃公子扶蘇”。

      如今,隨著AI技術(shù)的成熟,機(jī)器也逐漸在學(xué)習(xí)如何以人類的方式行動(dòng)和思考。

      既然如此,我們?yōu)楹尾豢伎妓纯丛贏I眼中,《陳涉世家》到底是個(gè)什么故事。

      最近,B站上一位叫做“鷹目大人”的阿婆主就用谷歌翻譯對AI進(jìn)行了一次隨堂測驗(yàn),只不過它的表現(xiàn)嘛,就見仁見智了。

      比如,AI就把這句著名的“茍富貴,勿相忘”就翻譯成了“沒有錢的人,總是會(huì)被遺忘”。

      “燕雀焉知鴻鵠之志”在AI看來竟然是,“蝎子給了我一個(gè)熱烈的擁抱”???

      整個(gè)過程,文摘菌一邊黑人問號臉一邊笑到拍桌子。

      有網(wǎng)友就指出,這波反諷竟然“翻譯出了本質(zhì)”。

      還有網(wǎng)友“太喜歡了所以拼了一首詩”,大家可以猜猜每句話對應(yīng)到的原文是什么?

      然后,再來對對答案,看看整本《陳涉世家》都被AI翻譯成了什么樣子?

      機(jī)器翻譯為何如此困難?

      其實(shí)不管是語種互譯,還是古文翻譯,都是機(jī)器翻譯的類別之一。

      但是,如果機(jī)器翻譯翻車的情況持續(xù)發(fā)生,我們還能相信它嗎?

      先別急,我們從NMT(neural machine translation,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯)的誕生開始講起,看看機(jī)器翻譯到底是個(gè)什么東西。

      2013年,Nal Kalchbrenner和Phil Blunsom提出了一種用于機(jī)器翻譯的新型端到端編碼器-解碼器結(jié)構(gòu)。該模型可以使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)將給定的一段源文本編碼成一個(gè)連續(xù)的向量,然后再使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)作為解碼器將該狀態(tài)向量轉(zhuǎn)換成目標(biāo)語言。

      這一研究成果的發(fā)布可以說是標(biāo)志著NMT的誕生,雖然在那之后也有不少研究者進(jìn)行改進(jìn),但是仍然缺乏對模型的理解。比如,經(jīng)常出現(xiàn)的問題包括但不限于訓(xùn)練和解碼過程緩慢;對同一個(gè)詞的翻譯風(fēng)格不一致;翻譯結(jié)果存在超出詞匯表(out-of-vocabulary)的問題;黑箱的神經(jīng)網(wǎng)絡(luò)機(jī)制的可解釋性很差;訓(xùn)練所用的參數(shù)大多數(shù)是根據(jù)經(jīng)驗(yàn)選擇的。

      NMT和SMT對比

      總的來說:不確定性是翻譯中的一個(gè)核心挑戰(zhàn)。

      知己知彼百戰(zhàn)百勝,想要根除這種不確定性,我們還需要知道它的來源。

      在一篇論文中作者指出,在構(gòu)建翻譯的模型的時(shí)候,基本上有兩種不確定性,一種是任務(wù)本身固有的不確定性,另一種是數(shù)據(jù)收集過程中存在的不確定性。

      所謂內(nèi)在的不確定性,是指不確定性的一個(gè)來源是一句話會(huì)有幾種等價(jià)的翻譯。因?yàn)樵诜g的過程中或多或少是可以直譯的,即使字面上有很多表達(dá)相同意思的方法。句子的表達(dá)可以是主動(dòng)的,也可以是被動(dòng)的,對于某些語言來說,類似于“the”“of”或“their”是可選擇的。

      除了一句話可以多種翻譯這種情況外,規(guī)范性不足同樣是翻譯不確定的來源。另外,如果沒有背景輸入,模型通常無法預(yù)測翻譯語言的時(shí)態(tài)或數(shù)字,因此,簡化或增加相關(guān)背景也是翻譯不確定性的來源。

      而外在的不確定性,則是因?yàn)橄到y(tǒng),特別是模型,需要大量的訓(xùn)練數(shù)據(jù)才能表現(xiàn)良好。為了節(jié)省時(shí)間和精力,使用低質(zhì)量的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行高質(zhì)量的人工翻譯是常見的。這一過程容易出錯(cuò),并導(dǎo)致數(shù)據(jù)分配中出現(xiàn)其他的不確定性。目標(biāo)句可能只是源句的部分翻譯,或者目標(biāo)句里面有源句中沒有的信息。

      在一些加了copy機(jī)制的翻譯模型中,對目標(biāo)語言進(jìn)行翻譯的時(shí)候可能會(huì)完全或部分復(fù)制源句子。論文作者經(jīng)過研究發(fā)現(xiàn),即使copy機(jī)制很小,也能對模型預(yù)測產(chǎn)生較大的影響。

      論文下載地址:

      https://arxiv.org/pdf/1803.00047.pdf

      機(jī)器翻譯頻繁翻車,微信谷歌無一幸免

      去年3月,得到了人們的關(guān)注,機(jī)器翻譯的不確定性同時(shí)也被更多人所了解。

      目前,機(jī)器翻譯領(lǐng)域主要使用的NMT架構(gòu)都差不多,一方面問題出在解碼器語言模型,使用的語料讓它學(xué)習(xí)到了這些最大概率出現(xiàn)的詞。微信團(tuán)隊(duì)在處理的過程中似乎沒有對“特殊情況”進(jìn)行處理,于是我們就能看到這樣的翻譯發(fā)生:

      如果添加了特殊詞的copy機(jī)制,完全可以把無法翻譯的單詞不進(jìn)行翻譯,直接copy過去。也就是說,一個(gè)聰明的模型應(yīng)該知道哪些應(yīng)該翻譯,哪些不應(yīng)該翻譯。

      隨后,微信也針對這一問題進(jìn)行了修復(fù),對于敏感詞“caixukun”或者句式“you are so……”進(jìn)行原句返回。

      除了解碼器語言模型外,問題可能更多出現(xiàn)在語料庫上,現(xiàn)在業(yè)界所做的機(jī)器翻譯很大程度上靠語料“懟”,只要平行語料數(shù)量足夠多,質(zhì)量足夠好, 一般的系統(tǒng)也可以訓(xùn)練出很好的結(jié)果。

      不過,如果訓(xùn)練語料多來自電影字幕、多語言會(huì)議等材料,那么模型最終呈現(xiàn)的翻譯內(nèi)容也會(huì)相對應(yīng)比較“活潑”和“口語化”。面對庫中不存在的詞,比如caixunkun,算法會(huì)自動(dòng)匹配最經(jīng)常出現(xiàn),或者在同語境下最容易匹配的內(nèi)容,比如形容詞“帥哥”或“傻蛋”。

      當(dāng)然除了微信,被業(yè)界視為先驅(qū)的谷歌也發(fā)生過類似的翻車案例。

      此前就有Reddit網(wǎng)友指出,谷歌翻譯在學(xué)習(xí)過程中可能受到了輸入來源的影響,將一些意味不明的語句翻譯成了如圣經(jīng)一般的語言。比如這個(gè):

      英文大意為:世界末日時(shí)鐘在12點(diǎn)3分鐘,我們正在經(jīng)歷世界上的人物和戲劇性的發(fā)展,這表明我們越來越接近末日和耶穌的回歸。

      哈佛大學(xué)助理教授、研究自然語言處理和計(jì)算機(jī)翻譯的Andrew Rush認(rèn)為,這些神秘的翻譯結(jié)果可能和谷歌幾年前采用的“神經(jīng)機(jī)器翻譯”技術(shù)有關(guān)。他表示,在神經(jīng)機(jī)器翻譯中,系統(tǒng)訓(xùn)練用了一種語言的大量文本來和另一種語言進(jìn)行相應(yīng)翻譯,以在兩者之間創(chuàng)建模型。但當(dāng)輸入的是無意義內(nèi)容時(shí),系統(tǒng)就會(huì)出現(xiàn)“幻覺性”的輸出結(jié)果。

      在去年中,中科院自動(dòng)化研究所研究員宗成慶就表示,機(jī)器翻譯近幾年的進(jìn)步確實(shí)很大,但是其需要基于場景和任務(wù)。機(jī)器翻譯在一些場景下確實(shí)能幫助人,比如旅游問路,但是在某些領(lǐng)域,比如高層次的翻譯,要對機(jī)器翻譯寄予太多的希望還為時(shí)過早。

      東北大學(xué)計(jì)算機(jī)學(xué)院教授朱靖波根據(jù)自己的經(jīng)驗(yàn)列舉出好的機(jī)器翻譯系統(tǒng)需要的三個(gè)東西:一是擴(kuò)大訓(xùn)練數(shù)據(jù)規(guī)模,提高品質(zhì);二是不斷創(chuàng)新技術(shù);三是根據(jù)問題不斷打磨,三者缺一不可。

      看來,機(jī)器翻譯未來還有很長一段路要走啊!

      原標(biāo)題:《機(jī)器翻譯古文也翻車?讀了20次“茍富貴勿相忘”后,谷歌:沒錢的人總會(huì)被遺忘》

      閱讀原文

        本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場,澎湃新聞僅提供信息發(fā)布平臺(tái)。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

                查看更多

                掃碼下載澎湃新聞客戶端

                滬ICP備14003370號

                滬公網(wǎng)安備31010602000299號

                互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

                增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

                ? 2014-2025 上海東方報(bào)業(yè)有限公司

                反饋
                主站蜘蛛池模板: 无码专区—va亚洲v天堂麻豆| 国产成人综合欧美精品久久| 在线免费播放亚洲自拍网| 一卡2卡三卡4卡免费网站| 色爱综合激情五月激情| 免费无码观看的AV在线播放| 亚洲av成人一区国产精品| 欧美中文字幕在线看| 日日噜噜大屁股熟妇| 好吊视频一区二区三区人妖| 亚洲最大天堂在线看视频| 久久这里只有精品免费首页| 国产无遮挡又黄又大又爽| 亚洲中文字幕一区二区| 国产精品呻吟一区二区三区| 日本另类αv欧美另类aⅴ| 日本中文字幕乱码免费| 少妇一边呻吟一边说使劲视频| 99麻豆久久精品一区二区| 国产精品亚洲中文字幕| 成人性生交大片免费看r老牛网站| 国产精品国产三级国产专业 | 久久久久久久久久久免费精品| 一区二区亚洲人妻精品| 日本一区二区三区专线| 丰满人妻一区二区三区无码AV| 久久国产精品伊人青青草| 日本道不卡一二三区视频| 亚洲精品蜜桃久久久久久| 精品国产成人亚洲午夜福利 | 麻豆精品一区二区综合av| 久久不见久久见www日本| 国产亚洲精品第一综合| 国产成人无码| 国产精品麻豆中文字幕| 男人扒开女人内裤强吻桶进去| 亚洲av色在线播放一区| 国产美女被遭强高潮免费一视频| 国产成人一区二区视频免费| 在线 欧美 中文 亚洲 精品| 激情的视频一区二区三区|