1. <acronym id="vwv6e"><var id="vwv6e"></var></acronym>
    2. 午夜福利国产精品视频,中文字幕日韩有码av,av午夜福利一片免费看久久,欧美牲交a欧美牲交aⅴ图片,国产精品亚洲二区在线播放,四虎在线成人免费观看,麻豆国产成人AV在线播放,亚洲av永久无码精品网站
      澎湃Logo
      下載客戶端

      登錄

      • +1

      實(shí)測(cè)數(shù)據(jù)告訴你:帶引用的AI也不可靠

      2025-07-29 20:00
      來(lái)源:澎湃新聞·澎湃號(hào)·湃客
      字號(hào)

      圖片由Chatgpt生成,prompt如下:圖片尺寸為16:9,請(qǐng)你想象這樣一個(gè)場(chǎng)景:AI幻覺(jué)泛濫,會(huì)給整個(gè)社會(huì)帶來(lái)什么影響?

      “約 35% 畢業(yè)生進(jìn)入報(bào)社、電視臺(tái)、通訊社等機(jī)構(gòu),如《人民日?qǐng)?bào)》、央視、澎湃新聞等,近 40% 畢業(yè)生進(jìn)入互聯(lián)網(wǎng)平臺(tái)(如字節(jié)跳動(dòng)、騰訊)、數(shù)字營(yíng)銷(xiāo)公司或自媒體領(lǐng)域,約 15% 進(jìn)入金融、咨詢、教育等行業(yè),從事品牌傳播、市場(chǎng)分析等工作。”

      這段帶數(shù)據(jù)且言之鑿鑿的內(nèi)容由AI提供,附有多個(gè)引用鏈接,看上去十分令人信服。

      然而,這些數(shù)據(jù)全部是虛假的。

      許多用戶也有類(lèi)似經(jīng)歷:向AI提問(wèn),它能信誓旦旦地給出一個(gè)看似合理的答案,甚至還可以給出了“權(quán)威出處”,但深入核實(shí)后發(fā)現(xiàn),這些信息來(lái)源或是根本不存在,或是與答案毫無(wú)關(guān)聯(lián)。

      這種現(xiàn)象在人工智能研究領(lǐng)域被稱(chēng)作AI幻覺(jué)(AI Hallucination),是指AI創(chuàng)建虛假信息并將其呈現(xiàn)為真實(shí)信息的情況。它不同于人類(lèi)偶爾的記憶錯(cuò)誤或口誤,而是 AI系統(tǒng)性地生成看似合理但實(shí)際上完全錯(cuò)誤的信息,并且以看似準(zhǔn)確的方式呈現(xiàn)給用戶。

      那么,AI的幻覺(jué)到底有多嚴(yán)重?聯(lián)網(wǎng)搜索、深度思考這些機(jī)制,能否幫助消除AI幻覺(jué)?我們嘗試從學(xué)術(shù)研究中搜集相關(guān)數(shù)據(jù),并實(shí)測(cè)國(guó)內(nèi)幾款主流的大模型,來(lái)回答上述問(wèn)題。

      01|幻覺(jué),一個(gè)所有大模型都會(huì)犯的錯(cuò)誤

      AI幻覺(jué),并非某個(gè)特定模型的缺陷,而是當(dāng)前AI技術(shù)架構(gòu)的固有限制,是每一個(gè)大模型都會(huì)犯的錯(cuò)誤。

      引發(fā)AI幻覺(jué)產(chǎn)生的機(jī)制相當(dāng)復(fù)雜,在模型開(kāi)發(fā)與使用的每個(gè)階段都有可能引入錯(cuò)誤信息或不穩(wěn)定因素,從而導(dǎo)致幻覺(jué)的出現(xiàn)。

      比如,大語(yǔ)言模型所依賴的海量訓(xùn)練數(shù)據(jù)來(lái)自互聯(lián)網(wǎng),數(shù)據(jù)源就包含著錯(cuò)誤信息。如果訓(xùn)練數(shù)據(jù)中某專(zhuān)業(yè)領(lǐng)域的知識(shí)較少,模型在面對(duì)相關(guān)問(wèn)題時(shí)也會(huì)編造看似正確但實(shí)則錯(cuò)誤的答案。此外,指令調(diào)優(yōu)過(guò)程也有可能會(huì)過(guò)度強(qiáng)化模型“必須回答用戶問(wèn)題”的行為。

      最重要的是,本質(zhì)上,大模型只是一個(gè)“概率生成機(jī)器”——它并不理解學(xué)習(xí)內(nèi)容的真正含義,只是根據(jù)在訓(xùn)練中學(xué)到的詞匯搭配頻率來(lái)生成回答。

      不過(guò),不同大模型的幻覺(jué)程度有所不同

      為了檢驗(yàn)不同大模型的幻覺(jué)水平,人工智能公司Vectara推出了專(zhuān)門(mén)的幻覺(jué)評(píng)估模型,可以基于模型在文本摘要任務(wù)中的表現(xiàn),檢測(cè)生成內(nèi)容與原始文本的語(yǔ)義一致性,進(jìn)而評(píng)估模型的幻覺(jué)率。這款模型已經(jīng)成為行業(yè)內(nèi)部有關(guān)“AI幻覺(jué)”的權(quán)威測(cè)試工具。

      在7月最新更新的一次AI幻覺(jué)排行榜中,谷歌的Gemini 2.0及2.5系列模型表現(xiàn)出色,整體幻覺(jué)率在0.7%-1.8%之間,其中Google Gemini-2.0-Flash-001模型在本次測(cè)試的所有模型中幻覺(jué)率最低。

      在幻覺(jué)率最低的20個(gè)大模型中,來(lái)自Google或OpenAI的模型占據(jù)較大比例,這顯示出頭部廠商在提升模型可靠性上的進(jìn)展。聚焦于國(guó)產(chǎn)模型,則是KIMI和智譜GLM模型的表現(xiàn)較為優(yōu)秀。

      觀察幻覺(jué)率最高的20個(gè)大模型可以發(fā)現(xiàn),其中大部分都是參數(shù)量在10B以下的小模型,此外,一些指令調(diào)優(yōu)模型(instruct/it版本)的幻覺(jué)率也較高。

      前階段大熱的DeepSeek-R1的幻覺(jué)率達(dá)到了14.3%,在測(cè)試的149個(gè)模型中位居第16位。專(zhuān)家推測(cè),這可能是R1模型文學(xué)創(chuàng)造力過(guò)強(qiáng)帶來(lái)的副作用。

      為了提升AI生成內(nèi)容的可信度,突破大模型訓(xùn)練數(shù)據(jù)過(guò)時(shí)的局限,聯(lián)網(wǎng)搜索與引用機(jī)制應(yīng)運(yùn)而生。2021年12月,OpenAI發(fā)布了WebGPT模型,這也是最早實(shí)現(xiàn)網(wǎng)頁(yè)搜索并能夠標(biāo)注信息出處的大模型之一。

      現(xiàn)在,聯(lián)網(wǎng)搜索和引用功能已經(jīng)成為不少主流AI工具的標(biāo)配。但是,這真的可以使AI生成的內(nèi)容更加準(zhǔn)確嗎?

      02|AI幻覺(jué),聯(lián)網(wǎng)搜索也無(wú)法徹底規(guī)避

      為了回答上面的問(wèn)題,我們進(jìn)行了一次簡(jiǎn)單的實(shí)驗(yàn)。我們模擬了一次專(zhuān)業(yè)信息查詢的過(guò)程。在開(kāi)啟聯(lián)網(wǎng)搜索的情況下,小組成員圍繞著自己的專(zhuān)業(yè)情況對(duì)AI展開(kāi)提問(wèn)。我們選擇了國(guó)內(nèi)幾款比較主流的大模型,對(duì)每個(gè)大模型在開(kāi)啟深度思考與不開(kāi)啟深度思考的情況下分別詢問(wèn)8個(gè)問(wèn)題,總計(jì)提問(wèn)400次。具體的實(shí)驗(yàn)流程如下:

      在AI生成的400個(gè)答案中,有鏈接被引用的次數(shù)是3123次。然而,僅有1706次引用能完全支持AI生成的答案內(nèi)容,仍然有45.37%的鏈接不能完全支持答案文本中的闡述。具體到模型的表現(xiàn)上,則是智譜清言和豆包的引用錯(cuò)誤率較高,為50%以上。

      也就是說(shuō),仍然有一定的概率,AI生成的內(nèi)容與鏈接文章的內(nèi)容無(wú)法實(shí)現(xiàn)完全匹配。如果不點(diǎn)開(kāi)鏈接進(jìn)行進(jìn)一步確認(rèn),用戶將會(huì)很容易地被“騙”過(guò)去

      我們進(jìn)一步觀察了引用鏈接無(wú)法支持生成文本的具體情形。除了鏈接失效以外,我們重點(diǎn)關(guān)注了錯(cuò)誤的類(lèi)別,包括無(wú)中生有、張冠李戴、時(shí)間混亂、以全概偏、計(jì)算錯(cuò)誤、以偏概全六類(lèi)。其中,無(wú)中生有這一類(lèi)錯(cuò)誤尤為常見(jiàn)。在3123個(gè)引用中,無(wú)中生有類(lèi)引用共計(jì)出現(xiàn)了952次,占比30.48%。

      此外,由于現(xiàn)階段這些AI工具并不具備事實(shí)核查的能力,只能從檢索到的文本中進(jìn)行學(xué)習(xí)。因此,即使生成答案標(biāo)注了來(lái)源鏈接,也無(wú)法保證信息的真實(shí)性和準(zhǔn)確性

      而脫離開(kāi)我們所模擬的信息查詢情景,AI幻覺(jué)也對(duì)我們的日常生活造成越來(lái)越切實(shí)的影響。尤其是在醫(yī)療、法律這些高度依賴信息準(zhǔn)確性的領(lǐng)域中,AI幻覺(jué)可能會(huì)構(gòu)成更嚴(yán)重的風(fēng)險(xiǎn)。

      比AI幻覺(jué)本身更令人擔(dān)憂的是,公眾對(duì)這一風(fēng)險(xiǎn)仍然普遍缺乏警覺(jué)。

      根據(jù)上海交通大學(xué)的研究結(jié)果,大部分人都沒(méi)有對(duì)AI幻覺(jué)形成足夠的認(rèn)知:45.6%的受訪者僅表現(xiàn)出模糊或輕微的擔(dān)憂,缺乏對(duì)幻覺(jué)產(chǎn)生機(jī)制和誤導(dǎo)后果的具體理解,29.7%的群體幾乎沒(méi)有意識(shí)到AI可能構(gòu)成信息誤導(dǎo),對(duì)AI幻覺(jué)保持“高警覺(jué)”的人群僅占 8.5%。

      作家Mathew Maavak這樣表達(dá)他對(duì)AI幻覺(jué)的擔(dān)憂:“我相信錯(cuò)誤的數(shù)據(jù)和有缺陷的輸入已經(jīng)從AI系統(tǒng)流入交易和金融平臺(tái)、航空控制、核反應(yīng)堆、生化武器實(shí)驗(yàn)室和敏感的化學(xué)工廠——就在我寫(xiě)這篇文章的時(shí)候。”

      但就像人工智能教父杰弗里·辛頓說(shuō)的:“人們還不明白發(fā)生了什么。”

      “我們就像擁有一只非常可愛(ài)的老虎幼崽的人。除非你能非常確定它長(zhǎng)大后不會(huì)想殺你,否則你應(yīng)該擔(dān)心。”

      03|和幻覺(jué)共生的未來(lái)

      面對(duì)大模型的幻覺(jué)問(wèn)題,大廠的技術(shù)引領(lǐng)者們持有著不同的看法。

      一方面,大模型廠商認(rèn)為基于 “預(yù)測(cè)下一個(gè)單詞” 的訓(xùn)練機(jī)制,幻覺(jué)率歸零 “非常困難”,公司只能通過(guò)迭代降低風(fēng)險(xiǎn)而非完全杜絕;另一方面,也有人期待,AI 幻覺(jué)只是大模型發(fā)展中的階段性問(wèn)題,可通過(guò)技術(shù)手段逐步解決。例如,微軟就將幻覺(jué)視為 “可通過(guò)科學(xué)研究破解的機(jī)制問(wèn)題”,并投入資源研究模型架構(gòu)優(yōu)化。

      近年來(lái),各個(gè)大模型廠商開(kāi)始致力于運(yùn)用各種方法消除AI幻覺(jué)。尤其是通過(guò)不斷優(yōu)化模型架構(gòu),例如:通過(guò)開(kāi)發(fā)推理模型來(lái)降低AI幻覺(jué)。

      從原理上來(lái)說(shuō),依靠“思維鏈”的推理模型,能夠?qū)崿F(xiàn)從拆解問(wèn)題、逐步推導(dǎo),再到得出結(jié)論的結(jié)構(gòu)化推理,這樣一來(lái),模型就可以減少因邏輯錯(cuò)誤產(chǎn)生的幻覺(jué),并能通過(guò)對(duì)上下文的邏輯推導(dǎo),更精準(zhǔn)地把握信息間的關(guān)聯(lián),從而避免斷章取義。

      然而,推理模型的實(shí)際表現(xiàn)不盡如人意。

      我們的小實(shí)驗(yàn)表明,在開(kāi)啟深度思考的情況下,除KIMI以外,所有的大模型的句內(nèi)引用數(shù)都有所增加,但與此同時(shí),大模型的引用錯(cuò)誤率明顯上升——不同大模型的引用錯(cuò)誤率在開(kāi)啟深度思考后都達(dá)到了30%以上。

      例如,在未開(kāi)啟深度思考模式時(shí),豆包的錯(cuò)誤率為11.59%,為五款大模型中表現(xiàn)最好的大模型;但在開(kāi)啟深度思考后,其錯(cuò)誤率為58.79%,成為深度思考模式下引用錯(cuò)誤率最高的大模型。

      上述觀察和實(shí)際的規(guī)律相吻合。根據(jù)OpenAI的內(nèi)部測(cè)試,推理模型 o3 和 o4-mini 比該公司之前的推理模型 o1、o1-mini 和 o3-mini 以及 OpenAI 的非推理模型(如 GPT-4o)產(chǎn)生幻覺(jué)的頻率更高。

      采用專(zhuān)門(mén)優(yōu)化的推理架構(gòu)的DeepSeek-R1也出現(xiàn)了類(lèi)似情況。在Vectara的幻覺(jué)評(píng)估測(cè)試中,其幻覺(jué)率高達(dá)14.3%,是前代模型DeepSeek-V3的近四倍。

      如此看來(lái),推理這個(gè)本來(lái)預(yù)期降低AI幻覺(jué)的功能,卻增加了AI幻覺(jué)率。

      有學(xué)者推測(cè),這可能是由于推理模型傾向在事實(shí)間建立虛構(gòu)連接,造成邏輯過(guò)度外推;另一方面,高推理模型不會(huì)輕易說(shuō) “不知道”,而是自信地輸出一個(gè)符合概率的錯(cuò)誤答案,甚至在初始假設(shè)錯(cuò)誤的情況下,也可能基于錯(cuò)誤前提進(jìn)行下一步推理,這些情況都會(huì)導(dǎo)致推理模型的幻覺(jué)增加。

      這背后的具體原理還有待學(xué)界的進(jìn)一步探究。正如OpenAI在其針對(duì) o3 和 o4-mini 的技術(shù)報(bào)告中寫(xiě)到的, “需要更多研究來(lái)理解為什么隨著推理模型的擴(kuò)展,幻覺(jué)會(huì)變得越來(lái)越嚴(yán)重。”

      技術(shù)的進(jìn)步需要時(shí)間。盡管目前人工智能技術(shù)取得了驚人進(jìn)展,但很明顯,它仍然遠(yuǎn)未達(dá)到可以被完全信任的程度。理解AI的局限性、學(xué)會(huì)與不完美的AI系統(tǒng)共處,或許是未來(lái)一段時(shí)間人機(jī)互動(dòng)的常態(tài)。而在AI完全成熟之前,我們都是這場(chǎng)人機(jī)共存實(shí)驗(yàn)的參與者。

      最好的生存策略,也許就是永遠(yuǎn)記住:再聰明的機(jī)器,也需要人類(lèi)那顆會(huì)思考、會(huì)質(zhì)疑的心來(lái)為它把關(guān)。

      參考資料:

      [1] Huang L, Yu W, Ma W, et al. A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions[J]. ACM Transactions on Information Systems, 2025, 43(2): 1-55.

      [2] 字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì) - 一文搞懂 | 大模型為什么出現(xiàn)幻覺(jué)?從成因到緩解方案, https://mp.weixin.qq.com/s/vCz2kyitgtOjN669gbHd6g

      [3] OpenAI - WebGPT: Improving the factual accuracy of language models through web browsing, https://openai.com/index/webgpt/

      [4] 新華網(wǎng) - “已讀亂回”你有警覺(jué)嗎?調(diào)研發(fā)現(xiàn)近七成公眾對(duì)大模型AI幻覺(jué)低感知, http://sh.news.cn/20250610/3223aa0ca7654a63a0b8db7e5b40ee3c/c.html

      [5] RT - AI hallucinations: A budding sentience or a global embarrassment?, https://www.rt.com/news/618100-ai-hallucination-global-embarrassment/

      [6] Fortune - ‘Godfather of AI’ says AI is like a cute tiger cub—unless you know it won’t turn on you, you should worry, https://fortune.com/article/geoffrey-hinton-ai-godfather-tiger-cub/

      [7] Microsoft - Why AI sometimes gets it wrong — and bigstrides to address it, https://news.microsoft.com/source/features/company-news/why-ai-sometimes-gets-it-wrong-and-big-strides-to-address-it/?utm_source=chatgpt.com

      [8] OpenAI - OpenAI o3 and o4-mini System Card, https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf

      [9] TechCrunch - OpenAI’s new reasoning AI models hallucinate more, https://techcrunch.com/2025/04/18/openais-new-reasoning-ai-models-hallucinate-more/

      [10] 清華大學(xué)新聞與傳播學(xué)院新媒體研究中心 - DeepSeek與AI幻覺(jué), https://www.lib.szu.edu.cn/sites/szulib/files/2025-02/DeepSeek與AI幻覺(jué)-清華大學(xué)-附知識(shí)庫(kù)_0.pdf

      [11] 36kr - DeepSeek-R1超高幻覺(jué)率解析:為何大模型總“胡說(shuō)八道”?, https://www.36kr.com/p/3163559253993986K

      [12] AP news - Researchers say an AI-powered transcription tool used in hospitals invents things no one ever said, https://apnews.com/article/ai-artificial-intelligence-health-business-90020cdf5fa16c79ca2e5b6c4c9bbb14

      復(fù)旦大學(xué)新聞學(xué)院《數(shù)據(jù)新聞與可視化》(碩士生)課程作品

      指導(dǎo)老師:徐笛

      作者:夏昊揚(yáng) 李林杰 宋語(yǔ)陽(yáng) 唐小茗

        本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

                查看更多

                掃碼下載澎湃新聞客戶端

                滬ICP備14003370號(hào)

                滬公網(wǎng)安備31010602000299號(hào)

                互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

                增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

                ? 2014-2025 上海東方報(bào)業(yè)有限公司

                反饋
                主站蜘蛛池模板: 国产精品无码免费播放| 99人中文字幕亚洲区三| 日韩成人福利视频在线观看| а∨天堂一区中文字幕| 99精品国产中文字幕| 国产精品老熟女一区二区| 衡水市| 91久久天天躁狠狠躁夜夜| 成年女人片免费视频播放A| 中文字幕av国产精品| 亚洲精品一区二区制服| 综合激情亚洲丁香社区| 国产在线精品中文字幕| 蜜桃视频网站| 亚洲av免费成人精品区| 大香伊蕉在人线国产最新2005 | 亚洲欧美精品aaaaaa片| 无码囯产精品一区二区免费| 被灌满精子的少妇视频| 在线无码免费的毛片视频| 不卡一区二区三区在线视频| 久久精品波多野结衣| 久久天天躁夜夜躁狠狠85| 开心激情站一区二区三区| 中文字幕亚洲综合久久综合 | 2021亚洲爆乳无码专区| 性色欲情网站iwww九文堂| 又爽又黄又无遮掩的免费视频 | 成人午夜在线观看日韩| 国产精品午夜福利91| 国产成人a在线观看视频| 国产精品久久久午夜夜伦鲁鲁 | 成人特黄特色毛片免费看| 中国丰满少妇人妻xxx性董鑫洁| 激情国产一区二区三区四| 国产免费网站看v片元遮挡| 精品偷拍一区二区三区| 天堂…中文在线最新版在线 | 少妇人妻挤奶水中文视频毛片 | av明星换脸无码精品区| 天美传媒mv免费观看完整|