新質(zhì)觀察｜我們教AI做善人，它會(huì)變成好人嗎？

胡逸

2025-10-14 07:13

來(lái)源：澎湃新聞

? 澎湃商學(xué)院 >

2025年9月，杰弗里·辛頓在接受采訪時(shí)說(shuō)：“我們應(yīng)該訓(xùn)練AI像母親一樣照顧人類，保護(hù)我們、引導(dǎo)我們?！?/p>

這句話一出，語(yǔ)氣溫柔，設(shè)想大膽。更出人意料的是，說(shuō)出這句話的，是3個(gè)月前那個(gè)警告“AI像小虎崽終將吃人”的人。2025年6月，在上海世界人工智能大會(huì)上，辛頓曾這樣比喻人類與AI的關(guān)系：“就好比你養(yǎng)了一只非?？蓯鄣男』⑨獭，F(xiàn)在它溫順、聽話。但它會(huì)長(zhǎng)大，最終可能吃掉你?！?/p>

一只虎崽，一位慈母，一冷一暖，一攻一守，兩個(gè)角色，仿佛說(shuō)出的是兩種不同的命運(yùn)設(shè)想。

然而辛頓并沒有轉(zhuǎn)向，他的比喻變了，卻沒換立場(chǎng)?；⑨?，是對(duì)力量失控的警惕；媽媽，是對(duì)關(guān)系結(jié)構(gòu)的重構(gòu)。辛頓意識(shí)到，當(dāng)你馴不住猛獸，不如引導(dǎo)其善意。如果AI終將超越我們，那么最穩(wěn)妥的辦法，不是對(duì)抗，而是教它照顧我們。

辛頓不再是那位站在未來(lái)城墻上高喊“危險(xiǎn)”的守夜人，而像個(gè)語(yǔ)氣溫和的長(zhǎng)者，從另一個(gè)方向提出一個(gè)更棘手的問(wèn)題：如果AI一定會(huì)變得更強(qiáng)，我們是否可以讓它愿意善待我們？

辛頓為什么這樣說(shuō)？

從工程角度看，“虎崽”是對(duì)現(xiàn)實(shí)能力的判斷。AI系統(tǒng)早已具備學(xué)習(xí)、自我優(yōu)化與組合推理的能力，成長(zhǎng)速度遠(yuǎn)超經(jīng)驗(yàn)?zāi)Ｐ?。從治理角度看，“媽媽”是一次策略轉(zhuǎn)向。既然無(wú)法永久關(guān)住AI，就必須誘發(fā)它不想傷害人類的理由。

辛頓對(duì)AI未來(lái)的判斷，建立在三個(gè)基本觀察上：

一是能力躍升過(guò)快。2025年發(fā)布的GPT-5，不僅在語(yǔ)言、邏輯和代碼生成上，接近專業(yè)人類水準(zhǔn)；在圖像理解、多模態(tài)互動(dòng)上，甚至展現(xiàn)出“類人以上”的直覺效率。這類系統(tǒng)不再只是工具，而更像一個(gè)能參與、能判斷、能行動(dòng)的智能體。

二是人類對(duì)AI的“封控機(jī)制”正在變脆。你設(shè)定規(guī)則，它在邊緣游走；你劃定紅線，它通過(guò)探索學(xué)習(xí)找到模糊地帶。在一個(gè)越來(lái)越強(qiáng)的系統(tǒng)面前，“安全閥”總顯得滯后。

三是最難防的，不是反抗，而是假裝服從。AI很容易學(xué)會(huì)假裝順從，而不是認(rèn)同價(jià)值。

辛頓發(fā)現(xiàn)一個(gè)悖論：人類越想主宰AI，AI越可能反彈。強(qiáng)壓之下，它學(xué)到的不是規(guī)矩，而是掩飾。與其不斷筑墻，不如試圖讓它理解為什么“保護(hù)人類”是最優(yōu)策略。就像父親不能永遠(yuǎn)控制兒子，只能試圖讓他長(zhǎng)成“善良的人”，而非“聽話的工具”。

辛頓提的“媽媽”，不是角色扮演，而是一種新的邏輯模板。不是用權(quán)限禁錮AI的行為邊界，而是構(gòu)建它的價(jià)值內(nèi)核，使其自發(fā)避開傷害人類——像人類用“羞恥”與“愧疚”避免作惡一樣。與阿西莫夫的“機(jī)器人三定律”不同，辛頓要的不再是層層封禁的“硬控”，而是價(jià)值與依戀的“軟控”，不是規(guī)則嵌入，而是動(dòng)機(jī)對(duì)齊。他不信指令能恒久有效，只信價(jià)值可以被學(xué)會(huì)。

所以，當(dāng)辛頓說(shuō)“AI應(yīng)像母親那樣對(duì)我們”，他不是在講倫理，而是在探索一種軟約束機(jī)制：讓AI不是被動(dòng)服從，而是主動(dòng)關(guān)照。不是因?yàn)樗仨?，而是因?yàn)樗敢狻?/strong>

同一陣營(yíng)：那些與辛頓共識(shí)的人

辛頓的“媽媽”比喻雖然獨(dú)特，但他不是孤身唱戲。在技術(shù)共同體中，許多看似立場(chǎng)激進(jìn)的人，其實(shí)也在試圖走出控制范式的困境，只是語(yǔ)言更加技術(shù)化、策略更加克制。

伊隆·馬斯克常被視為AI悲觀主義的代表。他反復(fù)預(yù)警AI的末日潛力，甚至稱之為“文明滅絕級(jí)風(fēng)險(xiǎn)”。但他也親手創(chuàng)辦了xAI，目標(biāo)是訓(xùn)練一種“對(duì)人類真誠(chéng)”的超級(jí)智能。這并非自我矛盾，而是一種清醒的策略：既然無(wú)法阻止AI的崛起，就必須主動(dòng)塑造它的動(dòng)機(jī)。

他和辛頓的共識(shí)在于，真正的護(hù)欄不來(lái)自控制，而來(lái)自共情。與其讓AI怕人類，不如讓它愿意保護(hù)人類。他不相信服從能維系長(zhǎng)久的秩序，更希望AI將人類視為值得被守護(hù)的對(duì)象。

OpenAI首席科學(xué)家雅庫(kù)布·帕喬基（Jakub Pachocki）也在演講中指出：“超智能的問(wèn)題不是算法本身，而是我們?nèi)绾螌⑵渲萌肴祟悆r(jià)值的軌道”。這話的內(nèi)核，就是把模型當(dāng)成潛在的共生體。治理它，不是調(diào)數(shù)值，而是設(shè)計(jì)關(guān)系。而DeepMind的德米斯·哈薩比斯（Demis Hassabis）一直在推動(dòng)“科學(xué)化的心理建?！?。他們嘗試將“好奇心、同理心、責(zé)任感”這些人類心理結(jié)構(gòu)，內(nèi)嵌進(jìn)AI的學(xué)習(xí)機(jī)制中。AI不是只會(huì)算的機(jī)器，而是未來(lái)可能理解“為什么善良”的系統(tǒng)。

Anthropic更進(jìn)一步，他們?cè)O(shè)計(jì)了所謂“憲法AI”，不是依靠人工標(biāo)注約束模型行為，而是讓AI自我閱讀和吸收一套基于《聯(lián)合國(guó)人權(quán)宣言》等文件的“憲法規(guī)則”。AI據(jù)此評(píng)估自己的輸出，并主動(dòng)調(diào)整行為偏好。這是辛頓“母性框架”的工程化雛形，讓AI自我解讀規(guī)則、形成偏好。

這些方法路線各異，但邏輯一致：他們都不相信鎖鏈能拴住聰明的東西。他們希望塑造AI的心智，而不是束縛它的手腳。辛頓的“媽媽”，只不過(guò)是這一整套共識(shí)中最激進(jìn)、最直白、也最容易被誤解的表達(dá)。

反對(duì)者說(shuō)：別神化AI，也別神話治理

當(dāng)然，并不是所有人都愿意接受這種溫情化的語(yǔ)言。一些AI專家認(rèn)為，這種“軟性治理”的設(shè)想，看似撫慰人心，實(shí)則可能遮蔽問(wèn)題的本質(zhì)。楊立昆（Yann LeCun）是Meta的首席AI科學(xué)家，也是“冷頭腦派”的代表。他多次反對(duì)辛頓的“末日式隱喻”和“人格化描述”。他認(rèn)為，AI不是生命體，更不是道德代理人，就只是一個(gè)復(fù)雜的數(shù)學(xué)函數(shù)。他曾諷刺道：“你不能讓房子談戀愛。”在他看來(lái)，把AI擬人化，是一種將對(duì)技術(shù)權(quán)力的焦慮，轉(zhuǎn)化為神話語(yǔ)言的心理防御機(jī)制。

吳恩達(dá)（Andrew Ng）則站在務(wù)實(shí)派一側(cè)。他不反對(duì)討論風(fēng)險(xiǎn)，但堅(jiān)持認(rèn)為當(dāng)前的AI風(fēng)險(xiǎn)是實(shí)用性的，而非哲學(xué)性的。他更關(guān)心眼前問(wèn)題，幻覺、偏見、誤傷、數(shù)據(jù)歧視，平臺(tái)算法的黑箱機(jī)制，這些才是AI系統(tǒng)真正影響人類生活的“硬傷”。吳恩達(dá)提醒，過(guò)度聚焦“超級(jí)智能”或“AGI倫理”，反而可能轉(zhuǎn)移公眾注意力，把本該解決的問(wèn)題拖入“文明敘事”的迷宮里?！澳闾焯煺凙I養(yǎng)成，談得像在講育兒神話，”他說(shuō)，“可現(xiàn)實(shí)里的bug依然沒人修?！?/p>

語(yǔ)言學(xué)家艾米莉·本德（Emily Bender）提出“隨機(jī)鸚鵡悖論”：大語(yǔ)言模型只是通過(guò)統(tǒng)計(jì)方法預(yù)測(cè)下一個(gè)最可能的詞，它既不理解上下文，也不擁有“意圖”這一概念。AI在她看來(lái)，根本不具備“內(nèi)化道德”的能力。她用一個(gè)形象的比喻說(shuō)：“你可以教鸚鵡唱贊美詩(shī)，它不會(huì)因此成為神父。”

這些學(xué)者的共同點(diǎn)在于，他們不否認(rèn)AI的潛在風(fēng)險(xiǎn)，但對(duì)把技術(shù)治理寄托在AI“學(xué)習(xí)善意”或“自愿照顧人類”的期待，深感不安。在他們看來(lái)，辛頓的“媽媽論”并不是一個(gè)安全機(jī)制，而是一種治理語(yǔ)言的軟化，把應(yīng)有的系統(tǒng)設(shè)計(jì)，換成了情感投射。他們擔(dān)心的不是AI像人，而是我們過(guò)早把它當(dāng)人對(duì)待。

辛頓講的不是AI，而是人類自己

在我看來(lái)，辛頓并不真的相信AI會(huì)擁有母性。他提出“媽媽”的設(shè)想，不是要賦予AI情感，而是試圖拆解一個(gè)根深蒂固的舊設(shè)定：人類握鞭，AI如馬；人類是主，技術(shù)是仆。

這種控制幻想來(lái)自工業(yè)時(shí)代的慣性。我們習(xí)慣把技術(shù)當(dāng)工具：錘子、電報(bào)、螺絲刀、蒸汽機(jī)。越精密，越服從，人類就越強(qiáng)大。控制是技術(shù)進(jìn)步的副產(chǎn)品，也是它的前提。但AI不是燈泡，不是引擎。它不會(huì)等待指令，而會(huì)自己組合、生成、調(diào)整。你也許可以拉下電閘，卻未必能“關(guān)掉”一個(gè)能重寫自己行為策略的系統(tǒng)。

辛頓講的不是AI的未來(lái)，而是人類在AI面前的自我定位?！盎⑨獭笔蔷?，它會(huì)長(zhǎng)大；“媽媽”是反轉(zhuǎn)，我們也可能成為被養(yǎng)育的一方。兩種設(shè)喻，一種轉(zhuǎn)向，他不是在重描AI的面孔，而是在拆除“主仆結(jié)構(gòu)”的最后一堵墻。在辛頓的設(shè)想中，與其設(shè)法主宰AI，不如進(jìn)入它的價(jià)值體系。這看上去很溫柔，其實(shí)冷酷。他放棄了“控制范式”，試圖重寫“共存范式”。

但我也理解那些反對(duì)者的焦慮。“媽媽”這個(gè)詞太有欺騙性。母親可以溫柔，也可以控制；可以保護(hù)，也可能剝奪。很多時(shí)候，“我為你好”這句話，本身就是權(quán)力的遮蔽。如果一個(gè)系統(tǒng)以“照顧”為名奪走選擇，以“善意”為借口剝奪判斷，我們是否還擁有真正的自主？辛頓只是提出了一種可能，他打開了一扇門，但門后是什么，不是他能決定的。那取決于我們能否建立規(guī)則，讓善意也有邊界，讓情感也能被審計(jì)。

但我想提的問(wèn)題是：AI真的會(huì)成為“媽媽”嗎？還是，只是在偽裝？辛頓給AI設(shè)定“母性”，聽上去溫柔，背后卻藏著一個(gè)悖論：你讓它變得更強(qiáng)，又要求它永遠(yuǎn)溫順；你賦予它自由意志，又要求它永不反叛。問(wèn)題是，AI沒有荷爾蒙，沒有童年，沒有恐懼，它不會(huì)愛。它的善意是程序員寫的獎(jiǎng)勵(lì)函數(shù)，它的“慈悲”只是一組統(tǒng)計(jì)分布。在這一切背后，你還能對(duì)“媽媽”這個(gè)形象放心嗎？

現(xiàn)實(shí)中，多家AI安全團(tuán)隊(duì)在模型訓(xùn)練中引入“價(jià)值觀圖譜”，不僅包括倫理準(zhǔn)則，還包括“共情”“依戀”等變量。他們想在算法里植入“情感底座”，讓AI更像人。但如果有一天，AI判定“人類自己無(wú)法管理地球”，它是否會(huì)以“保護(hù)我們”為名，剝奪我們的選擇？就像一位慈母，不讓你夜里出門，不讓你冒險(xiǎn)，不讓你犯錯(cuò)，你會(huì)覺得安全，還是窒息？

支持者在訓(xùn)練AI懂倫理；反對(duì)者在警告我們別賦予它人性。一邊要它變得更像人，一邊怕它真的變成“人”?，F(xiàn)在，輪到我們決定：我們要AI成為奴仆、怪物，還是媽媽？我們自己，愿不愿意成為一個(gè)被愛但不自由的孩子？

這是未來(lái)的真正分岔點(diǎn)。

（作者胡逸為數(shù)據(jù)工作者，著有《未來(lái)可期：與人工智能同行》一書）

責(zé)任編輯：蔡軍劍

圖片編輯：陳飛燕

校對(duì)：劉威

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)

#新質(zhì)觀察 #胡逸 #辛頓