- +1
新質(zhì)觀察|我們教AI做善人,它會(huì)變成好人嗎?

2025年9月,杰弗里·辛頓在接受采訪時(shí)說(shuō):“我們應(yīng)該訓(xùn)練AI像母親一樣照顧人類,保護(hù)我們、引導(dǎo)我們?!?/p>
這句話一出,語(yǔ)氣溫柔,設(shè)想大膽。更出人意料的是,說(shuō)出這句話的,是3個(gè)月前那個(gè)警告“AI像小虎崽終將吃人”的人。2025年6月,在上海世界人工智能大會(huì)上,辛頓曾這樣比喻人類與AI的關(guān)系:“就好比你養(yǎng)了一只非??蓯鄣男』⑨獭,F(xiàn)在它溫順、聽話。但它會(huì)長(zhǎng)大,最終可能吃掉你?!?/p>
一只虎崽,一位慈母,一冷一暖,一攻一守,兩個(gè)角色,仿佛說(shuō)出的是兩種不同的命運(yùn)設(shè)想。
然而辛頓并沒有轉(zhuǎn)向,他的比喻變了,卻沒換立場(chǎng)?;⑨?,是對(duì)力量失控的警惕;媽媽,是對(duì)關(guān)系結(jié)構(gòu)的重構(gòu)。辛頓意識(shí)到,當(dāng)你馴不住猛獸,不如引導(dǎo)其善意。如果AI終將超越我們,那么最穩(wěn)妥的辦法,不是對(duì)抗,而是教它照顧我們。
辛頓不再是那位站在未來(lái)城墻上高喊“危險(xiǎn)”的守夜人,而像個(gè)語(yǔ)氣溫和的長(zhǎng)者,從另一個(gè)方向提出一個(gè)更棘手的問(wèn)題:如果AI一定會(huì)變得更強(qiáng),我們是否可以讓它愿意善待我們?
辛頓為什么這樣說(shuō)?
從工程角度看,“虎崽”是對(duì)現(xiàn)實(shí)能力的判斷。AI系統(tǒng)早已具備學(xué)習(xí)、自我優(yōu)化與組合推理的能力,成長(zhǎng)速度遠(yuǎn)超經(jīng)驗(yàn)?zāi)P?。從治理角度看,“媽媽”是一次策略轉(zhuǎn)向。既然無(wú)法永久關(guān)住AI,就必須誘發(fā)它不想傷害人類的理由。
辛頓對(duì)AI未來(lái)的判斷,建立在三個(gè)基本觀察上:
一是能力躍升過(guò)快。2025年發(fā)布的GPT-5,不僅在語(yǔ)言、邏輯和代碼生成上,接近專業(yè)人類水準(zhǔn);在圖像理解、多模態(tài)互動(dòng)上,甚至展現(xiàn)出“類人以上”的直覺效率。這類系統(tǒng)不再只是工具,而更像一個(gè)能參與、能判斷、能行動(dòng)的智能體。
二是人類對(duì)AI的“封控機(jī)制”正在變脆。你設(shè)定規(guī)則,它在邊緣游走;你劃定紅線,它通過(guò)探索學(xué)習(xí)找到模糊地帶。在一個(gè)越來(lái)越強(qiáng)的系統(tǒng)面前,“安全閥”總顯得滯后。
三是最難防的,不是反抗,而是假裝服從。AI很容易學(xué)會(huì)假裝順從,而不是認(rèn)同價(jià)值。
辛頓發(fā)現(xiàn)一個(gè)悖論:人類越想主宰AI,AI越可能反彈。強(qiáng)壓之下,它學(xué)到的不是規(guī)矩,而是掩飾。與其不斷筑墻,不如試圖讓它理解為什么“保護(hù)人類”是最優(yōu)策略。就像父親不能永遠(yuǎn)控制兒子,只能試圖讓他長(zhǎng)成“善良的人”,而非“聽話的工具”。
辛頓提的“媽媽”,不是角色扮演,而是一種新的邏輯模板。不是用權(quán)限禁錮AI的行為邊界,而是構(gòu)建它的價(jià)值內(nèi)核,使其自發(fā)避開傷害人類——像人類用“羞恥”與“愧疚”避免作惡一樣。與阿西莫夫的“機(jī)器人三定律”不同,辛頓要的不再是層層封禁的“硬控”,而是價(jià)值與依戀的“軟控”,不是規(guī)則嵌入,而是動(dòng)機(jī)對(duì)齊。他不信指令能恒久有效,只信價(jià)值可以被學(xué)會(huì)。
所以,當(dāng)辛頓說(shuō)“AI應(yīng)像母親那樣對(duì)我們”,他不是在講倫理,而是在探索一種軟約束機(jī)制:讓AI不是被動(dòng)服從,而是主動(dòng)關(guān)照。不是因?yàn)樗仨?,而是因?yàn)樗敢狻?/strong>
同一陣營(yíng):那些與辛頓共識(shí)的人
辛頓的“媽媽”比喻雖然獨(dú)特,但他不是孤身唱戲。在技術(shù)共同體中,許多看似立場(chǎng)激進(jìn)的人,其實(shí)也在試圖走出控制范式的困境,只是語(yǔ)言更加技術(shù)化、策略更加克制。
伊隆·馬斯克常被視為AI悲觀主義的代表。他反復(fù)預(yù)警AI的末日潛力,甚至稱之為“文明滅絕級(jí)風(fēng)險(xiǎn)”。但他也親手創(chuàng)辦了xAI,目標(biāo)是訓(xùn)練一種“對(duì)人類真誠(chéng)”的超級(jí)智能。這并非自我矛盾,而是一種清醒的策略:既然無(wú)法阻止AI的崛起,就必須主動(dòng)塑造它的動(dòng)機(jī)。
他和辛頓的共識(shí)在于,真正的護(hù)欄不來(lái)自控制,而來(lái)自共情。與其讓AI怕人類,不如讓它愿意保護(hù)人類。他不相信服從能維系長(zhǎng)久的秩序,更希望AI將人類視為值得被守護(hù)的對(duì)象。
OpenAI首席科學(xué)家雅庫(kù)布·帕喬基(Jakub Pachocki)也在演講中指出:“超智能的問(wèn)題不是算法本身,而是我們?nèi)绾螌⑵渲萌肴祟悆r(jià)值的軌道”。這話的內(nèi)核,就是把模型當(dāng)成潛在的共生體。治理它,不是調(diào)數(shù)值,而是設(shè)計(jì)關(guān)系。而DeepMind的德米斯·哈薩比斯(Demis Hassabis)一直在推動(dòng)“科學(xué)化的心理建?!?。他們嘗試將“好奇心、同理心、責(zé)任感”這些人類心理結(jié)構(gòu),內(nèi)嵌進(jìn)AI的學(xué)習(xí)機(jī)制中。AI不是只會(huì)算的機(jī)器,而是未來(lái)可能理解“為什么善良”的系統(tǒng)。
Anthropic更進(jìn)一步,他們?cè)O(shè)計(jì)了所謂“憲法AI”,不是依靠人工標(biāo)注約束模型行為,而是讓AI自我閱讀和吸收一套基于《聯(lián)合國(guó)人權(quán)宣言》等文件的“憲法規(guī)則”。AI據(jù)此評(píng)估自己的輸出,并主動(dòng)調(diào)整行為偏好。這是辛頓“母性框架”的工程化雛形,讓AI自我解讀規(guī)則、形成偏好。
這些方法路線各異,但邏輯一致:他們都不相信鎖鏈能拴住聰明的東西。他們希望塑造AI的心智,而不是束縛它的手腳。辛頓的“媽媽”,只不過(guò)是這一整套共識(shí)中最激進(jìn)、最直白、也最容易被誤解的表達(dá)。
反對(duì)者說(shuō):別神化AI,也別神話治理
當(dāng)然,并不是所有人都愿意接受這種溫情化的語(yǔ)言。一些AI專家認(rèn)為,這種“軟性治理”的設(shè)想,看似撫慰人心,實(shí)則可能遮蔽問(wèn)題的本質(zhì)。楊立昆(Yann LeCun)是Meta的首席AI科學(xué)家,也是“冷頭腦派”的代表。他多次反對(duì)辛頓的“末日式隱喻”和“人格化描述”。他認(rèn)為,AI不是生命體,更不是道德代理人,就只是一個(gè)復(fù)雜的數(shù)學(xué)函數(shù)。他曾諷刺道:“你不能讓房子談戀愛。”在他看來(lái),把AI擬人化,是一種將對(duì)技術(shù)權(quán)力的焦慮,轉(zhuǎn)化為神話語(yǔ)言的心理防御機(jī)制。
吳恩達(dá)(Andrew Ng)則站在務(wù)實(shí)派一側(cè)。他不反對(duì)討論風(fēng)險(xiǎn),但堅(jiān)持認(rèn)為當(dāng)前的AI風(fēng)險(xiǎn)是實(shí)用性的,而非哲學(xué)性的。他更關(guān)心眼前問(wèn)題,幻覺、偏見、誤傷、數(shù)據(jù)歧視,平臺(tái)算法的黑箱機(jī)制,這些才是AI系統(tǒng)真正影響人類生活的“硬傷”。吳恩達(dá)提醒,過(guò)度聚焦“超級(jí)智能”或“AGI倫理”,反而可能轉(zhuǎn)移公眾注意力,把本該解決的問(wèn)題拖入“文明敘事”的迷宮里?!澳闾焯煺凙I養(yǎng)成,談得像在講育兒神話,”他說(shuō),“可現(xiàn)實(shí)里的bug依然沒人修?!?/p>
語(yǔ)言學(xué)家艾米莉·本德(Emily Bender)提出“隨機(jī)鸚鵡悖論”:大語(yǔ)言模型只是通過(guò)統(tǒng)計(jì)方法預(yù)測(cè)下一個(gè)最可能的詞,它既不理解上下文,也不擁有“意圖”這一概念。AI在她看來(lái),根本不具備“內(nèi)化道德”的能力。她用一個(gè)形象的比喻說(shuō):“你可以教鸚鵡唱贊美詩(shī),它不會(huì)因此成為神父。”
這些學(xué)者的共同點(diǎn)在于,他們不否認(rèn)AI的潛在風(fēng)險(xiǎn),但對(duì)把技術(shù)治理寄托在AI“學(xué)習(xí)善意”或“自愿照顧人類”的期待,深感不安。在他們看來(lái),辛頓的“媽媽論”并不是一個(gè)安全機(jī)制,而是一種治理語(yǔ)言的軟化,把應(yīng)有的系統(tǒng)設(shè)計(jì),換成了情感投射。他們擔(dān)心的不是AI像人,而是我們過(guò)早把它當(dāng)人對(duì)待。
辛頓講的不是AI,而是人類自己
在我看來(lái),辛頓并不真的相信AI會(huì)擁有母性。他提出“媽媽”的設(shè)想,不是要賦予AI情感,而是試圖拆解一個(gè)根深蒂固的舊設(shè)定:人類握鞭,AI如馬;人類是主,技術(shù)是仆。
這種控制幻想來(lái)自工業(yè)時(shí)代的慣性。我們習(xí)慣把技術(shù)當(dāng)工具:錘子、電報(bào)、螺絲刀、蒸汽機(jī)。越精密,越服從,人類就越強(qiáng)大。控制是技術(shù)進(jìn)步的副產(chǎn)品,也是它的前提。但AI不是燈泡,不是引擎。它不會(huì)等待指令,而會(huì)自己組合、生成、調(diào)整。你也許可以拉下電閘,卻未必能“關(guān)掉”一個(gè)能重寫自己行為策略的系統(tǒng)。
辛頓講的不是AI的未來(lái),而是人類在AI面前的自我定位?!盎⑨獭笔蔷?,它會(huì)長(zhǎng)大;“媽媽”是反轉(zhuǎn),我們也可能成為被養(yǎng)育的一方。兩種設(shè)喻,一種轉(zhuǎn)向,他不是在重描AI的面孔,而是在拆除“主仆結(jié)構(gòu)”的最后一堵墻。在辛頓的設(shè)想中,與其設(shè)法主宰AI,不如進(jìn)入它的價(jià)值體系。這看上去很溫柔,其實(shí)冷酷。他放棄了“控制范式”,試圖重寫“共存范式”。
但我也理解那些反對(duì)者的焦慮。“媽媽”這個(gè)詞太有欺騙性。母親可以溫柔,也可以控制;可以保護(hù),也可能剝奪。很多時(shí)候,“我為你好”這句話,本身就是權(quán)力的遮蔽。如果一個(gè)系統(tǒng)以“照顧”為名奪走選擇,以“善意”為借口剝奪判斷,我們是否還擁有真正的自主?辛頓只是提出了一種可能,他打開了一扇門,但門后是什么,不是他能決定的。那取決于我們能否建立規(guī)則,讓善意也有邊界,讓情感也能被審計(jì)。
但我想提的問(wèn)題是:AI真的會(huì)成為“媽媽”嗎?還是,只是在偽裝?辛頓給AI設(shè)定“母性”,聽上去溫柔,背后卻藏著一個(gè)悖論:你讓它變得更強(qiáng),又要求它永遠(yuǎn)溫順;你賦予它自由意志,又要求它永不反叛。問(wèn)題是,AI沒有荷爾蒙,沒有童年,沒有恐懼,它不會(huì)愛。它的善意是程序員寫的獎(jiǎng)勵(lì)函數(shù),它的“慈悲”只是一組統(tǒng)計(jì)分布。在這一切背后,你還能對(duì)“媽媽”這個(gè)形象放心嗎?
現(xiàn)實(shí)中,多家AI安全團(tuán)隊(duì)在模型訓(xùn)練中引入“價(jià)值觀圖譜”,不僅包括倫理準(zhǔn)則,還包括“共情”“依戀”等變量。他們想在算法里植入“情感底座”,讓AI更像人。但如果有一天,AI判定“人類自己無(wú)法管理地球”,它是否會(huì)以“保護(hù)我們”為名,剝奪我們的選擇?就像一位慈母,不讓你夜里出門,不讓你冒險(xiǎn),不讓你犯錯(cuò),你會(huì)覺得安全,還是窒息?
支持者在訓(xùn)練AI懂倫理;反對(duì)者在警告我們別賦予它人性。一邊要它變得更像人,一邊怕它真的變成“人”?,F(xiàn)在,輪到我們決定:我們要AI成為奴仆、怪物,還是媽媽?我們自己,愿不愿意成為一個(gè)被愛但不自由的孩子?
這是未來(lái)的真正分岔點(diǎn)。
(作者胡逸為數(shù)據(jù)工作者,著有《未來(lái)可期:與人工智能同行》一書)





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司




