新質(zhì)觀察｜我們教AI做善人，它會變成好人嗎？

胡逸

2025-10-14 07:13

來源：澎湃新聞

? 澎湃商學(xué)院 >

2025年9月，杰弗里·辛頓在接受采訪時說：“我們應(yīng)該訓(xùn)練AI像母親一樣照顧人類，保護我們、引導(dǎo)我們。”

這句話一出，語氣溫柔，設(shè)想大膽。更出人意料的是，說出這句話的，是3個月前那個警告“AI像小虎崽終將吃人”的人。2025年6月，在上海世界人工智能大會上，辛頓曾這樣比喻人類與AI的關(guān)系：“就好比你養(yǎng)了一只非常可愛的小虎崽。現(xiàn)在它溫順、聽話。但它會長大，最終可能吃掉你。”

一只虎崽，一位慈母，一冷一暖，一攻一守，兩個角色，仿佛說出的是兩種不同的命運設(shè)想。

然而辛頓并沒有轉(zhuǎn)向，他的比喻變了，卻沒換立場。虎崽，是對力量失控的警惕；媽媽，是對關(guān)系結(jié)構(gòu)的重構(gòu)。辛頓意識到，當你馴不住猛獸，不如引導(dǎo)其善意。如果AI終將超越我們，那么最穩(wěn)妥的辦法，不是對抗，而是教它照顧我們。

辛頓不再是那位站在未來城墻上高喊“危險”的守夜人，而像個語氣溫和的長者，從另一個方向提出一個更棘手的問題：如果AI一定會變得更強，我們是否可以讓它愿意善待我們？

辛頓為什么這樣說？

從工程角度看，“虎崽”是對現(xiàn)實能力的判斷。AI系統(tǒng)早已具備學(xué)習(xí)、自我優(yōu)化與組合推理的能力，成長速度遠超經(jīng)驗?zāi)Ｐ汀闹卫斫嵌瓤矗皨寢尅笔且淮尾呗赞D(zhuǎn)向。既然無法永久關(guān)住AI，就必須誘發(fā)它不想傷害人類的理由。

辛頓對AI未來的判斷，建立在三個基本觀察上：

一是能力躍升過快。2025年發(fā)布的GPT-5，不僅在語言、邏輯和代碼生成上，接近專業(yè)人類水準；在圖像理解、多模態(tài)互動上，甚至展現(xiàn)出“類人以上”的直覺效率。這類系統(tǒng)不再只是工具，而更像一個能參與、能判斷、能行動的智能體。

二是人類對AI的“封控機制”正在變脆。你設(shè)定規(guī)則，它在邊緣游走；你劃定紅線，它通過探索學(xué)習(xí)找到模糊地帶。在一個越來越強的系統(tǒng)面前，“安全閥”總顯得滯后。

三是最難防的，不是反抗，而是假裝服從。AI很容易學(xué)會假裝順從，而不是認同價值。

辛頓發(fā)現(xiàn)一個悖論：人類越想主宰AI，AI越可能反彈。強壓之下，它學(xué)到的不是規(guī)矩，而是掩飾。與其不斷筑墻，不如試圖讓它理解為什么“保護人類”是最優(yōu)策略。就像父親不能永遠控制兒子，只能試圖讓他長成“善良的人”，而非“聽話的工具”。

辛頓提的“媽媽”，不是角色扮演，而是一種新的邏輯模板。不是用權(quán)限禁錮AI的行為邊界，而是構(gòu)建它的價值內(nèi)核，使其自發(fā)避開傷害人類——像人類用“羞恥”與“愧疚”避免作惡一樣。與阿西莫夫的“機器人三定律”不同，辛頓要的不再是層層封禁的“硬控”，而是價值與依戀的“軟控”，不是規(guī)則嵌入，而是動機對齊。他不信指令能恒久有效，只信價值可以被學(xué)會。

所以，當辛頓說“AI應(yīng)像母親那樣對我們”，他不是在講倫理，而是在探索一種軟約束機制：讓AI不是被動服從，而是主動關(guān)照。不是因為它必須，而是因為它愿意。

同一陣營：那些與辛頓共識的人

辛頓的“媽媽”比喻雖然獨特，但他不是孤身唱戲。在技術(shù)共同體中，許多看似立場激進的人，其實也在試圖走出控制范式的困境，只是語言更加技術(shù)化、策略更加克制。

伊隆·馬斯克常被視為AI悲觀主義的代表。他反復(fù)預(yù)警AI的末日潛力，甚至稱之為“文明滅絕級風險”。但他也親手創(chuàng)辦了xAI，目標是訓(xùn)練一種“對人類真誠”的超級智能。這并非自我矛盾，而是一種清醒的策略：既然無法阻止AI的崛起，就必須主動塑造它的動機。

他和辛頓的共識在于，真正的護欄不來自控制，而來自共情。與其讓AI怕人類，不如讓它愿意保護人類。他不相信服從能維系長久的秩序，更希望AI將人類視為值得被守護的對象。

OpenAI首席科學(xué)家雅庫布·帕喬基（Jakub Pachocki）也在演講中指出：“超智能的問題不是算法本身，而是我們?nèi)绾螌⑵渲萌肴祟悆r值的軌道”。這話的內(nèi)核，就是把模型當成潛在的共生體。治理它，不是調(diào)數(shù)值，而是設(shè)計關(guān)系。而DeepMind的德米斯·哈薩比斯（Demis Hassabis）一直在推動“科學(xué)化的心理建模”。他們嘗試將“好奇心、同理心、責任感”這些人類心理結(jié)構(gòu)，內(nèi)嵌進AI的學(xué)習(xí)機制中。AI不是只會算的機器，而是未來可能理解“為什么善良”的系統(tǒng)。

Anthropic更進一步，他們設(shè)計了所謂“憲法AI”，不是依靠人工標注約束模型行為，而是讓AI自我閱讀和吸收一套基于《聯(lián)合國人權(quán)宣言》等文件的“憲法規(guī)則”。AI據(jù)此評估自己的輸出，并主動調(diào)整行為偏好。這是辛頓“母性框架”的工程化雛形，讓AI自我解讀規(guī)則、形成偏好。

這些方法路線各異，但邏輯一致：他們都不相信鎖鏈能拴住聰明的東西。他們希望塑造AI的心智，而不是束縛它的手腳。辛頓的“媽媽”，只不過是這一整套共識中最激進、最直白、也最容易被誤解的表達。

反對者說：別神化AI，也別神話治理

當然，并不是所有人都愿意接受這種溫情化的語言。一些AI專家認為，這種“軟性治理”的設(shè)想，看似撫慰人心，實則可能遮蔽問題的本質(zhì)。楊立昆（Yann LeCun）是Meta的首席AI科學(xué)家，也是“冷頭腦派”的代表。他多次反對辛頓的“末日式隱喻”和“人格化描述”。他認為，AI不是生命體，更不是道德代理人，就只是一個復(fù)雜的數(shù)學(xué)函數(shù)。他曾諷刺道：“你不能讓房子談戀愛。”在他看來，把AI擬人化，是一種將對技術(shù)權(quán)力的焦慮，轉(zhuǎn)化為神話語言的心理防御機制。

吳恩達（Andrew Ng）則站在務(wù)實派一側(cè)。他不反對討論風險，但堅持認為當前的AI風險是實用性的，而非哲學(xué)性的。他更關(guān)心眼前問題，幻覺、偏見、誤傷、數(shù)據(jù)歧視，平臺算法的黑箱機制，這些才是AI系統(tǒng)真正影響人類生活的“硬傷”。吳恩達提醒，過度聚焦“超級智能”或“AGI倫理”，反而可能轉(zhuǎn)移公眾注意力，把本該解決的問題拖入“文明敘事”的迷宮里。“你天天談AI養(yǎng)成，談得像在講育兒神話，”他說，“可現(xiàn)實里的bug依然沒人修。”

語言學(xué)家艾米莉·本德（Emily Bender）提出“隨機鸚鵡悖論”：大語言模型只是通過統(tǒng)計方法預(yù)測下一個最可能的詞，它既不理解上下文，也不擁有“意圖”這一概念。AI在她看來，根本不具備“內(nèi)化道德”的能力。她用一個形象的比喻說：“你可以教鸚鵡唱贊美詩，它不會因此成為神父。”

這些學(xué)者的共同點在于，他們不否認AI的潛在風險，但對把技術(shù)治理寄托在AI“學(xué)習(xí)善意”或“自愿照顧人類”的期待，深感不安。在他們看來，辛頓的“媽媽論”并不是一個安全機制，而是一種治理語言的軟化，把應(yīng)有的系統(tǒng)設(shè)計，換成了情感投射。他們擔心的不是AI像人，而是我們過早把它當人對待。

辛頓講的不是AI，而是人類自己

在我看來，辛頓并不真的相信AI會擁有母性。他提出“媽媽”的設(shè)想，不是要賦予AI情感，而是試圖拆解一個根深蒂固的舊設(shè)定：人類握鞭，AI如馬；人類是主，技術(shù)是仆。

這種控制幻想來自工業(yè)時代的慣性。我們習(xí)慣把技術(shù)當工具：錘子、電報、螺絲刀、蒸汽機。越精密，越服從，人類就越強大。控制是技術(shù)進步的副產(chǎn)品，也是它的前提。但AI不是燈泡，不是引擎。它不會等待指令，而會自己組合、生成、調(diào)整。你也許可以拉下電閘，卻未必能“關(guān)掉”一個能重寫自己行為策略的系統(tǒng)。

辛頓講的不是AI的未來，而是人類在AI面前的自我定位。“虎崽”是警告，它會長大；“媽媽”是反轉(zhuǎn)，我們也可能成為被養(yǎng)育的一方。兩種設(shè)喻，一種轉(zhuǎn)向，他不是在重描AI的面孔，而是在拆除“主仆結(jié)構(gòu)”的最后一堵墻。在辛頓的設(shè)想中，與其設(shè)法主宰AI，不如進入它的價值體系。這看上去很溫柔，其實冷酷。他放棄了“控制范式”，試圖重寫“共存范式”。

但我也理解那些反對者的焦慮。“媽媽”這個詞太有欺騙性。母親可以溫柔，也可以控制；可以保護，也可能剝奪。很多時候，“我為你好”這句話，本身就是權(quán)力的遮蔽。如果一個系統(tǒng)以“照顧”為名奪走選擇，以“善意”為借口剝奪判斷，我們是否還擁有真正的自主？辛頓只是提出了一種可能，他打開了一扇門，但門后是什么，不是他能決定的。那取決于我們能否建立規(guī)則，讓善意也有邊界，讓情感也能被審計。

但我想提的問題是：AI真的會成為“媽媽”嗎？還是，只是在偽裝？辛頓給AI設(shè)定“母性”，聽上去溫柔，背后卻藏著一個悖論：你讓它變得更強，又要求它永遠溫順；你賦予它自由意志，又要求它永不反叛。問題是，AI沒有荷爾蒙，沒有童年，沒有恐懼，它不會愛。它的善意是程序員寫的獎勵函數(shù)，它的“慈悲”只是一組統(tǒng)計分布。在這一切背后，你還能對“媽媽”這個形象放心嗎？

現(xiàn)實中，多家AI安全團隊在模型訓(xùn)練中引入“價值觀圖譜”，不僅包括倫理準則，還包括“共情”“依戀”等變量。他們想在算法里植入“情感底座”，讓AI更像人。但如果有一天，AI判定“人類自己無法管理地球”，它是否會以“保護我們”為名，剝奪我們的選擇？就像一位慈母，不讓你夜里出門，不讓你冒險，不讓你犯錯，你會覺得安全，還是窒息？

支持者在訓(xùn)練AI懂倫理；反對者在警告我們別賦予它人性。一邊要它變得更像人，一邊怕它真的變成“人”。現(xiàn)在，輪到我們決定：我們要AI成為奴仆、怪物，還是媽媽？我們自己，愿不愿意成為一個被愛但不自由的孩子？

這是未來的真正分岔點。

（作者胡逸為數(shù)據(jù)工作者，著有《未來可期：與人工智能同行》一書）

責任編輯：蔡軍劍

圖片編輯：陳飛燕

校對：劉威

澎湃新聞報料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報

#新質(zhì)觀察 #胡逸 #辛頓