下載客戶端

登錄

北斗專訪｜商湯楊帆：AI在物理世界還有很長的路要走

澎湃新聞高級記者李佳蔚

2025-08-07 07:02

來源：澎湃新聞

? 浦江頭條 >

【編者按】

“星漢燦爛，若出其里。”人工智能邁入閃耀時刻。

4月29日，習(xí)近平總書記來到位于徐匯區(qū)的上?！澳Ｋ倏臻g”大模型創(chuàng)新生態(tài)社區(qū)調(diào)研。他指出，人工智能技術(shù)加速迭代，正迎來爆發(fā)式發(fā)展，上海要總結(jié)好以大模型產(chǎn)業(yè)生態(tài)體系孵化人工智能產(chǎn)業(yè)等成功經(jīng)驗，加大探索力度，力爭在人工智能發(fā)展和治理各方面走在前列，產(chǎn)生示范效應(yīng)。

如今，徐匯區(qū)已形成“北斗列陣”+“群星閃耀”的AI生態(tài)布局。其中，“北斗七星”由稀宇科技、商湯科技、階躍星辰、無問芯穹、星紀(jì)魅族、特贊科技和斑馬智行7家標(biāo)桿企業(yè)構(gòu)成。

這些企業(yè)何以成為“北斗”？它們在人工智能領(lǐng)域有哪些探索和前瞻性的思考？澎湃新聞推出“北斗專訪”系列報道，通過深度對話，解碼標(biāo)桿企業(yè)的AI星辰版圖。

近日，商湯又一次引起外界關(guān)注。在2025年世界人工智能大會（WAIC）上，商湯不僅發(fā)布了新模型，還開辟了新賽道——具身智能，成為其在AI前沿領(lǐng)域的最新布局。

商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、大裝置事業(yè)群總裁楊帆在接受澎湃新聞專訪時表示，無論是商湯2025年完成的“1+X”組織架構(gòu)調(diào)整，還是最近在具身智能、穩(wěn)定幣等賽道的布局，背后的邏輯來源于對AI產(chǎn)業(yè)兩個發(fā)展趨勢的觀察和回應(yīng)：

其一，AI正朝著更大規(guī)模、更強泛化能力的方向演進(jìn)，遵循尺度定律（Scaling Law），模型能力持續(xù)增強，這是技術(shù)層面的長期主線。

其二，AI正加速向細(xì)分行業(yè)滲透、打穿，實現(xiàn)端到端的深度整合與應(yīng)用落地。AI作為一個通用工具，用戶長期來看還是為價值買單的，AI真正要創(chuàng)造價值，必須跟下游場景形成閉環(huán)和產(chǎn)品。

祝碧晨設(shè)計

楊帆說，中國人工智能取得了很大進(jìn)步，但仍面臨商業(yè)邏輯、性價比邏輯上的挑戰(zhàn)，AI企業(yè)需要持續(xù)性的盈利能力。他認(rèn)為，一方面要追求在AI核心技術(shù)上的持續(xù)突破，另一方面也要尋求在不同細(xì)分領(lǐng)域的落地，兩者的關(guān)系如同大樹的樹干和樹枝。

這兩年，雖然AI大模型迭代速度快，但和人們此前想象的并不一樣?！癎PT4剛出來時，很多人為之驚嘆，覺得AGI（通用人工智能）很快要實現(xiàn)了。但實際情況不是這樣。”楊帆說，人們看到的，是多模態(tài)大模型、AI Agent（智能體）、具身智能以及世界模型等相繼面世。

“80后”的楊帆，本碩畢業(yè)于清華大學(xué)電子工程系，主導(dǎo)建設(shè)了商湯超大型人工智能計算中心（AIDC）。在他辦公室的書柜上，擺放著家人的照片、孩子的手辦和玩偶。在同事眼里，他是一位性格親和、非常健談的人。他善于讓對談?wù)叻潘桑矔粍勇暽貟伋黾怃J的觀點。

“我覺得人形機器人一定會進(jìn)入千家萬戶，但它現(xiàn)在仍面臨在真實世界收集數(shù)據(jù)的難題。”楊帆說，雖然AI在數(shù)字世界已取得很大突破，但在物理世界還有很長的路要走。感知、導(dǎo)航和交互，是具身智能的三個核心能力，人形機器人的演進(jìn)最終要讓“身體”和“大腦”實現(xiàn)閉環(huán)。

楊帆相信，人工智能基礎(chǔ)設(shè)施化是必然趨勢。過去三次工業(yè)革命，使蒸汽機、鐵路、電網(wǎng)、互聯(lián)網(wǎng)等成為基礎(chǔ)設(shè)施?，F(xiàn)如今在AI時代，數(shù)據(jù)、算力等將會成為新一代基礎(chǔ)設(shè)施的重要組成。任何技術(shù)進(jìn)步帶來的風(fēng)險都始終存在，但與其擔(dān)心風(fēng)險，他認(rèn)為不如思考能做什么，比如為AI定義規(guī)則、文化和價值觀。

商湯科技大樓，位于上海徐匯區(qū)。

【對話楊帆】

澎湃新聞：如今各行各業(yè)都談?wù)揂I大模型，感嘆其發(fā)展速度何其迅猛。作為行內(nèi)人，你怎么判斷當(dāng)前AI產(chǎn)業(yè)的趨勢？

楊帆：這幾年AI的發(fā)展有兩個顯著趨勢，一方面是模型能力持續(xù)增強，具備更強的泛化與通用智能，AI在技術(shù)上會持續(xù)追求規(guī)?；@是一個大趨勢。另一方面，AI正加速向細(xì)分行業(yè)滲透，實現(xiàn)端到端的深度整合與應(yīng)用落地，包括AI Agent（智能體）也在加快興起。這背后的邏輯是，AI作為一個通用工具，長期來看用戶還是為價值買單的，AI真正要創(chuàng)造價值，就要能跟下游場景形成閉環(huán)、形成產(chǎn)品。

這兩年AI大模型發(fā)展非常快，但有一點需要注意，它的快和兩年前人們想象的快是不一樣的。GPT4剛出來時，很多人為之驚嘆，覺得馬上AGI（通用人工智能）很快要實現(xiàn)了。但實際情況卻不是這樣，我們看到的是多模態(tài)大模型、具身智能、AI Agent以及世界模型等，這些出來了。

澎湃新聞：從大語言模型，到多模態(tài)大模型、具身智能，再到一些細(xì)分領(lǐng)域的垂類模型，大模型的概念似乎越來越寬泛了？

楊帆：事實上，國內(nèi)語言體系和海外略有不同。2022年OpenAI的GPT3.5出來，它本質(zhì)上是LLM（Large Language Model），即大語言模型。今天我們說的多模態(tài)大模型，智能體，或者世界模型，大家都叫大模型的方向，但其實和LLM是不同的體系。都叫大模型也不能說錯，因為這是大模型迭代發(fā)展的長期趨勢。另外，多模態(tài)信息感知和處理的能力，是AGI的核心要求，也是從語言模型走向AGI的必由之路。從多模態(tài)感知、推理，再到交互，當(dāng)前多模態(tài)智能的演進(jìn)，正在進(jìn)一步驅(qū)動AI發(fā)展。

澎湃新聞：商湯是做視覺起家，在計算機視覺領(lǐng)域積累深厚，這會讓你們投身多模態(tài)大模型領(lǐng)域有不一樣的視角嗎？今年世界人工智能大會上，商湯在大模型中引入形象思維，成為國內(nèi)首個采用圖文交錯思維的商業(yè)級大模型，背后有什么技術(shù)考慮？

楊帆：語言和視覺是典型的兩種模態(tài)。語言、文字是對自然信息高度壓縮過的一種編碼，它的好處是傳輸效率高，有效信息量大，但同時也會造成原始信息損失。而視頻則是另一種模式，它對物理世界有更豐富和完整的呈現(xiàn)，但缺點在于信息的信噪比低，有效信息量小。

人類的日常活動，天然涉及對文本、圖像、視頻、網(wǎng)頁等多模態(tài)信息的處理?，F(xiàn)在很多人做多模態(tài)模型，是把圖像、視頻、語音等其他模態(tài)信息翻譯成文本，再灌入模型去思考、處理，然后再將推理后的信息翻譯生成出來，轉(zhuǎn)為圖像、視頻和語音，原因是大語言模型已經(jīng)成熟，這么做是最簡單的。

但在人類的思考中，形象思維和邏輯思維同等重要。所以我們從第一天做多模態(tài)模型，就不希望把信息都翻譯成文本再推理，我們把信息抽象成一個中間表達(dá)，用這個中間態(tài)去做推理。要知道信息的圖形化表達(dá)比純文本思維鏈更難，雖然難，但這是我們在做的事。

澎湃新聞：最近商湯新開了一個賽道——具身智能。這兩年人形機器人很火熱，大廠、AI企業(yè)紛紛下場，但具身智能“大腦”的研發(fā)似乎仍是關(guān)鍵。能否談?wù)剬呱碇悄苜惖赖南敕ǎ磕阌X得未來人形機器人會進(jìn)入千家萬戶嗎？

楊帆：我們做具身智能，是基于在視覺感知、大裝置、大模型等多種技術(shù)的長期積累，背后的核心引擎是世界模型，它能為機器人、智能設(shè)備賦予感知、視覺導(dǎo)航及多模態(tài)交互能力。感知、導(dǎo)航和交互，是具身智能的三大核心能力。

普通人可能對具身智能還不太了解。舉個例子，多年前AlphaGo已經(jīng)戰(zhàn)勝了人類圍棋冠軍，現(xiàn)在大語言模型也能寫出漂亮的文章。但是，洗碗疊被、拿件東西這類對人很簡單的事情，機器人卻做不好。為什么？因為機器人可以在數(shù)字世界做很多事情，但在物理世界它的能力仍然有限。具身智能要讓機器人的多模態(tài)數(shù)據(jù)同步，感知、意圖和行動一致，讓身體和大腦實現(xiàn)閉環(huán)。這是很難的，你讓機器人回辦公室取回遺忘的物品，它不僅要識別、拿取物品，還要應(yīng)對復(fù)雜的外界環(huán)境，比如與陌生人交流、防范意外等。

我覺得未來人形機器人一定會進(jìn)入千家萬戶。為什么打造人形機器人？因為過去幾千年來，人類已經(jīng)按照自己的體型、交互方式等，打造了一個物理世界，包括樓梯、電梯、桌椅、鍋碗瓢盆等所有東西。

一個機器人如果只干特定任務(wù)，比如做飯或送貨，它不需要一定是人形的，比如酒店的機器人已經(jīng)很普及，并不是人形的。但是當(dāng)這個機器人越來越通用時，具備了通用功能，那么人形機器人就是最經(jīng)濟、最方便的形態(tài)，這讓它能更好地融入物理世界。

澎湃新聞：智能汽車常被視為初代版的機器人，那人形機器人的進(jìn)步也會像輔助駕駛那么快嗎？

楊帆：人形機器人面臨的一個挑戰(zhàn)，是很難在真實世界收集數(shù)據(jù)，而它又需要海量數(shù)據(jù)反饋和訓(xùn)練。對智能汽車來說，輔助駕駛技術(shù)進(jìn)步很快，因為你可以安排幾百輛汽車每天上路測試，通過攝像頭、感應(yīng)器收集真實世界的數(shù)據(jù)，持續(xù)訓(xùn)練和完善它的智能。但你很難安排幾百個機器人上街收集數(shù)據(jù)。即使沒有AI，汽車照樣在路上跑，但沒有AI，人形機器人就不會上街。人形機器人是一個原生的智能設(shè)備，目前它還需要更多真實世界的訓(xùn)練和反饋才能持續(xù)進(jìn)步。這也是我們現(xiàn)在非常重視世界模型的原因，對現(xiàn)實世界環(huán)境進(jìn)行仿真訓(xùn)練。

商湯科技大樓內(nèi)景。

澎湃新聞：在我們的采訪中，輔助駕駛、AI眼鏡、智能座艙等企業(yè)都很重視AI在端側(cè)的部署，端側(cè)部署為什么很重要？

楊帆：AI在端側(cè)的部署，對很多具體場景下的應(yīng)用是很重要的。在端側(cè)部署AI，打通端到端的能力，意味著數(shù)據(jù)采集、感知、推理、決策、反饋都能在終端設(shè)備上完成，它能夠激活一些大場景，來形成對自身商業(yè)化的反哺。你會發(fā)現(xiàn)有很多場景確實對網(wǎng)絡(luò)的延遲很敏感。

同時，它也有利于用戶隱私安全和數(shù)據(jù)保護(hù)。隨著數(shù)據(jù)的資產(chǎn)化，個人數(shù)據(jù)可能成為個人的重要資產(chǎn)。并且在AI時代，數(shù)據(jù)會成為核心生產(chǎn)資料，重要性如同工業(yè)時代的能源、農(nóng)業(yè)時代的耕地。因此，在本地保護(hù)用戶數(shù)據(jù)很重要。

澎湃新聞：你說過，隨著產(chǎn)業(yè)格局的演變，人工智能基礎(chǔ)設(shè)施化是必然趨勢。能否解釋一下？

楊帆：AI作為一個先進(jìn)生產(chǎn)力，一定會滲透進(jìn)各行業(yè)，這是工業(yè)革命的內(nèi)在邏輯。過去三次工業(yè)革命，電力、信息技術(shù)等都已滲透到了社會各個領(lǐng)域。當(dāng)一個技術(shù)能夠規(guī)?；亍V泛地改變產(chǎn)業(yè)結(jié)構(gòu)乃至社會結(jié)構(gòu)的時候，降低這個技術(shù)的門檻和成本也會成為必然，它會具有規(guī)模效應(yīng)。

第一次工業(yè)革命，讓蒸汽機、鐵路成為基礎(chǔ)設(shè)施。第二次工業(yè)革命，讓發(fā)電廠、電網(wǎng)成為基礎(chǔ)設(shè)施。第三次工業(yè)革命，讓信息技術(shù)、互聯(lián)網(wǎng)成為基礎(chǔ)設(shè)施。如今，AI時代也會有新的基礎(chǔ)設(shè)施，包括算力、數(shù)據(jù)等等，這個趨勢很清晰。

澎湃新聞：近期外界關(guān)注商湯組織架構(gòu)的Re-cofound（二次聯(lián)合創(chuàng)業(yè)），您也提到“1+X”戰(zhàn)略，能不能介紹一下最新進(jìn)展？

楊帆：“1+X”中的“1”是指從包括AI Infra（基礎(chǔ)設(shè)施）到大模型的迭代，再到圍繞多模態(tài)大模型技術(shù)的兩個應(yīng)用方向，一個是生產(chǎn)力的工具，另外一個就是下一代的多模態(tài)交互。“1”就像大樹的主干，它本身也會形成比較大的商業(yè)機會，但更多還是持續(xù)推動整個AI技術(shù)的迭代和進(jìn)步。

同時，人工智能還要進(jìn)入到具體的行業(yè)，去解決具體問題，在某個行業(yè)或者跨行業(yè)的場景，并在每個分支形成獨立的商業(yè)模式，這就是“X”。我們希望讓“1”和“X”更好地結(jié)合，在商業(yè)化探索中有更靈活、更開放、更快速響應(yīng)的能力。

基于這個戰(zhàn)略，我們有幾個不同方式：第一是把一些業(yè)務(wù)分拆，比如醫(yī)療、零售等都有典型的垂域，分拆后商湯占一定股份比例，給他們提供技術(shù)能力和價值。第二類是孵化，比如最近在搞的具身智能。第三類是對產(chǎn)業(yè)上下游和新行業(yè)的投資。

澎湃新聞：你會擔(dān)心AI取代人類嗎？如何看待AI的風(fēng)險？

楊帆：不擔(dān)心。任何技術(shù)進(jìn)步帶來的風(fēng)險都始終存在，與其擔(dān)心，不如從現(xiàn)實出發(fā)，判斷我們能做什么有意義的事情。比如在AI安全倫理上我們要做很多事情，要和國際社會、國際組織開展更多合作。隨著越來越多的機器人出現(xiàn)，可以想象它們與物理世界、其他機器人和人之間產(chǎn)生交互，在交互過程中也在不斷發(fā)展自己的智能。我們需要幫助它定義規(guī)則，除了物理規(guī)則，還有文化、價值觀和道德準(zhǔn)則等，最終產(chǎn)生人類所需要的智能。

責(zé)任編輯：徐禎曜

圖片編輯：施佳慧

校對：張艷

澎湃新聞報料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報

#商湯科技