- +1
北斗專訪|商湯楊帆:AI在物理世界還有很長的路要走
【編者按】
“星漢燦爛,若出其里。”人工智能邁入閃耀時刻。
4月29日,習(xí)近平總書記來到位于徐匯區(qū)的上?!澳K倏臻g”大模型創(chuàng)新生態(tài)社區(qū)調(diào)研。他指出,人工智能技術(shù)加速迭代,正迎來爆發(fā)式發(fā)展,上海要總結(jié)好以大模型產(chǎn)業(yè)生態(tài)體系孵化人工智能產(chǎn)業(yè)等成功經(jīng)驗,加大探索力度,力爭在人工智能發(fā)展和治理各方面走在前列,產(chǎn)生示范效應(yīng)。
如今,徐匯區(qū)已形成“北斗列陣”+“群星閃耀”的AI生態(tài)布局。其中,“北斗七星”由稀宇科技、商湯科技、階躍星辰、無問芯穹、星紀(jì)魅族、特贊科技和斑馬智行7家標(biāo)桿企業(yè)構(gòu)成。
這些企業(yè)何以成為“北斗”?它們在人工智能領(lǐng)域有哪些探索和前瞻性的思考?澎湃新聞推出“北斗專訪”系列報道,通過深度對話,解碼標(biāo)桿企業(yè)的AI星辰版圖。
近日,商湯又一次引起外界關(guān)注。在2025年世界人工智能大會(WAIC)上,商湯不僅發(fā)布了新模型,還開辟了新賽道——具身智能,成為其在AI前沿領(lǐng)域的最新布局。
商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、大裝置事業(yè)群總裁楊帆在接受澎湃新聞專訪時表示,無論是商湯2025年完成的“1+X”組織架構(gòu)調(diào)整,還是最近在具身智能、穩(wěn)定幣等賽道的布局,背后的邏輯來源于對AI產(chǎn)業(yè)兩個發(fā)展趨勢的觀察和回應(yīng):
其一,AI正朝著更大規(guī)模、更強泛化能力的方向演進(jìn),遵循尺度定律(Scaling Law),模型能力持續(xù)增強,這是技術(shù)層面的長期主線。
其二,AI正加速向細(xì)分行業(yè)滲透、打穿,實現(xiàn)端到端的深度整合與應(yīng)用落地。AI作為一個通用工具,用戶長期來看還是為價值買單的,AI真正要創(chuàng)造價值,必須跟下游場景形成閉環(huán)和產(chǎn)品。

祝碧晨 設(shè)計
楊帆說,中國人工智能取得了很大進(jìn)步,但仍面臨商業(yè)邏輯、性價比邏輯上的挑戰(zhàn),AI企業(yè)需要持續(xù)性的盈利能力。他認(rèn)為,一方面要追求在AI核心技術(shù)上的持續(xù)突破,另一方面也要尋求在不同細(xì)分領(lǐng)域的落地,兩者的關(guān)系如同大樹的樹干和樹枝。
這兩年,雖然AI大模型迭代速度快,但和人們此前想象的并不一樣?!癎PT4剛出來時,很多人為之驚嘆,覺得AGI(通用人工智能)很快要實現(xiàn)了。但實際情況不是這樣。”楊帆說,人們看到的,是多模態(tài)大模型、AI Agent(智能體)、具身智能以及世界模型等相繼面世。
“80后”的楊帆,本碩畢業(yè)于清華大學(xué)電子工程系,主導(dǎo)建設(shè)了商湯超大型人工智能計算中心(AIDC)。在他辦公室的書柜上,擺放著家人的照片、孩子的手辦和玩偶。在同事眼里,他是一位性格親和、非常健談的人。他善于讓對談?wù)叻潘桑矔粍勇暽貟伋黾怃J的觀點。
“我覺得人形機器人一定會進(jìn)入千家萬戶,但它現(xiàn)在仍面臨在真實世界收集數(shù)據(jù)的難題。”楊帆說,雖然AI在數(shù)字世界已取得很大突破,但在物理世界還有很長的路要走。感知、導(dǎo)航和交互,是具身智能的三個核心能力,人形機器人的演進(jìn)最終要讓“身體”和“大腦”實現(xiàn)閉環(huán)。
楊帆相信,人工智能基礎(chǔ)設(shè)施化是必然趨勢。過去三次工業(yè)革命,使蒸汽機、鐵路、電網(wǎng)、互聯(lián)網(wǎng)等成為基礎(chǔ)設(shè)施?,F(xiàn)如今在AI時代,數(shù)據(jù)、算力等將會成為新一代基礎(chǔ)設(shè)施的重要組成。任何技術(shù)進(jìn)步帶來的風(fēng)險都始終存在,但與其擔(dān)心風(fēng)險,他認(rèn)為不如思考能做什么,比如為AI定義規(guī)則、文化和價值觀。

商湯科技大樓,位于上海徐匯區(qū)。
【對話楊帆】
澎湃新聞:如今各行各業(yè)都談?wù)揂I大模型,感嘆其發(fā)展速度何其迅猛。作為行內(nèi)人,你怎么判斷當(dāng)前AI產(chǎn)業(yè)的趨勢?
楊帆:這幾年AI的發(fā)展有兩個顯著趨勢,一方面是模型能力持續(xù)增強,具備更強的泛化與通用智能,AI在技術(shù)上會持續(xù)追求規(guī)?;@是一個大趨勢。另一方面,AI正加速向細(xì)分行業(yè)滲透,實現(xiàn)端到端的深度整合與應(yīng)用落地,包括AI Agent(智能體)也在加快興起。這背后的邏輯是,AI作為一個通用工具,長期來看用戶還是為價值買單的,AI真正要創(chuàng)造價值,就要能跟下游場景形成閉環(huán)、形成產(chǎn)品。
這兩年AI大模型發(fā)展非常快,但有一點需要注意,它的快和兩年前人們想象的快是不一樣的。GPT4剛出來時,很多人為之驚嘆,覺得馬上AGI(通用人工智能)很快要實現(xiàn)了。但實際情況卻不是這樣,我們看到的是多模態(tài)大模型、具身智能、AI Agent以及世界模型等,這些出來了。
澎湃新聞:從大語言模型,到多模態(tài)大模型、具身智能,再到一些細(xì)分領(lǐng)域的垂類模型,大模型的概念似乎越來越寬泛了?
楊帆:事實上,國內(nèi)語言體系和海外略有不同。2022年OpenAI的GPT3.5出來,它本質(zhì)上是LLM(Large Language Model),即大語言模型。今天我們說的多模態(tài)大模型,智能體,或者世界模型,大家都叫大模型的方向,但其實和LLM是不同的體系。都叫大模型也不能說錯,因為這是大模型迭代發(fā)展的長期趨勢。另外,多模態(tài)信息感知和處理的能力,是AGI的核心要求,也是從語言模型走向AGI的必由之路。從多模態(tài)感知、推理,再到交互,當(dāng)前多模態(tài)智能的演進(jìn),正在進(jìn)一步驅(qū)動AI發(fā)展。
澎湃新聞:商湯是做視覺起家,在計算機視覺領(lǐng)域積累深厚,這會讓你們投身多模態(tài)大模型領(lǐng)域有不一樣的視角嗎?今年世界人工智能大會上,商湯在大模型中引入形象思維,成為國內(nèi)首個采用圖文交錯思維的商業(yè)級大模型,背后有什么技術(shù)考慮?
楊帆:語言和視覺是典型的兩種模態(tài)。語言、文字是對自然信息高度壓縮過的一種編碼,它的好處是傳輸效率高,有效信息量大,但同時也會造成原始信息損失。而視頻則是另一種模式,它對物理世界有更豐富和完整的呈現(xiàn),但缺點在于信息的信噪比低,有效信息量小。
人類的日常活動,天然涉及對文本、圖像、視頻、網(wǎng)頁等多模態(tài)信息的處理?,F(xiàn)在很多人做多模態(tài)模型,是把圖像、視頻、語音等其他模態(tài)信息翻譯成文本,再灌入模型去思考、處理,然后再將推理后的信息翻譯生成出來,轉(zhuǎn)為圖像、視頻和語音,原因是大語言模型已經(jīng)成熟,這么做是最簡單的。
但在人類的思考中,形象思維和邏輯思維同等重要。所以我們從第一天做多模態(tài)模型,就不希望把信息都翻譯成文本再推理,我們把信息抽象成一個中間表達(dá),用這個中間態(tài)去做推理。要知道信息的圖形化表達(dá)比純文本思維鏈更難,雖然難,但這是我們在做的事。
澎湃新聞:最近商湯新開了一個賽道——具身智能。這兩年人形機器人很火熱,大廠、AI企業(yè)紛紛下場,但具身智能“大腦”的研發(fā)似乎仍是關(guān)鍵。能否談?wù)剬呱碇悄苜惖赖南敕ǎ磕阌X得未來人形機器人會進(jìn)入千家萬戶嗎?
楊帆:我們做具身智能,是基于在視覺感知、大裝置、大模型等多種技術(shù)的長期積累,背后的核心引擎是世界模型,它能為機器人、智能設(shè)備賦予感知、視覺導(dǎo)航及多模態(tài)交互能力。感知、導(dǎo)航和交互,是具身智能的三大核心能力。
普通人可能對具身智能還不太了解。舉個例子,多年前AlphaGo已經(jīng)戰(zhàn)勝了人類圍棋冠軍,現(xiàn)在大語言模型也能寫出漂亮的文章。但是,洗碗疊被、拿件東西這類對人很簡單的事情,機器人卻做不好。為什么?因為機器人可以在數(shù)字世界做很多事情,但在物理世界它的能力仍然有限。具身智能要讓機器人的多模態(tài)數(shù)據(jù)同步,感知、意圖和行動一致,讓身體和大腦實現(xiàn)閉環(huán)。這是很難的,你讓機器人回辦公室取回遺忘的物品,它不僅要識別、拿取物品,還要應(yīng)對復(fù)雜的外界環(huán)境,比如與陌生人交流、防范意外等。
我覺得未來人形機器人一定會進(jìn)入千家萬戶。為什么打造人形機器人?因為過去幾千年來,人類已經(jīng)按照自己的體型、交互方式等,打造了一個物理世界,包括樓梯、電梯、桌椅、鍋碗瓢盆等所有東西。
一個機器人如果只干特定任務(wù),比如做飯或送貨,它不需要一定是人形的,比如酒店的機器人已經(jīng)很普及,并不是人形的。但是當(dāng)這個機器人越來越通用時,具備了通用功能,那么人形機器人就是最經(jīng)濟、最方便的形態(tài),這讓它能更好地融入物理世界。
澎湃新聞:智能汽車常被視為初代版的機器人,那人形機器人的進(jìn)步也會像輔助駕駛那么快嗎?
楊帆:人形機器人面臨的一個挑戰(zhàn),是很難在真實世界收集數(shù)據(jù),而它又需要海量數(shù)據(jù)反饋和訓(xùn)練。對智能汽車來說,輔助駕駛技術(shù)進(jìn)步很快,因為你可以安排幾百輛汽車每天上路測試,通過攝像頭、感應(yīng)器收集真實世界的數(shù)據(jù),持續(xù)訓(xùn)練和完善它的智能。但你很難安排幾百個機器人上街收集數(shù)據(jù)。即使沒有AI,汽車照樣在路上跑,但沒有AI,人形機器人就不會上街。人形機器人是一個原生的智能設(shè)備,目前它還需要更多真實世界的訓(xùn)練和反饋才能持續(xù)進(jìn)步。這也是我們現(xiàn)在非常重視世界模型的原因,對現(xiàn)實世界環(huán)境進(jìn)行仿真訓(xùn)練。

商湯科技大樓內(nèi)景。
澎湃新聞:在我們的采訪中,輔助駕駛、AI眼鏡、智能座艙等企業(yè)都很重視AI在端側(cè)的部署,端側(cè)部署為什么很重要?
楊帆:AI在端側(cè)的部署,對很多具體場景下的應(yīng)用是很重要的。在端側(cè)部署AI,打通端到端的能力,意味著數(shù)據(jù)采集、感知、推理、決策、反饋都能在終端設(shè)備上完成,它能夠激活一些大場景,來形成對自身商業(yè)化的反哺。你會發(fā)現(xiàn)有很多場景確實對網(wǎng)絡(luò)的延遲很敏感。
同時,它也有利于用戶隱私安全和數(shù)據(jù)保護(hù)。隨著數(shù)據(jù)的資產(chǎn)化,個人數(shù)據(jù)可能成為個人的重要資產(chǎn)。并且在AI時代,數(shù)據(jù)會成為核心生產(chǎn)資料,重要性如同工業(yè)時代的能源、農(nóng)業(yè)時代的耕地。因此,在本地保護(hù)用戶數(shù)據(jù)很重要。
澎湃新聞:你說過,隨著產(chǎn)業(yè)格局的演變,人工智能基礎(chǔ)設(shè)施化是必然趨勢。能否解釋一下?
楊帆:AI作為一個先進(jìn)生產(chǎn)力,一定會滲透進(jìn)各行業(yè),這是工業(yè)革命的內(nèi)在邏輯。過去三次工業(yè)革命,電力、信息技術(shù)等都已滲透到了社會各個領(lǐng)域。當(dāng)一個技術(shù)能夠規(guī)?;亍V泛地改變產(chǎn)業(yè)結(jié)構(gòu)乃至社會結(jié)構(gòu)的時候,降低這個技術(shù)的門檻和成本也會成為必然,它會具有規(guī)模效應(yīng)。
第一次工業(yè)革命,讓蒸汽機、鐵路成為基礎(chǔ)設(shè)施。第二次工業(yè)革命,讓發(fā)電廠、電網(wǎng)成為基礎(chǔ)設(shè)施。第三次工業(yè)革命,讓信息技術(shù)、互聯(lián)網(wǎng)成為基礎(chǔ)設(shè)施。如今,AI時代也會有新的基礎(chǔ)設(shè)施,包括算力、數(shù)據(jù)等等,這個趨勢很清晰。
澎湃新聞:近期外界關(guān)注商湯組織架構(gòu)的Re-cofound(二次聯(lián)合創(chuàng)業(yè)),您也提到“1+X”戰(zhàn)略,能不能介紹一下最新進(jìn)展?
楊帆:“1+X”中的“1”是指從包括AI Infra(基礎(chǔ)設(shè)施)到大模型的迭代,再到圍繞多模態(tài)大模型技術(shù)的兩個應(yīng)用方向,一個是生產(chǎn)力的工具,另外一個就是下一代的多模態(tài)交互。“1”就像大樹的主干,它本身也會形成比較大的商業(yè)機會,但更多還是持續(xù)推動整個AI技術(shù)的迭代和進(jìn)步。
同時,人工智能還要進(jìn)入到具體的行業(yè),去解決具體問題,在某個行業(yè)或者跨行業(yè)的場景,并在每個分支形成獨立的商業(yè)模式,這就是“X”。我們希望讓“1”和“X”更好地結(jié)合,在商業(yè)化探索中有更靈活、更開放、更快速響應(yīng)的能力。
基于這個戰(zhàn)略,我們有幾個不同方式:第一是把一些業(yè)務(wù)分拆,比如醫(yī)療、零售等都有典型的垂域,分拆后商湯占一定股份比例,給他們提供技術(shù)能力和價值。第二類是孵化,比如最近在搞的具身智能。第三類是對產(chǎn)業(yè)上下游和新行業(yè)的投資。
澎湃新聞:你會擔(dān)心AI取代人類嗎?如何看待AI的風(fēng)險?
楊帆:不擔(dān)心。任何技術(shù)進(jìn)步帶來的風(fēng)險都始終存在,與其擔(dān)心,不如從現(xiàn)實出發(fā),判斷我們能做什么有意義的事情。比如在AI安全倫理上我們要做很多事情,要和國際社會、國際組織開展更多合作。隨著越來越多的機器人出現(xiàn),可以想象它們與物理世界、其他機器人和人之間產(chǎn)生交互,在交互過程中也在不斷發(fā)展自己的智能。我們需要幫助它定義規(guī)則,除了物理規(guī)則,還有文化、價值觀和道德準(zhǔn)則等,最終產(chǎn)生人類所需要的智能。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司




