- +1
北斗專訪|商湯楊帆:AI在物理世界還有很長的路要走
【編者按】
“星漢燦爛,若出其里。”人工智能邁入閃耀時刻。
4月29日,習近平總書記來到位于徐匯區的上海“模速空間”大模型創新生態社區調研。他指出,人工智能技術加速迭代,正迎來爆發式發展,上海要總結好以大模型產業生態體系孵化人工智能產業等成功經驗,加大探索力度,力爭在人工智能發展和治理各方面走在前列,產生示范效應。
如今,徐匯區已形成“北斗列陣”+“群星閃耀”的AI生態布局。其中,“北斗七星”由稀宇科技、商湯科技、階躍星辰、無問芯穹、星紀魅族、特贊科技和斑馬智行7家標桿企業構成。
這些企業何以成為“北斗”?它們在人工智能領域有哪些探索和前瞻性的思考?澎湃新聞推出“北斗專訪”系列報道,通過深度對話,解碼標桿企業的AI星辰版圖。
近日,商湯又一次引起外界關注。在2025年世界人工智能大會(WAIC)上,商湯不僅發布了新模型,還開辟了新賽道——具身智能,成為其在AI前沿領域的最新布局。
商湯科技聯合創始人、執行董事、大裝置事業群總裁楊帆在接受澎湃新聞專訪時表示,無論是商湯2025年完成的“1+X”組織架構調整,還是最近在具身智能、穩定幣等賽道的布局,背后的邏輯來源于對AI產業兩個發展趨勢的觀察和回應:
其一,AI正朝著更大規模、更強泛化能力的方向演進,遵循尺度定律(Scaling Law),模型能力持續增強,這是技術層面的長期主線。
其二,AI正加速向細分行業滲透、打穿,實現端到端的深度整合與應用落地。AI作為一個通用工具,用戶長期來看還是為價值買單的,AI真正要創造價值,必須跟下游場景形成閉環和產品。

祝碧晨 設計
楊帆說,中國人工智能取得了很大進步,但仍面臨商業邏輯、性價比邏輯上的挑戰,AI企業需要持續性的盈利能力。他認為,一方面要追求在AI核心技術上的持續突破,另一方面也要尋求在不同細分領域的落地,兩者的關系如同大樹的樹干和樹枝。
這兩年,雖然AI大模型迭代速度快,但和人們此前想象的并不一樣。“GPT4剛出來時,很多人為之驚嘆,覺得AGI(通用人工智能)很快要實現了。但實際情況不是這樣。”楊帆說,人們看到的,是多模態大模型、AI Agent(智能體)、具身智能以及世界模型等相繼面世。
“80后”的楊帆,本碩畢業于清華大學電子工程系,主導建設了商湯超大型人工智能計算中心(AIDC)。在他辦公室的書柜上,擺放著家人的照片、孩子的手辦和玩偶。在同事眼里,他是一位性格親和、非常健談的人。他善于讓對談者放松,也會不動聲色地拋出尖銳的觀點。
“我覺得人形機器人一定會進入千家萬戶,但它現在仍面臨在真實世界收集數據的難題。”楊帆說,雖然AI在數字世界已取得很大突破,但在物理世界還有很長的路要走。感知、導航和交互,是具身智能的三個核心能力,人形機器人的演進最終要讓“身體”和“大腦”實現閉環。
楊帆相信,人工智能基礎設施化是必然趨勢。過去三次工業革命,使蒸汽機、鐵路、電網、互聯網等成為基礎設施。現如今在AI時代,數據、算力等將會成為新一代基礎設施的重要組成。任何技術進步帶來的風險都始終存在,但與其擔心風險,他認為不如思考能做什么,比如為AI定義規則、文化和價值觀。

商湯科技大樓,位于上海徐匯區。
【對話楊帆】
澎湃新聞:如今各行各業都談論AI大模型,感嘆其發展速度何其迅猛。作為行內人,你怎么判斷當前AI產業的趨勢?
楊帆:這幾年AI的發展有兩個顯著趨勢,一方面是模型能力持續增強,具備更強的泛化與通用智能,AI在技術上會持續追求規模化,這是一個大趨勢。另一方面,AI正加速向細分行業滲透,實現端到端的深度整合與應用落地,包括AI Agent(智能體)也在加快興起。這背后的邏輯是,AI作為一個通用工具,長期來看用戶還是為價值買單的,AI真正要創造價值,就要能跟下游場景形成閉環、形成產品。
這兩年AI大模型發展非常快,但有一點需要注意,它的快和兩年前人們想象的快是不一樣的。GPT4剛出來時,很多人為之驚嘆,覺得馬上AGI(通用人工智能)很快要實現了。但實際情況卻不是這樣,我們看到的是多模態大模型、具身智能、AI Agent以及世界模型等,這些出來了。
澎湃新聞:從大語言模型,到多模態大模型、具身智能,再到一些細分領域的垂類模型,大模型的概念似乎越來越寬泛了?
楊帆:事實上,國內語言體系和海外略有不同。2022年OpenAI的GPT3.5出來,它本質上是LLM(Large Language Model),即大語言模型。今天我們說的多模態大模型,智能體,或者世界模型,大家都叫大模型的方向,但其實和LLM是不同的體系。都叫大模型也不能說錯,因為這是大模型迭代發展的長期趨勢。另外,多模態信息感知和處理的能力,是AGI的核心要求,也是從語言模型走向AGI的必由之路。從多模態感知、推理,再到交互,當前多模態智能的演進,正在進一步驅動AI發展。
澎湃新聞:商湯是做視覺起家,在計算機視覺領域積累深厚,這會讓你們投身多模態大模型領域有不一樣的視角嗎?今年世界人工智能大會上,商湯在大模型中引入形象思維,成為國內首個采用圖文交錯思維的商業級大模型,背后有什么技術考慮?
楊帆:語言和視覺是典型的兩種模態。語言、文字是對自然信息高度壓縮過的一種編碼,它的好處是傳輸效率高,有效信息量大,但同時也會造成原始信息損失。而視頻則是另一種模式,它對物理世界有更豐富和完整的呈現,但缺點在于信息的信噪比低,有效信息量小。
人類的日常活動,天然涉及對文本、圖像、視頻、網頁等多模態信息的處理。現在很多人做多模態模型,是把圖像、視頻、語音等其他模態信息翻譯成文本,再灌入模型去思考、處理,然后再將推理后的信息翻譯生成出來,轉為圖像、視頻和語音,原因是大語言模型已經成熟,這么做是最簡單的。
但在人類的思考中,形象思維和邏輯思維同等重要。所以我們從第一天做多模態模型,就不希望把信息都翻譯成文本再推理,我們把信息抽象成一個中間表達,用這個中間態去做推理。要知道信息的圖形化表達比純文本思維鏈更難,雖然難,但這是我們在做的事。
澎湃新聞:最近商湯新開了一個賽道——具身智能。這兩年人形機器人很火熱,大廠、AI企業紛紛下場,但具身智能“大腦”的研發似乎仍是關鍵。能否談談對具身智能賽道的想法?你覺得未來人形機器人會進入千家萬戶嗎?
楊帆:我們做具身智能,是基于在視覺感知、大裝置、大模型等多種技術的長期積累,背后的核心引擎是世界模型,它能為機器人、智能設備賦予感知、視覺導航及多模態交互能力。感知、導航和交互,是具身智能的三大核心能力。
普通人可能對具身智能還不太了解。舉個例子,多年前AlphaGo已經戰勝了人類圍棋冠軍,現在大語言模型也能寫出漂亮的文章。但是,洗碗疊被、拿件東西這類對人很簡單的事情,機器人卻做不好。為什么?因為機器人可以在數字世界做很多事情,但在物理世界它的能力仍然有限。具身智能要讓機器人的多模態數據同步,感知、意圖和行動一致,讓身體和大腦實現閉環。這是很難的,你讓機器人回辦公室取回遺忘的物品,它不僅要識別、拿取物品,還要應對復雜的外界環境,比如與陌生人交流、防范意外等。
我覺得未來人形機器人一定會進入千家萬戶。為什么打造人形機器人?因為過去幾千年來,人類已經按照自己的體型、交互方式等,打造了一個物理世界,包括樓梯、電梯、桌椅、鍋碗瓢盆等所有東西。
一個機器人如果只干特定任務,比如做飯或送貨,它不需要一定是人形的,比如酒店的機器人已經很普及,并不是人形的。但是當這個機器人越來越通用時,具備了通用功能,那么人形機器人就是最經濟、最方便的形態,這讓它能更好地融入物理世界。
澎湃新聞:智能汽車常被視為初代版的機器人,那人形機器人的進步也會像輔助駕駛那么快嗎?
楊帆:人形機器人面臨的一個挑戰,是很難在真實世界收集數據,而它又需要海量數據反饋和訓練。對智能汽車來說,輔助駕駛技術進步很快,因為你可以安排幾百輛汽車每天上路測試,通過攝像頭、感應器收集真實世界的數據,持續訓練和完善它的智能。但你很難安排幾百個機器人上街收集數據。即使沒有AI,汽車照樣在路上跑,但沒有AI,人形機器人就不會上街。人形機器人是一個原生的智能設備,目前它還需要更多真實世界的訓練和反饋才能持續進步。這也是我們現在非常重視世界模型的原因,對現實世界環境進行仿真訓練。

商湯科技大樓內景。
澎湃新聞:在我們的采訪中,輔助駕駛、AI眼鏡、智能座艙等企業都很重視AI在端側的部署,端側部署為什么很重要?
楊帆:AI在端側的部署,對很多具體場景下的應用是很重要的。在端側部署AI,打通端到端的能力,意味著數據采集、感知、推理、決策、反饋都能在終端設備上完成,它能夠激活一些大場景,來形成對自身商業化的反哺。你會發現有很多場景確實對網絡的延遲很敏感。
同時,它也有利于用戶隱私安全和數據保護。隨著數據的資產化,個人數據可能成為個人的重要資產。并且在AI時代,數據會成為核心生產資料,重要性如同工業時代的能源、農業時代的耕地。因此,在本地保護用戶數據很重要。
澎湃新聞:你說過,隨著產業格局的演變,人工智能基礎設施化是必然趨勢。能否解釋一下?
楊帆:AI作為一個先進生產力,一定會滲透進各行業,這是工業革命的內在邏輯。過去三次工業革命,電力、信息技術等都已滲透到了社會各個領域。當一個技術能夠規模化地、廣泛地改變產業結構乃至社會結構的時候,降低這個技術的門檻和成本也會成為必然,它會具有規模效應。
第一次工業革命,讓蒸汽機、鐵路成為基礎設施。第二次工業革命,讓發電廠、電網成為基礎設施。第三次工業革命,讓信息技術、互聯網成為基礎設施。如今,AI時代也會有新的基礎設施,包括算力、數據等等,這個趨勢很清晰。
澎湃新聞:近期外界關注商湯組織架構的Re-cofound(二次聯合創業),您也提到“1+X”戰略,能不能介紹一下最新進展?
楊帆:“1+X”中的“1”是指從包括AI Infra(基礎設施)到大模型的迭代,再到圍繞多模態大模型技術的兩個應用方向,一個是生產力的工具,另外一個就是下一代的多模態交互。“1”就像大樹的主干,它本身也會形成比較大的商業機會,但更多還是持續推動整個AI技術的迭代和進步。
同時,人工智能還要進入到具體的行業,去解決具體問題,在某個行業或者跨行業的場景,并在每個分支形成獨立的商業模式,這就是“X”。我們希望讓“1”和“X”更好地結合,在商業化探索中有更靈活、更開放、更快速響應的能力。
基于這個戰略,我們有幾個不同方式:第一是把一些業務分拆,比如醫療、零售等都有典型的垂域,分拆后商湯占一定股份比例,給他們提供技術能力和價值。第二類是孵化,比如最近在搞的具身智能。第三類是對產業上下游和新行業的投資。
澎湃新聞:你會擔心AI取代人類嗎?如何看待AI的風險?
楊帆:不擔心。任何技術進步帶來的風險都始終存在,與其擔心,不如從現實出發,判斷我們能做什么有意義的事情。比如在AI安全倫理上我們要做很多事情,要和國際社會、國際組織開展更多合作。隨著越來越多的機器人出現,可以想象它們與物理世界、其他機器人和人之間產生交互,在交互過程中也在不斷發展自己的智能。我們需要幫助它定義規則,除了物理規則,還有文化、價值觀和道德準則等,最終產生人類所需要的智能。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司




