- +1
CAAI具身智能專委會主任蔣樹強:世界模型是智能體進行決策的重要依據
“具身智能體的大腦里應該是什么?”8月2日,“2025第三屆人工智能大模型技術高峰論壇”召開,CAAI(中國人工智能學會)具身智能專委會主任、中國科學院大學特聘教授、國家杰青獲得者蔣樹強圍繞智能體的“大腦”構成、大模型在具身智能中的作用、世界模型與記憶等作核心報告。
蔣樹強指出,具身智能離不開三個關鍵詞:身體、環境、智能。它們之間存在深層次、復雜的關系,智能的實現依賴于身體的結構、感知能力與環境的交互。
“具身智能可以理解為在身體上融入智能,本體和智能同樣重要。智能不僅存在于大腦,還與感知、認知、行為密切相關。”蔣樹強表示,身體的結構、形態、感知器與行為能力共同構成智能的一部分,對智能的實現具有重要影響。例如,身高、肢體結構、感官分布等決定了智能體如何感知和理解世界。
關于具身大模型,蔣樹強認為,具身大模型一般需融合視覺、語言和行為數據進行訓練。訓練具身大模型需要數據、算力、算法三者統一。數據不再只是文本或視頻,而是包含行為、物理參數、觸覺等多模態信息,復雜度更高。
“我覺得在特定場景下,只用一種類型的本體去訓練,相對務實一點。但如果是各種各樣的機器形態一起訓練,事情的復雜度會很高。”因此,蔣樹強表示,具身大模型在真實物理空間中的泛化能力、數據復雜度、傳感器差異等問題仍是挑戰。
蔣樹強還提到,世界模型是對真實世界的抽象表示,包括三維空間、動態變化、對象關系、記憶與知識等。其目標是對環境狀態進行理解和預測,是智能體進行決策的重要依據。NIPS 2018的一篇文章指出,世界模型相當于是推理和角色相關模型系統。然而世界模型和大模型的關系以及世界模型和三維空間的關系,都是值得去思考和挖掘的。
“我們現在有單臂的機器人,讓它去自動導航到一個地方,把桌面收拾干凈。實際上,這個是偏工程實現的,沒有太多理論的方法,我們主要做研究還是在導航這一塊。”蔣樹強介紹,目前研究中大量使用模擬器生成數據,但虛擬環境的物理參數可能不夠真實,如何將虛擬與真實環境對齊仍是難題。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司




