CAAI具身智能專委會主任蔣樹強：世界模型是智能體進行決策的重要依據

澎湃新聞記者李文姬實習生成明霞

2025-08-03 12:11

來源：澎湃新聞

“具身智能體的大腦里應該是什么？”8月2日，“2025第三屆人工智能大模型技術高峰論壇”召開，CAAI（中國人工智能學會）具身智能專委會主任、中國科學院大學特聘教授、國家杰青獲得者蔣樹強圍繞智能體的“大腦”構成、大模型在具身智能中的作用、世界模型與記憶等作核心報告。

蔣樹強指出，具身智能離不開三個關鍵詞：身體、環境、智能。它們之間存在深層次、復雜的關系，智能的實現依賴于身體的結構、感知能力與環境的交互。

“具身智能可以理解為在身體上融入智能，本體和智能同樣重要。智能不僅存在于大腦，還與感知、認知、行為密切相關。”蔣樹強表示，身體的結構、形態、感知器與行為能力共同構成智能的一部分，對智能的實現具有重要影響。例如，身高、肢體結構、感官分布等決定了智能體如何感知和理解世界。

關于具身大模型，蔣樹強認為，具身大模型一般需融合視覺、語言和行為數據進行訓練。訓練具身大模型需要數據、算力、算法三者統一。數據不再只是文本或視頻，而是包含行為、物理參數、觸覺等多模態信息，復雜度更高。

“我覺得在特定場景下，只用一種類型的本體去訓練，相對務實一點。但如果是各種各樣的機器形態一起訓練，事情的復雜度會很高。”因此，蔣樹強表示，具身大模型在真實物理空間中的泛化能力、數據復雜度、傳感器差異等問題仍是挑戰。

蔣樹強還提到，世界模型是對真實世界的抽象表示，包括三維空間、動態變化、對象關系、記憶與知識等。其目標是對環境狀態進行理解和預測，是智能體進行決策的重要依據。NIPS 2018的一篇文章指出，世界模型相當于是推理和角色相關模型系統。然而世界模型和大模型的關系以及世界模型和三維空間的關系，都是值得去思考和挖掘的。

“我們現在有單臂的機器人，讓它去自動導航到一個地方，把桌面收拾干凈。實際上，這個是偏工程實現的，沒有太多理論的方法，我們主要做研究還是在導航這一塊。”蔣樹強介紹，目前研究中大量使用模擬器生成數據，但虛擬環境的物理參數可能不夠真實，如何將虛擬與真實環境對齊仍是難題。

責任編輯：王俊

圖片編輯：金潔

澎湃新聞報料：021-962866

澎湃新聞，未經授權不得轉載

我要舉報

#蔣樹強 #世界模型 #智能體決策