階躍星辰CEO姜大昕：追求智能上限仍是最重要的事，多模態的“GPT-4時刻”尚未到來

澎湃新聞記者秦盛

2025-05-11 12:12

來源：澎湃新聞

“追求智能的上限仍然是當下最重要的一件事。”“有了多模理解生成一體化才能真正做到人形機器人的泛化。”

近日，上海大模型獨角獸階躍星辰創始人、CEO姜大昕在接受澎湃新聞等媒體采訪時表示，通過各家AI公司的產品路線圖可以發現，“追求智能上限”仍是當下最重要的事。目前模型的發展，主要呈現出從模仿學習到強化學習、從多模態融合走向多模態理解生成一體化兩大趨勢。而模型能力決定應用的上限。什么樣的模型，決定了有什么樣的應用可以被解鎖、可以成熟和繁榮。

“大模型技術發展還在非常陡峭的區間，階躍不會在這個過程中放棄主流的前進趨勢，會堅持基礎模型研發，追求智能的上限。” 姜大昕一如往常表示，“階躍追求AGI的初心也不會改變。”

他也強調，多模態對AGI（通用人工智能）是必經之路，階躍星辰有堅實的基礎，而且投入了很多資源去創新，在多模推理和多模理解生成一體化方面已進行探索和布局。

階躍星辰創始人、CEO姜大昕

4月29日，習近平總書記來到位于上海市徐匯區的“模速空間”大模型創新生態社區調研，階躍星辰展示了多模態大模型與智能終端場景相結合。

階躍星辰成立于2023年4月，因其Step系列基座模型研發速度快、多模態性能強，被業內稱作“多模態卷王”。根據姜大昕的規劃，公司實現AGI的技術路線是：“單模態-多模態-多模理解和生成的統一-世界模型-AGI”。

多模態的“GPT-4時刻”尚未到來，多模態理解與生成一體化是趨勢

姜大昕表示：“2024年Sora發布之時，大家都很興奮，其實我們是失望的，因為我們都認為OpenAI的主線應該是理解生成一體化，后來回頭去想，也是有道理的，從多模融合直接做到理解生成一體化太難了，可能需要迭代幾輪后再到理解生成一體化，但總的方向肯定是要能夠去predict next frame（預測下一幀）。”

他又以自動駕駛和機器人的VLA（Vision Language Action，視覺語言動作）模型為例解釋稱，現在VLA可以視為VLA 1.0，是通過歷史的規劃數據來生成實時的動作決策，而人是通過對未來的預判來決定現在要做什么，“這個過程既有理解又有生成，因為要先判斷它有哪些動作，然后再判斷會造成哪些后果，判斷后果的過程就是生成的過程。如果根據動作分布來對未來進行預測，做最優策略的選取，那它就是強化學習”。

他表示，理解生成一體化的問題解決后，帶推理的VLA將能夠實現對未來更好的預測，如果能做到時空推理，再加上3D和自然語言學習，就到了世界模型階段。“如果到了世界模型，我認為我眼中的AGI就實現了。實際上有很多人講，AGI的路線為什么到了今天路線越來越清晰了，我確實也有同樣的感覺，我們從文本這條路已經看到了這里，那么視覺最根本的問題雖然我們還沒有徹底地解決理解生成一體化，但我們覺得這個問題一旦突破，今后的道路會非常順暢，就會和文本一起發展到世界模型。”

他判斷稱，多模態的“GPT-4時刻”還沒有到來，“有的時候它的突破就在一瞬間…”姜大昕認為，在當前的競爭格局中，階躍星辰的差異化特點就是多模態能力，多模態領域存在著非常巨大的機會。

同時，他也強調，模型的突破是早于商業化的。就像先有了GPT-3.5才會有ChatGPT，先有了多模融合和推理模型，才會有現在成熟的Agent（智能體），同樣，要有了多模理解生成一體化，尤其是可規模化的一體化，才能真正地做到人形機器人的泛化。

AI產品的投流邏輯不成立，大模型和智能終端一起to C

姜大昕在此前的階躍星辰開放日上曾表示，隨著多模態和慢思考在2024年取得了顯著進展，Agent將是階躍未來發展的重要方向。

為什么會選擇智能終端Agent？姜大昕表示，Agent要能更好地幫助人類去完成任務，需要去理解用戶所處的環境和任務的上下文。很多終端是用戶感知和體驗的延伸，比如手機、AI眼鏡或耳機，它可以搜集人們所處的環境等信息，幫助模型更好地理解用戶上下文，提供了非常大的便利。同時，目前很多的智能終端和設備，比如微波爐，只是幫助完成任務，“我家的微波爐有上百種功能，但是我很少用，因為我很少看說明書，也不知道某一個功能如何操作鍵，所以我希望它是一個Agent，可以直接和它對話”。

也是基于這一判斷，階躍星辰此前已經宣布了在汽車、手機、具身智能、IoT等關鍵應用場景的智能終端和Agent布局，與吉利汽車深化技術合作，推動“AI+車”的深度融合，還與智元機器人達成戰略合作，探索AI+具身機器人應用場景。

階躍星辰一直秉持著“超級模型+超級應用”的雙輪驅動。姜大昕認為，只做應用的公司始終存在一個風險，就是當通用模型的能力取得下一次突破之時會不會受到降維打擊。而階躍星辰在應用層面走了一條差異化路線，與合作伙伴打造從模型到Agent、從云側到端側的生態體系，“我們認為軟硬結合是能更好地理解用戶的需求，完成用戶的任務”。

對于有觀點認為目前人工智能C端（消費者端）產品在玩互聯網的套路，做投流做增長。姜大昕表示：“我覺得DeepSeek讓我們學到的一個東西就是，投流的邏輯是不成立的。DeepSeek從來沒有做投流，它如果放開流量，破億是沒有問題的。我們要重新思考一下AI時代的產品的流量增長，是不是靠投流上去的。DeepSeek出來后給了大家一個重新看待這個問題的窗口。不光是DeepSeek，像《哪吒2》、《黑神話悟空》、Manus，其實他們都有一些共性，不是靠傳統的鋪天蓋地地投流積累用戶的……我們的智能終端其實是to C的，階躍和頭部企業合作的產品最終是服務C端的，作為助手類、內容類都是有非常大的機會的。”

責任編輯：孫扶

圖片編輯：李晶昀

校對：丁曉

澎湃新聞報料：021-962866

澎湃新聞，未經授權不得轉載

我要舉報

#階躍星辰 #人工智能 #AI #人形機器人