- +1
階躍星辰CEO姜大昕:追求智能上限仍是最重要的事,多模態的“GPT-4時刻”尚未到來
“追求智能的上限仍然是當下最重要的一件事。”“有了多模理解生成一體化才能真正做到人形機器人的泛化。”
近日,上海大模型獨角獸階躍星辰創始人、CEO姜大昕在接受澎湃新聞等媒體采訪時表示,通過各家AI公司的產品路線圖可以發現,“追求智能上限”仍是當下最重要的事。目前模型的發展,主要呈現出從模仿學習到強化學習、從多模態融合走向多模態理解生成一體化兩大趨勢。而模型能力決定應用的上限。什么樣的模型,決定了有什么樣的應用可以被解鎖、可以成熟和繁榮。
“大模型技術發展還在非常陡峭的區間,階躍不會在這個過程中放棄主流的前進趨勢,會堅持基礎模型研發,追求智能的上限。” 姜大昕一如往常表示,“階躍追求AGI的初心也不會改變。”
他也強調,多模態對AGI(通用人工智能)是必經之路,階躍星辰有堅實的基礎,而且投入了很多資源去創新,在多模推理和多模理解生成一體化方面已進行探索和布局。

階躍星辰創始人、CEO姜大昕
4月29日,習近平總書記來到位于上海市徐匯區的“模速空間”大模型創新生態社區調研,階躍星辰展示了多模態大模型與智能終端場景相結合。
階躍星辰成立于2023年4月,因其Step系列基座模型研發速度快、多模態性能強,被業內稱作“多模態卷王”。根據姜大昕的規劃,公司實現AGI的技術路線是:“單模態-多模態-多模理解和生成的統一-世界模型-AGI”。
多模態的“GPT-4時刻”尚未到來,多模態理解與生成一體化是趨勢
姜大昕表示:“2024年Sora發布之時,大家都很興奮,其實我們是失望的,因為我們都認為OpenAI的主線應該是理解生成一體化,后來回頭去想,也是有道理的,從多模融合直接做到理解生成一體化太難了,可能需要迭代幾輪后再到理解生成一體化,但總的方向肯定是要能夠去predict next frame(預測下一幀)。”
他又以自動駕駛和機器人的VLA(Vision Language Action,視覺語言動作)模型為例解釋稱,現在VLA可以視為VLA 1.0,是通過歷史的規劃數據來生成實時的動作決策,而人是通過對未來的預判來決定現在要做什么,“這個過程既有理解又有生成,因為要先判斷它有哪些動作,然后再判斷會造成哪些后果,判斷后果的過程就是生成的過程。如果根據動作分布來對未來進行預測,做最優策略的選取,那它就是強化學習”。
他表示,理解生成一體化的問題解決后,帶推理的VLA將能夠實現對未來更好的預測,如果能做到時空推理,再加上3D和自然語言學習,就到了世界模型階段。“如果到了世界模型,我認為我眼中的AGI就實現了。實際上有很多人講,AGI的路線為什么到了今天路線越來越清晰了,我確實也有同樣的感覺,我們從文本這條路已經看到了這里,那么視覺最根本的問題雖然我們還沒有徹底地解決理解生成一體化,但我們覺得這個問題一旦突破,今后的道路會非常順暢,就會和文本一起發展到世界模型。”
他判斷稱,多模態的“GPT-4時刻”還沒有到來,“有的時候它的突破就在一瞬間…”姜大昕認為,在當前的競爭格局中,階躍星辰的差異化特點就是多模態能力,多模態領域存在著非常巨大的機會。
同時,他也強調,模型的突破是早于商業化的。就像先有了GPT-3.5才會有ChatGPT,先有了多模融合和推理模型,才會有現在成熟的Agent(智能體),同樣,要有了多模理解生成一體化,尤其是可規模化的一體化,才能真正地做到人形機器人的泛化。
AI產品的投流邏輯不成立,大模型和智能終端一起to C
姜大昕在此前的階躍星辰開放日上曾表示,隨著多模態和慢思考在2024年取得了顯著進展,Agent將是階躍未來發展的重要方向。
為什么會選擇智能終端Agent?姜大昕表示,Agent要能更好地幫助人類去完成任務,需要去理解用戶所處的環境和任務的上下文。很多終端是用戶感知和體驗的延伸,比如手機、AI眼鏡或耳機,它可以搜集人們所處的環境等信息,幫助模型更好地理解用戶上下文,提供了非常大的便利。同時,目前很多的智能終端和設備,比如微波爐,只是幫助完成任務,“我家的微波爐有上百種功能,但是我很少用,因為我很少看說明書,也不知道某一個功能如何操作鍵,所以我希望它是一個Agent,可以直接和它對話”。
也是基于這一判斷,階躍星辰此前已經宣布了在汽車、手機、具身智能、IoT等關鍵應用場景的智能終端和Agent布局,與吉利汽車深化技術合作,推動“AI+車”的深度融合,還與智元機器人達成戰略合作,探索AI+具身機器人應用場景。
階躍星辰一直秉持著“超級模型+超級應用”的雙輪驅動。姜大昕認為,只做應用的公司始終存在一個風險,就是當通用模型的能力取得下一次突破之時會不會受到降維打擊。而階躍星辰在應用層面走了一條差異化路線,與合作伙伴打造從模型到Agent、從云側到端側的生態體系,“我們認為軟硬結合是能更好地理解用戶的需求,完成用戶的任務”。
對于有觀點認為目前人工智能C端(消費者端)產品在玩互聯網的套路,做投流做增長。姜大昕表示:“我覺得DeepSeek讓我們學到的一個東西就是,投流的邏輯是不成立的。DeepSeek從來沒有做投流,它如果放開流量,破億是沒有問題的。我們要重新思考一下AI時代的產品的流量增長,是不是靠投流上去的。DeepSeek出來后給了大家一個重新看待這個問題的窗口。不光是DeepSeek,像《哪吒2》、《黑神話悟空》、Manus,其實他們都有一些共性,不是靠傳統的鋪天蓋地地投流積累用戶的……我們的智能終端其實是to C的,階躍和頭部企業合作的產品最終是服務C端的,作為助手類、內容類都是有非常大的機會的。”





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司




