- +1
李飛飛發(fā)布全新世界模型,可在單張H100GPU上流暢運行
10月16日,“AI教母”李飛飛宣布對外推出全新模型RTFM(AReal-TimeFrame Model,實時幀模型)。RTFM是一款全新的實時生成世界模型,能夠與用戶交互時實時生成視頻,并遵循三大核心設計原則:效率、可擴展性、持久性。
RTFM可將單張圖像渲染成3D場景,一個模型可處理多種場景類型、視覺風格和效果,包括反射、光澤表面、陰影和鏡頭光暈。該模型已以預覽版形式開放用戶體驗。

使用 RTFM 渲染的布滿陽光的游泳池場景
能在單張H100GPU上運行的“實時世界”
李飛飛團隊World Labs表示,強大的世界模型將能夠?qū)崟r重建、生成并模擬具有持久性、交互性且物理精度高的虛擬世界。這類模型將徹底改變從媒體到機器人技術乃至更廣泛領域的產(chǎn)業(yè)格局。
過去一年間,這項新興技術發(fā)展迅猛,生成式視頻建模的突破性進展已成功應用于生成式世界建模領域。一個趨勢隨之逐漸明朗:生成式世界模型的計算需求將遠超當前的大型語言模型。
若簡單套用現(xiàn)代視頻架構,要生成60幀/秒的交互式4K視頻流,每秒需要生成超過10萬個標記(相當于《科學怪人》或《哈利·波特》第一部的篇幅)。若要讓這些生成模型持續(xù)運行一小時以上,需處理的上下文token更將超過1億。以當今的計算基礎設施來看,這種方案既不可行,也不具備經(jīng)濟可行性。
World Labs認為,在人工智能領域,隨著計算能力提升而優(yōu)雅擴展的簡單方法往往占據(jù)主導地位,因為這些方法能夠受益于推動技術發(fā)展數(shù)十年的計算成本指數(shù)級下降趨勢。生成式世界模型完全具備優(yōu)勢,將在未來持續(xù)降低的計算成本中獲益。
這就引出了一個自然的問題:生成式世界模型是否被當今的硬件限制所阻礙?或者現(xiàn)在是否有方法可以預覽這項技術?
于是,李飛飛團隊設定了一個簡單而明確的目標:設計一個高效且可部署的生成式世界模型,能夠隨著計算能力提升持續(xù)擴展。
他們想要構建一個能在單張H100GPU上運行的模型,既能保持交互幀率,又能確保世界數(shù)據(jù)在長時間互動后依然完整。實現(xiàn)這些條件能讓他們通過當前的體驗提前預判未來這些模型可能達成的高度。
這一目標影響了他們從任務設置到模型架構的整個系統(tǒng)架構設計,并通過仔細優(yōu)化推理堆棧的所有部分,應用架構設計、模型蒸餾和推理優(yōu)化方面的最新進展,為在當今硬件上運行的未來模型提供最高保真的預覽。

RTFM 對地板上的復雜陰影和反射進行建模
從圖像到世界:RTFM如何突破生成式建模的邊界
擴展性方面,傳統(tǒng)3D圖形管線依賴人工設計的顯式三維模型(如三角網(wǎng)格、高斯貼圖)和算法,對幾何、材質(zhì)、光照等進行精確建模,再渲染為二維圖像。該方法雖成熟,但在處理大規(guī)模數(shù)據(jù)時擴展性受限。
而RTFM采用了一種基于生成式視頻建模的創(chuàng)新方法,其核心是一個經(jīng)端到端訓練的神經(jīng)網(wǎng)絡。它僅輸入場景的二維圖像,無需構建顯式三維模型,即可從新視角生成對應圖像。
該技術基于生成式視頻建模,訓練一個神經(jīng)網(wǎng)絡將輸入圖像轉(zhuǎn)換為一種隱式的世界表征(KV緩存),進而通過注意力機制直接從該表征中讀取信息,來生成新視角下的連貫圖像。這意味著復雜的光照、反射等效果并非由人工規(guī)則定義,而是通過從數(shù)據(jù)中學習自動掌握,從而能夠與Marble 實現(xiàn)從單張圖像高效創(chuàng)建具有真實感的3D場景。
RTFM還有一個重要特性是模糊了重建與生成的傳統(tǒng)界限:當輸入視圖充足時,系統(tǒng)傾向于精確重建;當輸入視圖稀疏時,它則能進行合理的內(nèi)容推演與生成。

使用 RTFM 渲染的戶外游樂場
另外,現(xiàn)實世界具有持久性:當視線移開時,場景不會消失或重置,人們可以隨時返回之前的位置。這一特性對自回歸幀模型構成了顯著挑戰(zhàn)。由于此類模型僅通過二維圖像幀序列隱式地表示世界,隨著探索范圍擴大,需要處理的幀數(shù)量持續(xù)增長,導致每一幀的生成成本不斷累積,模型的“記憶容量”實際上受限于可用的計算資源。
RTFM通過引入“姿態(tài)幀”作為空間記憶,有效突破了這一限制。該方法將每一幀與其在三維空間中的姿態(tài)綁定,使模型能夠在生成新幀時依據(jù)目標姿態(tài)從已有的空間記憶中檢索鄰近幀,構建局部上下文。這種設計為模型提供了一個弱空間先驗—即世界處于三維歐氏空間中,而無需顯式進行幾何重建,既降低了建模復雜度,也增強了對場景結構的理解。
為實現(xiàn)高效運行,RTFM采用了上下文調(diào)度機制,在不同空間區(qū)域生成圖像時動態(tài)切換所使用的上下文幀,稱為“上下文切換”。這一策略使模型無需在處理新幀時加載全部歷史數(shù)據(jù),從而支持大規(guī)模場景的持久維護,實現(xiàn)所謂“無限持久性”。通過將幀組織為具有空間結構的記憶系統(tǒng),RTFM在長期交互中能夠保持場景一致性,同時顯著提升生成效率和可擴展性。
World Labs指出,RTFM展示了在現(xiàn)有硬件上部署高效世界模型的愿景,其技術核心是將世界模型定義為端到端、數(shù)據(jù)驅(qū)動的渲染器。該框架具備良好的擴展性,未來可模擬動態(tài)世界并支持用戶交互。當前模型目標是在單張H100GPU上實時運行,而更大規(guī)模的模型將持續(xù)優(yōu)化性能。
World Labs成立于今年4月,在四個月內(nèi)從創(chuàng)始公司成長為獨角獸。去年9月,World Labs正式宣布完成2.3億美元的巨額融資,投資方包括硅谷知名投資機構a16z、NEA、加拿大風投公司Radical Ventures,以及英偉達公司的風險投資部門等。眾多AI領域的知名人士也參與了投資,包括谷歌DeepMind首席科學家杰夫·迪恩(Jeff Dean)和前谷歌AI研究員杰弗里·辛頓(Geoffrey Hinton)。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務許可證:31120170006
增值電信業(yè)務經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司




