獨家｜快手可靈大模型開放圖生視頻，視頻續(xù)寫最長可達3分鐘

澎湃新聞記者范佳來

2024-06-21 14:49

來源：澎湃新聞

在Sora王炸面世后，挑戰(zhàn)者正在前赴后繼地涌現(xiàn)，其中不乏國產(chǎn)大模型的身影。

6月21日，澎湃新聞記者獨家獲悉，快手可靈大模型發(fā)布重磅更新：正式開放圖生視頻功能，支持將靜態(tài)圖像轉(zhuǎn)化為5秒鐘視頻，用戶可通過提示詞文本控制圖像中物體的運動；同時推出視頻續(xù)寫功能，支持對生成視頻一鍵續(xù)寫和連續(xù)多次續(xù)寫，最長可生成約3分鐘視頻。

今年6月，快手發(fā)布自研的視頻生成大模型可靈，可支持生產(chǎn)最高達120秒的視頻，在快影App開放邀測體驗，目前累計已有約14萬人申請內(nèi)測。

作為視頻生成模型，可靈最直接的競爭對手無疑是Sora。今年2月15日，OpenAI披露了“文生視頻”模型Sora的研發(fā)進展，可以創(chuàng)建長達60秒的視頻，其中包含高度詳細的場景、復雜的攝像機運動以及多個角色，也可以根據(jù)靜態(tài)圖像制作動畫。

消息一出，曾經(jīng)引發(fā)AI行業(yè)“地震”，成為全網(wǎng)輿論熱議話題，Sora也一度成為國產(chǎn)大模型的對標方向。

從視頻長度來看，此次可靈的續(xù)寫能力加持下，最終可支持用戶創(chuàng)作長達約3分鐘的視頻，這也是在可靈披露實現(xiàn)120秒鐘的單次視頻生成后，再次披露長時間的視頻生成能力。

根據(jù)快手方面介紹，此次推出的續(xù)寫功能可以實現(xiàn)一次性讓視頻運動延續(xù)約5秒，文生視頻和圖生視頻結果均可支持。憑借對物理世界的理解，該功能不僅能夠理解前一段視頻的運動，生成符合物理規(guī)律的連續(xù)運動，而且能實現(xiàn)較大幅度的動態(tài)變化。

通俗而言，用戶使用可靈大模型可以通過文生視頻和圖生視頻兩種模式，生成約5秒鐘視頻，此后可使用視頻續(xù)寫功能，每次續(xù)寫都能將視頻延續(xù)約5秒，最終可實現(xiàn)長達3分鐘的視頻。

此外，每一段續(xù)寫都能夠融入用戶的創(chuàng)意和想法，還能實現(xiàn)轉(zhuǎn)換和場景過渡功能，用戶可對每一段延長的視頻添加不同提示詞，生成連續(xù)長視頻。

例如同一個古堡視頻，既可以生成“太陽落下去，天空變暗”再“太陽升起來，天空變亮”的續(xù)寫視頻，也可以呈現(xiàn)從“太陽落下去，天空變暗，燈光亮起”到“燈光亮起，霧氣出現(xiàn)”的不同變換效果。

在騰訊、抖音、百度等多家互聯(lián)網(wǎng)大廠角逐的視頻生成賽道，業(yè)內(nèi)已經(jīng)將快手視作Sora的有力挑戰(zhàn)對手。

在2024年北京智源大會上，DiT論文作者、紐約大學助理教授謝賽寧曾和Sora及Dall-E團隊負責人阿迪蒂亞·拉梅什（Aditya Ramesh）談及快手可靈大模型，并詢問拉梅什如何看待其與Sora的競爭。

對此，拉梅什曾回應稱歡迎競爭，“很高興看到其他實驗室或公司也在發(fā)布視頻生成模型。我認為，越來越多的人采用不同的方法在這個領域前進，可以激發(fā)行業(yè)的創(chuàng)造力。在視頻生成領域看到有趣的產(chǎn)品創(chuàng)新也很棒。”

在財報中，快手也曾多次披露大模型相關進展，電話會議上，程一笑曾表示，今年一季度，快手穩(wěn)步推進自研大模型各項性能的迭代提升，并且加快大模型在各業(yè)務場景的應用。

國內(nèi)互聯(lián)網(wǎng)大廠正在扎堆布局視頻生成領域。

4月27日的2024中關村論壇年會上，清華大學聯(lián)合生數(shù)科技正式發(fā)布中國首個長時長、高一致性、高動態(tài)性視頻大模型Vidu，不過，Vidu的16秒與Sora的一分鐘仍存在算力和工程方面的巨大差距。

3月15日，騰訊和清華大學、香港科技大學聯(lián)合推出圖生視頻模型“Follow-Your-Click”。基于輸入模型的圖片，用戶只需點擊對應區(qū)域，加上少量提示詞，就可以讓圖片中原本靜態(tài)的區(qū)域動起來，一鍵轉(zhuǎn)換成視頻。從時長來看，相關視頻時長為10秒鐘。

去年開始，字節(jié)正式組建Flow部門，專注于AI大模型的應用研發(fā)。字節(jié)產(chǎn)品與戰(zhàn)略副總裁朱駿和字節(jié)技術副總裁洪定坤分別擔任部門的產(chǎn)品負責人和技術負責人。今年4月，字節(jié)提拔AI部門的負責人，現(xiàn)由朱文佳整體負責字節(jié)AI業(yè)務，向字節(jié)跳動CEO梁汝波匯報。

2月，有傳言稱，字節(jié)跳動在Sora引爆文生視頻賽道之前，已經(jīng)在研發(fā)“中文版Sora”：一款名為Boximator的創(chuàng)新性視頻模型。

當時，字節(jié)跳動相關人士曾告訴澎湃新聞記者，Boximator是視頻生成領域控制對象運動的技術方法研究項目。目前還無法作為完善的產(chǎn)品落地，距離國外領先的視頻生成模型在畫面質(zhì)量、保真率、視頻時長等方面還有很大差距。

責任編輯：孫扶

圖片編輯：樂浴峰

校對：丁曉

澎湃新聞報料：021-962866

澎湃新聞，未經(jīng)授權不得轉(zhuǎn)載

我要舉報

#快手 #視頻 #圖生視頻