- +1
獨家|快手可靈大模型開放圖生視頻,視頻續(xù)寫最長可達3分鐘
在Sora王炸面世后,挑戰(zhàn)者正在前赴后繼地涌現(xiàn),其中不乏國產(chǎn)大模型的身影。
6月21日,澎湃新聞記者獨家獲悉,快手可靈大模型發(fā)布重磅更新:正式開放圖生視頻功能,支持將靜態(tài)圖像轉(zhuǎn)化為5秒鐘視頻,用戶可通過提示詞文本控制圖像中物體的運動;同時推出視頻續(xù)寫功能,支持對生成視頻一鍵續(xù)寫和連續(xù)多次續(xù)寫,最長可生成約3分鐘視頻。
今年6月,快手發(fā)布自研的視頻生成大模型可靈,可支持生產(chǎn)最高達120秒的視頻,在快影App開放邀測體驗,目前累計已有約14萬人申請內(nèi)測。
作為視頻生成模型,可靈最直接的競爭對手無疑是Sora。今年2月15日,OpenAI披露了“文生視頻”模型Sora的研發(fā)進展,可以創(chuàng)建長達60秒的視頻,其中包含高度詳細的場景、復雜的攝像機運動以及多個角色,也可以根據(jù)靜態(tài)圖像制作動畫。
消息一出,曾經(jīng)引發(fā)AI行業(yè)“地震”,成為全網(wǎng)輿論熱議話題,Sora也一度成為國產(chǎn)大模型的對標方向。
從視頻長度來看,此次可靈的續(xù)寫能力加持下,最終可支持用戶創(chuàng)作長達約3分鐘的視頻,這也是在可靈披露實現(xiàn)120秒鐘的單次視頻生成后,再次披露長時間的視頻生成能力。
根據(jù)快手方面介紹,此次推出的續(xù)寫功能可以實現(xiàn)一次性讓視頻運動延續(xù)約5秒,文生視頻和圖生視頻結果均可支持。憑借對物理世界的理解,該功能不僅能夠理解前一段視頻的運動,生成符合物理規(guī)律的連續(xù)運動,而且能實現(xiàn)較大幅度的動態(tài)變化。
通俗而言,用戶使用可靈大模型可以通過文生視頻和圖生視頻兩種模式,生成約5秒鐘視頻,此后可使用視頻續(xù)寫功能,每次續(xù)寫都能將視頻延續(xù)約5秒,最終可實現(xiàn)長達3分鐘的視頻。
此外,每一段續(xù)寫都能夠融入用戶的創(chuàng)意和想法,還能實現(xiàn)轉(zhuǎn)換和場景過渡功能,用戶可對每一段延長的視頻添加不同提示詞,生成連續(xù)長視頻。
例如同一個古堡視頻,既可以生成“太陽落下去,天空變暗”再“太陽升起來,天空變亮”的續(xù)寫視頻,也可以呈現(xiàn)從“太陽落下去,天空變暗,燈光亮起”到“燈光亮起,霧氣出現(xiàn)”的不同變換效果。
在騰訊、抖音、百度等多家互聯(lián)網(wǎng)大廠角逐的視頻生成賽道,業(yè)內(nèi)已經(jīng)將快手視作Sora的有力挑戰(zhàn)對手。
在2024年北京智源大會上,DiT論文作者、紐約大學助理教授謝賽寧曾和Sora及Dall-E團隊負責人阿迪蒂亞·拉梅什(Aditya Ramesh)談及快手可靈大模型,并詢問拉梅什如何看待其與Sora的競爭。
對此,拉梅什曾回應稱歡迎競爭,“很高興看到其他實驗室或公司也在發(fā)布視頻生成模型。我認為,越來越多的人采用不同的方法在這個領域前進,可以激發(fā)行業(yè)的創(chuàng)造力。在視頻生成領域看到有趣的產(chǎn)品創(chuàng)新也很棒。”
在財報中,快手也曾多次披露大模型相關進展,電話會議上,程一笑曾表示,今年一季度,快手穩(wěn)步推進自研大模型各項性能的迭代提升,并且加快大模型在各業(yè)務場景的應用。
國內(nèi)互聯(lián)網(wǎng)大廠正在扎堆布局視頻生成領域。
4月27日的2024中關村論壇年會上,清華大學聯(lián)合生數(shù)科技正式發(fā)布中國首個長時長、高一致性、高動態(tài)性視頻大模型Vidu,不過,Vidu的16秒與Sora的一分鐘仍存在算力和工程方面的巨大差距。
3月15日,騰訊和清華大學、香港科技大學聯(lián)合推出圖生視頻模型“Follow-Your-Click”。基于輸入模型的圖片,用戶只需點擊對應區(qū)域,加上少量提示詞,就可以讓圖片中原本靜態(tài)的區(qū)域動起來,一鍵轉(zhuǎn)換成視頻。從時長來看,相關視頻時長為10秒鐘。
去年開始,字節(jié)正式組建Flow部門,專注于AI大模型的應用研發(fā)。字節(jié)產(chǎn)品與戰(zhàn)略副總裁朱駿和字節(jié)技術副總裁洪定坤分別擔任部門的產(chǎn)品負責人和技術負責人。今年4月,字節(jié)提拔AI部門的負責人,現(xiàn)由朱文佳整體負責字節(jié)AI業(yè)務,向字節(jié)跳動CEO梁汝波匯報。
2月,有傳言稱,字節(jié)跳動在Sora引爆文生視頻賽道之前,已經(jīng)在研發(fā)“中文版Sora”:一款名為Boximator的創(chuàng)新性視頻模型。
當時,字節(jié)跳動相關人士曾告訴澎湃新聞記者,Boximator是視頻生成領域控制對象運動的技術方法研究項目。目前還無法作為完善的產(chǎn)品落地,距離國外領先的視頻生成模型在畫面質(zhì)量、保真率、視頻時長等方面還有很大差距。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務許可證:31120170006
增值電信業(yè)務經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司




