對標(biāo)Sora、“國產(chǎn)最強(qiáng)”視頻大模型Vidu,真有那么強(qiáng)嗎?
2024-04-28 16:40 星期日
界面新聞 伍洋宇
①生數(shù)科技在兩個(gè)月內(nèi)有如此提升已經(jīng)是算法和工程能力上的突破,但在同等性能表現(xiàn)下追平Sora的1分鐘時(shí)長,還有較長的一段路要走。
②目前,Vidu對外公布的時(shí)長上限是16秒,Sora最大時(shí)長則是1分鐘。

大模型領(lǐng)域最熱話題又重新回到視頻模型上,因?yàn)橐患覄?chuàng)業(yè)公司被認(rèn)為做出了“最強(qiáng)國產(chǎn)Sora”。

4月27日,在中關(guān)村論壇未來人工智能先鋒論壇上,生數(shù)科技聯(lián)合清華大學(xué)發(fā)布了具有“長時(shí)長、高一致性、高動(dòng)態(tài)性”性能標(biāo)簽的視頻大模型Vidu,可根據(jù)文本描述直接生成長達(dá)16秒、分辨率達(dá)1080P的高清視頻內(nèi)容。

高一致性是團(tuán)隊(duì)著重強(qiáng)調(diào)的特點(diǎn)。清華大學(xué)人工智能研究院副院長、生數(shù)科技首席科學(xué)家朱軍表示,當(dāng)前國內(nèi)視頻大模型的生成視頻時(shí)長大多為4秒左右,Vidu則可實(shí)現(xiàn)一次性生成16秒的視頻時(shí)長。同時(shí),視頻畫面能保持連貫流暢,隨著鏡頭移動(dòng),人物和場景在時(shí)間、空間中能保持高一致性。

在動(dòng)態(tài)性方面,Vidu的動(dòng)態(tài)鏡頭在推、拉、移之外,開始涉及一段畫面中遠(yuǎn)景、近景、中景、特寫等鏡頭的切換,以及直接生成長鏡頭、追焦和轉(zhuǎn)場效果。物理規(guī)律方面,朱軍介紹稱,Vidu可以模擬真實(shí)物理世界中細(xì)節(jié)復(fù)雜且符合物理規(guī)律的場景,例如合理的光影效果、細(xì)膩的人物表情等,還可生成具有深度和復(fù)雜性的超現(xiàn)實(shí)主義內(nèi)容(例如“戴珍珠耳環(huán)的貓”)。

在生數(shù)科技放出的視頻物料中,的確有不少用戶反饋認(rèn)可其時(shí)間與空間上的一致性表現(xiàn),而這是視頻模型在長時(shí)長內(nèi)容生成上需要克服的關(guān)鍵問題。

一致性表現(xiàn)不能獨(dú)立于視頻時(shí)長以外單獨(dú)討論。目前,Vidu對外公布的時(shí)長上限是16秒,Sora最大時(shí)長則是1分鐘。今年2月Sora推出后,生數(shù)科技內(nèi)部成立了攻堅(jiān)小組,加快原本視頻方向的研發(fā)進(jìn)度。3月,內(nèi)部實(shí)現(xiàn)8秒的視頻生成,并在4月提升到16秒生成,但團(tuán)隊(duì)沒有公布更多技術(shù)突破的細(xì)節(jié)。

從已有信息來看,技術(shù)路線上,Vidu采用的是自研U-ViT架構(gòu),與Sora一樣是Diffusion和Transformer的融合架構(gòu)。這種架構(gòu)不采用插幀的多步驟處理方式來生成視頻,而是通過單一步驟“端到端”直接生成內(nèi)容,從文本到視頻的轉(zhuǎn)換是直接、連續(xù)的。

這意味著,Vidu同樣繞不開模型訓(xùn)練的Scaling Law(規(guī)模法則),需要不斷堆積更大參數(shù)和更多算力。

算力限制之外,一名有多模態(tài)大模型訓(xùn)練經(jīng)驗(yàn)的創(chuàng)業(yè)者對界面新聞?dòng)浾弑硎?,生成?shù)據(jù)的差距是國內(nèi)視頻大模型與Sora之間的重要差別。視頻大模型需要大量的數(shù)據(jù)收集,其路線是一個(gè)逐漸細(xì)化和確定的過程。從實(shí)現(xiàn)上來講,這是一個(gè)確定性事件,但需要一定時(shí)間。

因此,盡管生數(shù)科技在兩個(gè)月內(nèi)有如此提升已經(jīng)是算法和工程能力上的突破,但在同等性能表現(xiàn)下追平Sora的1分鐘時(shí)長,真正做到全面對標(biāo)Sora,必然還有較長的一段路要走——至少不是“兩倍于兩個(gè)月”這樣簡單的線性估算。

“16秒跟1分鐘,看起來大概差四倍,但中間的誤差累計(jì)到后面可能不只是四倍的算力或者工程能力能彌補(bǔ)的?!币幻竽P皖I(lǐng)域投資人對界面新聞?dòng)浾弑硎尽?/p>

他同時(shí)指出,其實(shí)Vidu和Sora一樣,目前釋放的素材并不足夠多,從其發(fā)布的物料來看一致性表現(xiàn)的確不錯(cuò),但還是很難做出更準(zhǔn)確的判斷。

在這一視角下,Vidu與Sora可直接比較的維度或許更多在于以鏡頭語言為代表的動(dòng)態(tài)性,以及對物理世界規(guī)律的理解與模擬能力等方面。而長時(shí)長與一致性構(gòu)成的核心性能,還需要等待后續(xù)版本迭代做進(jìn)一步比較。

收藏
94.53W
我要評論
歡迎您發(fā)表有價(jià)值的評論,發(fā)布廣告和不和諧的評論都將會(huì)被刪除,您的賬號將禁止評論。
發(fā)表評論
要聞
股市
關(guān)聯(lián)話題
7158 人關(guān)注
4.16W 人關(guān)注
8312 人關(guān)注