你用大模型制作的視頻,今后也許可以“唱歌”了。
你用大模型制作的視頻,今后也許可以“唱歌”了。
今日,智譜AI視頻生成大模型產(chǎn)品清影迎來全新升級,升級后的清影有著高達 4K 分辨率和 60 幀率,同時具有可變尺寸,以及多通道生成,能夠更好適應(yīng)專業(yè)視頻制作者和短視頻創(chuàng)作者的復(fù)雜剛性需求。
最重要的一點是,用新清影制作的視頻,自帶音效,這也是目前市面上現(xiàn)有的視頻生成產(chǎn)品,尚不具備的功能。新清影此舉也意味著,“默片Sora”,從此進入“有聲電影時代”。
即日起,新清影在智譜清言網(wǎng)頁和App上線, 音效功能將很快在本月上線公測。為了支持廣大開發(fā)者,智譜也同時將最新的CogVideoX v1.5模型進行了開源。
“默片Sora”進入“有聲電影時代”
自年初OpenAI發(fā)布Sora之后,今年大模型領(lǐng)域最熱鬧的細分賽道要數(shù)視頻生成,國內(nèi)AI廠商們也在加速研發(fā)迭代,一眾產(chǎn)品在6-7月迎來發(fā)布更新潮。
就在今年的7月,智譜的生成視頻模型CogVideoX上線清言App,名為清影,這是國內(nèi)最早全量上線C 端、人人可用的生成視頻功能。只需一段指令或圖片,30秒就能生成AI視頻。為影視創(chuàng)作帶來了更多創(chuàng)新玩法,如廣告制作、短視頻、表情包梗圖等。
在大模型產(chǎn)品能力建設(shè)上,智譜AI持續(xù)快速迭代。相較于3個月前,本次更新的清影,功能更完善,生成的視頻效果,也更符合人類多元的審美和情感表達。
具體功能來看,基于CogVideoX模型的最新技術(shù)進展和智譜最新推出的音效模型 CogSound,新清影從5個方面實現(xiàn)了提升。
一是模型能力全面提升。在圖生視頻的質(zhì)量、美學(xué)表現(xiàn)、運動合理性以及復(fù)雜提示詞語義理解方面能力明顯增強;更強的人物面部表演細節(jié)、動作連貫性和物理特性模擬,提高了視頻的自然度和逼真度。
二是有4K超高清分辨率。支持生成 10s、4K、60 幀超高清視頻,視覺體驗拉到極致,動態(tài)畫面更加流暢。
三是可變比例。支持任意比例的圖像生成視頻,超寬畫幅也能輕松Hold住,從而適應(yīng)不同的播放需求。
四是多通道生成能力。同一指令/圖片可以一次性生成4個視頻。
最重要也是最意外的,就是AI視頻可以帶上聲效了。新清影可以生成與畫面匹配的音效,這也使得當(dāng)前的“默片Sora”,從此進入“有聲電影時代”。據(jù)了解,音效功能將很快在本月上線公測。
最強助攻:音效模型CogSound
自Sora之后,全球?qū)ι梢曨l的關(guān)注達到了前所未有的高度。
從技術(shù)角度,生成視頻意味著大模型對物理世界規(guī)律有較好的理解,這為具身智能、元宇宙和虛擬現(xiàn)實混合系統(tǒng)的發(fā)展開辟了新通路。
從商業(yè)化角度,生成視頻將為專業(yè)影視工作者、短視頻創(chuàng)作者提升產(chǎn)量、產(chǎn)能,變革生產(chǎn)流程發(fā)揮重要作用。
在技術(shù)方面,新清影的功能實現(xiàn),主要采用了基于CogVideoX模型的最新技術(shù)和最新推出的音效模型CogSound,并在數(shù)據(jù)篩選、模型結(jié)構(gòu)、視頻理解、transformer架構(gòu)和訓(xùn)練框架等多個方面進行了多項創(chuàng)新。
比如,針對內(nèi)容連貫性問題,智譜自研了一個高效的三維變分自編碼器結(jié)構(gòu)(3D VAE),將原視頻空間壓縮至2%大小,大大減少了視頻擴散生成模型的訓(xùn)練成本和難度。
再比如,為解決大多現(xiàn)有視頻數(shù)據(jù)缺乏對應(yīng)描述性文本或描述質(zhì)量低下的問題,智譜還自研了一個端到端的專門用于標注視頻數(shù)據(jù)的視頻理解模型CogVLM2-caption,為海量視頻數(shù)據(jù)生成詳細的、貼合內(nèi)容的描述,進而增強模型的文本理解和指令遵循能力,更好地理解超長、復(fù)雜的prompt(提示詞),生成的視頻也更符合用戶的輸入。
作為這次功能更新的核心——給視頻配上聲效——音效模型CogSound和音樂模型CogMusic的加入,功不可沒。
即將上線的音效模型CogSound,能根據(jù)視頻自動生成音效、節(jié)奏等音樂元素,它是基于GLM-4V的視頻理解能力,可以準確識別并理解視頻背后的語義和情感,在此基礎(chǔ)上生成與之相匹配的音頻內(nèi)容,甚至生成復(fù)雜音效,如爆炸、水流、樂器、動物叫聲、交通工具聲等。
據(jù)了解,在自然環(huán)境聲音(如水流、下雨、常見動物叫聲)、燃燒/爆炸聲音(煙花、木頭燃燒)、交通工具聲音:(汽車引擎、火車、直升機)、敲擊/碰撞聲(樂器、鍵盤、風(fēng)鈴)、人類聲音:(人群呼喊、嬰兒啼哭)等方面,音效模型CogSound都有著不錯的生成效果。
音效模型CogSound將于本月上線清言App,與新清影一起生成有聲AI影片。在未來,用戶只需要提供一個好的創(chuàng)意,利用AI的輔助,一個idea、一張圖,就能輕松變成一段自帶BGM的AI視頻。
多模態(tài),通往AGI的必由之路
過去的一年,生成視頻技術(shù)在視頻時長、生成速度、分辨率及一致性等方面,取得了長足的進展。隨著大型模型技術(shù)的不斷被攻堅,人工智能為人類的價值也開始釋放。
從使用路徑來看,CogVideoX生成視頻模型即將同步上線清言App開放平臺bigmodel.cn,據(jù)了解,即使沒有編程背景的個人,也能輕松調(diào)用此工具來創(chuàng)作視頻,這無疑進一步降低了視頻創(chuàng)作的技術(shù)門檻。
在C端市場,生成視頻工具的出現(xiàn),可以極大地鼓勵并推動廣大C端用戶積極參與到視頻內(nèi)容的生產(chǎn)中來。在當(dāng)下以短視頻 App 作為流量入口的互聯(lián)網(wǎng)環(huán)境下,這一趨勢將繼續(xù)有力地推動UGC(用戶生產(chǎn)內(nèi)容)生態(tài)朝著更加繁榮的方向發(fā)展。
新出現(xiàn)的音效模型能夠?qū)崿F(xiàn)視頻與音頻的同時創(chuàng)作,不僅在普通用戶中廣受歡迎,在電影產(chǎn)業(yè)中也有著廣闊的應(yīng)用前景。例如,它可以高效生成電影中復(fù)雜的戰(zhàn)斗場面或災(zāi)難場景的音效,有效縮短制作周期并減少成本。
隨著生成視頻功能不斷朝著專業(yè)化方向進行迭代升級,其對B端客戶群也將產(chǎn)生越來越大的影響———專業(yè)視頻制作、視頻內(nèi)容營銷、游戲、廣告營銷以及傳媒等領(lǐng)域,基于這些生成視頻工具,內(nèi)容創(chuàng)作成本正在持續(xù)下降。
從長遠來看,大模型多模態(tài)AI的發(fā)展預(yù)示著一個理想化的未來,理論上,從腳本創(chuàng)作、視頻畫面生成到聲音和音效的制作,傳統(tǒng)視頻制作的各個步驟都可以通過大型AI模型來完成,實現(xiàn)全流程的自動化。這不僅是大模型多模態(tài)AI的典型應(yīng)用場景,也是其工具價值的完美展現(xiàn)。
視頻作為圖像模態(tài)的再擴展,將AIGC的技術(shù)推向高潮,也讓人類實現(xiàn)AGI的夢想,更進一步。
在智譜看來,真正的智能一定是多模態(tài)的,聽覺、視覺、觸覺等共同參與了人腦認知能力的形成。因此,包括文字、圖像、語音和視覺等模態(tài)在內(nèi)的智譜多模態(tài)大模型矩陣,能夠進一步提高大模型的應(yīng)用和工具能力。
智譜于2021年開始在多模態(tài)文生圖、文生視頻領(lǐng)域研發(fā),作為最早布局多模態(tài)大模型技術(shù)的公司,當(dāng)前,其已構(gòu)建了獨家、完善、原創(chuàng)的多模態(tài)模型矩陣。包括語言模型、圖像生成和理解模型、視頻生成和理解模型以及10月底剛剛發(fā)布的端到端情感語音模型GLM-4-Voice。
隨著音效模型CogSound的加入,多模態(tài)大模型家族在聲音模態(tài)方面實現(xiàn)了人聲、音效的多鏈路布局,健全了智譜基于圖像、視頻和聲音的多模態(tài)模型矩陣。
打通大模型應(yīng)用的“最后一公里”,在產(chǎn)品能力建設(shè)上,智譜還在持續(xù)快速迭代。據(jù)了解,未來智譜將攜手視覺中國等合作伙伴,基于更豐富的視覺內(nèi)容,產(chǎn)出更好的AI生成視頻工具。