日韩精品极品视频在线观看mv免费,午夜无码国产理论在线,国产AV无码专区亚洲AV桃花庵

智譜AI清影大升級：4K超高清、自帶BGM，“默片Sora”進入“有聲電影時代”

資訊

2024-11-08 18:14 星期五

你用大模型制作的視頻，今后也許可以“唱歌”了。

你用大模型制作的視頻，今后也許可以“唱歌”了。

今日，智譜AI視頻生成大模型產(chǎn)品清影迎來全新升級，升級后的清影有著高達 4K 分辨率和 60 幀率，同時具有可變尺寸，以及多通道生成，能夠更好適應(yīng)專業(yè)視頻制作者和短視頻創(chuàng)作者的復(fù)雜剛性需求。

最重要的一點是，用新清影制作的視頻，自帶音效，這也是目前市面上現(xiàn)有的視頻生成產(chǎn)品，尚不具備的功能。新清影此舉也意味著，“默片Sora”，從此進入“有聲電影時代”。

即日起，新清影在智譜清言網(wǎng)頁和App上線，音效功能將很快在本月上線公測。為了支持廣大開發(fā)者，智譜也同時將最新的CogVideoX v1.5模型進行了開源。

“默片Sora”進入“有聲電影時代”

自年初OpenAI發(fā)布Sora之后，今年大模型領(lǐng)域最熱鬧的細分賽道要數(shù)視頻生成，國內(nèi)AI廠商們也在加速研發(fā)迭代，一眾產(chǎn)品在6-7月迎來發(fā)布更新潮。

就在今年的7月，智譜的生成視頻模型CogVideoX上線清言App，名為清影，這是國內(nèi)最早全量上線C 端、人人可用的生成視頻功能。只需一段指令或圖片，30秒就能生成AI視頻。為影視創(chuàng)作帶來了更多創(chuàng)新玩法，如廣告制作、短視頻、表情包梗圖等。

在大模型產(chǎn)品能力建設(shè)上，智譜AI持續(xù)快速迭代。相較于3個月前，本次更新的清影，功能更完善，生成的視頻效果，也更符合人類多元的審美和情感表達。

具體功能來看，基于CogVideoX模型的最新技術(shù)進展和智譜最新推出的音效模型 CogSound，新清影從5個方面實現(xiàn)了提升。

一是模型能力全面提升。在圖生視頻的質(zhì)量、美學(xué)表現(xiàn)、運動合理性以及復(fù)雜提示詞語義理解方面能力明顯增強；更強的人物面部表演細節(jié)、動作連貫性和物理特性模擬，提高了視頻的自然度和逼真度。

二是有4K超高清分辨率。支持生成 10s、4K、60 幀超高清視頻，視覺體驗拉到極致，動態(tài)畫面更加流暢。

三是可變比例。支持任意比例的圖像生成視頻，超寬畫幅也能輕松Hold住，從而適應(yīng)不同的播放需求。

四是多通道生成能力。同一指令/圖片可以一次性生成4個視頻。

最重要也是最意外的，就是AI視頻可以帶上聲效了。新清影可以生成與畫面匹配的音效，這也使得當(dāng)前的“默片Sora”，從此進入“有聲電影時代”。據(jù)了解，音效功能將很快在本月上線公測。

最強助攻：音效模型CogSound

自Sora之后，全球?qū)ι梢曨l的關(guān)注達到了前所未有的高度。

從技術(shù)角度，生成視頻意味著大模型對物理世界規(guī)律有較好的理解，這為具身智能、元宇宙和虛擬現(xiàn)實混合系統(tǒng)的發(fā)展開辟了新通路。

從商業(yè)化角度，生成視頻將為專業(yè)影視工作者、短視頻創(chuàng)作者提升產(chǎn)量、產(chǎn)能，變革生產(chǎn)流程發(fā)揮重要作用。

在技術(shù)方面，新清影的功能實現(xiàn)，主要采用了基于CogVideoX模型的最新技術(shù)和最新推出的音效模型CogSound，并在數(shù)據(jù)篩選、模型結(jié)構(gòu)、視頻理解、transformer架構(gòu)和訓(xùn)練框架等多個方面進行了多項創(chuàng)新。

比如，針對內(nèi)容連貫性問題，智譜自研了一個高效的三維變分自編碼器結(jié)構(gòu)（3D VAE），將原視頻空間壓縮至2%大小，大大減少了視頻擴散生成模型的訓(xùn)練成本和難度。

再比如，為解決大多現(xiàn)有視頻數(shù)據(jù)缺乏對應(yīng)描述性文本或描述質(zhì)量低下的問題，智譜還自研了一個端到端的專門用于標注視頻數(shù)據(jù)的視頻理解模型CogVLM2-caption，為海量視頻數(shù)據(jù)生成詳細的、貼合內(nèi)容的描述，進而增強模型的文本理解和指令遵循能力，更好地理解超長、復(fù)雜的prompt（提示詞），生成的視頻也更符合用戶的輸入。

作為這次功能更新的核心——給視頻配上聲效——音效模型CogSound和音樂模型CogMusic的加入，功不可沒。

即將上線的音效模型CogSound，能根據(jù)視頻自動生成音效、節(jié)奏等音樂元素，它是基于GLM-4V的視頻理解能力，可以準確識別并理解視頻背后的語義和情感，在此基礎(chǔ)上生成與之相匹配的音頻內(nèi)容，甚至生成復(fù)雜音效，如爆炸、水流、樂器、動物叫聲、交通工具聲等。

據(jù)了解，在自然環(huán)境聲音（如水流、下雨、常見動物叫聲）、燃燒/爆炸聲音（煙花、木頭燃燒）、交通工具聲音:（汽車引擎、火車、直升機）、敲擊/碰撞聲（樂器、鍵盤、風(fēng)鈴）、人類聲音:（人群呼喊、嬰兒啼哭）等方面，音效模型CogSound都有著不錯的生成效果。

音效模型CogSound將于本月上線清言App，與新清影一起生成有聲AI影片。在未來，用戶只需要提供一個好的創(chuàng)意，利用AI的輔助，一個idea、一張圖，就能輕松變成一段自帶BGM的AI視頻。

多模態(tài)，通往AGI的必由之路

過去的一年，生成視頻技術(shù)在視頻時長、生成速度、分辨率及一致性等方面，取得了長足的進展。隨著大型模型技術(shù)的不斷被攻堅，人工智能為人類的價值也開始釋放。

從使用路徑來看，CogVideoX生成視頻模型即將同步上線清言App開放平臺bigmodel.cn，據(jù)了解，即使沒有編程背景的個人，也能輕松調(diào)用此工具來創(chuàng)作視頻，這無疑進一步降低了視頻創(chuàng)作的技術(shù)門檻。

在C端市場，生成視頻工具的出現(xiàn)，可以極大地鼓勵并推動廣大C端用戶積極參與到視頻內(nèi)容的生產(chǎn)中來。在當(dāng)下以短視頻 App 作為流量入口的互聯(lián)網(wǎng)環(huán)境下，這一趨勢將繼續(xù)有力地推動UGC（用戶生產(chǎn)內(nèi)容）生態(tài)朝著更加繁榮的方向發(fā)展。

新出現(xiàn)的音效模型能夠?qū)崿F(xiàn)視頻與音頻的同時創(chuàng)作，不僅在普通用戶中廣受歡迎，在電影產(chǎn)業(yè)中也有著廣闊的應(yīng)用前景。例如，它可以高效生成電影中復(fù)雜的戰(zhàn)斗場面或災(zāi)難場景的音效，有效縮短制作周期并減少成本。

隨著生成視頻功能不斷朝著專業(yè)化方向進行迭代升級，其對B端客戶群也將產(chǎn)生越來越大的影響———專業(yè)視頻制作、視頻內(nèi)容營銷、游戲、廣告營銷以及傳媒等領(lǐng)域，基于這些生成視頻工具，內(nèi)容創(chuàng)作成本正在持續(xù)下降。

從長遠來看，大模型多模態(tài)AI的發(fā)展預(yù)示著一個理想化的未來，理論上，從腳本創(chuàng)作、視頻畫面生成到聲音和音效的制作，傳統(tǒng)視頻制作的各個步驟都可以通過大型AI模型來完成，實現(xiàn)全流程的自動化。這不僅是大模型多模態(tài)AI的典型應(yīng)用場景，也是其工具價值的完美展現(xiàn)。

視頻作為圖像模態(tài)的再擴展，將AIGC的技術(shù)推向高潮，也讓人類實現(xiàn)AGI的夢想，更進一步。

在智譜看來，真正的智能一定是多模態(tài)的，聽覺、視覺、觸覺等共同參與了人腦認知能力的形成。因此，包括文字、圖像、語音和視覺等模態(tài)在內(nèi)的智譜多模態(tài)大模型矩陣，能夠進一步提高大模型的應(yīng)用和工具能力。

智譜于2021年開始在多模態(tài)文生圖、文生視頻領(lǐng)域研發(fā)，作為最早布局多模態(tài)大模型技術(shù)的公司，當(dāng)前，其已構(gòu)建了獨家、完善、原創(chuàng)的多模態(tài)模型矩陣。包括語言模型、圖像生成和理解模型、視頻生成和理解模型以及10月底剛剛發(fā)布的端到端情感語音模型GLM-4-Voice。

隨著音效模型CogSound的加入，多模態(tài)大模型家族在聲音模態(tài)方面實現(xiàn)了人聲、音效的多鏈路布局，健全了智譜基于圖像、視頻和聲音的多模態(tài)模型矩陣。

打通大模型應(yīng)用的“最后一公里”，在產(chǎn)品能力建設(shè)上，智譜還在持續(xù)快速迭代。據(jù)了解，未來智譜將攜手視覺中國等合作伙伴，基于更豐富的視覺內(nèi)容，產(chǎn)出更好的AI生成視頻工具。

閱100.52W

我要評論

反饋意見

歡迎您發(fā)表有價值的評論，發(fā)布廣告和不和諧的評論都將會被刪除，您的賬號將禁止評論。

發(fā)表評論

要聞

股市

關(guān)聯(lián)話題

智譜AI

0 人關(guān)注

+ 關(guān)注

首頁

電報

話題

盯盤

VIP

FM

投研

下載

頭條

A股

港股

環(huán)球

公司

券商

基金·ETF

地產(chǎn)

金融

汽車

科創(chuàng)

品見