青青久国产在线观看,男男裸体猛进猛出gif动态图

OpenAI帶來視頻生成模型開年王炸！這些A股上市公司布局相關業(yè)務

原創(chuàng)

2024-02-17 10:57 星期六

財聯(lián)社俞琪

①OpenAI昨日帶來首個文生視頻模型Sora，業(yè)內預計AGI實現(xiàn)將從10年縮短到1年；②?？低?、大華股份等國內視頻分析廠商均入局多模態(tài)大模型研究進程，萬興科技、因賽集團等超10家A股上市公司近三個月在互動平臺回復業(yè)務涉及視頻生成模型領域（附表）。

財聯(lián)社2月17日訊（編輯俞琪）OpenAI在昨日凌晨再亮出大招，其發(fā)布了首個文生視頻模型Sora。據(jù)OpenAI介紹，該人工智能系統(tǒng)可以快速制作長達一分鐘的視頻，這些視頻可以呈現(xiàn)具有多個角色、特定類型的動作、以及主題和背景的準確細節(jié)的復雜場景。從公司官網上更新的48個視頻demo來看，Sora不僅能準確呈現(xiàn)細節(jié)，還能生成具有豐富情感的角色。

在技術和工作原理方面，OpenAI介紹稱，因使用Transformer架構，Sora具有極強的擴展性，同時在基于過去對DALL·E和GPT的研究基礎構建上還利用了DALL·E 3的重述提示詞技術，為視覺模型訓練數(shù)據(jù)生成高描述性的標注。

在OpenAI的Sora之前，谷歌在去年12月21日發(fā)布一個全新的視頻生成模型VideoPoet，能夠執(zhí)行包括文本到視頻、圖像到視頻、視頻風格化等操作。此前一夜爆紅的文生視頻軟件Pika更掀起了AI視頻應用熱潮。對于此次Sora的出現(xiàn)，360集團創(chuàng)始人、董事長周鴻祎2月16日在微博發(fā)文表示，這意味著AGI實現(xiàn)將從10年縮短到1年。

業(yè)內專家分析指出，具備文生視頻功能的視頻類生成式AI在領域，能夠有效降低創(chuàng)作者的創(chuàng)作門檻。國海證券陳夢竹在11月8日研報中提到，據(jù)量子位發(fā)布的《AIGC/AI生成內容產業(yè)展望報告》，視頻生成將成為近期跨模態(tài)生成領域的中高潛力場景，其背后邏輯是不同技術帶來的主流內容形式的變化。英偉達高級科學家Jim Fan評論認為，2022年是影像之年，2023是聲波之年，而2024是視頻之年。

隨海外OpenAI、谷歌等紛紛推出各自的文生視頻模型，東方證券蒯劍等人在12月18日研報中提到，國內領先廠商已入局，其中，?？低暋⒋笕A股份、螢石網絡等視頻分析行業(yè)領先廠商紛紛投入到多模態(tài)大模型研究和行業(yè)應用落地進程。具體來看，海康威視現(xiàn)已處于多模態(tài)大模型的研發(fā)階段，包括視覺、語音、文本等多模態(tài)信號的融合訓練及處理。大華股份于23年10月發(fā)布“星漢大模型”，該模型融合點云、語音、圖像等輸入，構建了多模態(tài)融合的行業(yè)視覺大模型。值得一提的是，信雅達憑借“天才女兒”設立Pika的消息刺激曾在去年11月30日至12月7日錄得6連板，公司表示，其已圍繞圖像識別、 AI 定制化建模等能力開展深入研究。

此外，主營視頻創(chuàng)意、繪圖創(chuàng)意類軟件產品的萬興科技近日在互動平臺表示，公司旗下視頻創(chuàng)意產品萬興喵影/Filmora可用于各類視頻的創(chuàng)作和剪輯，“天幕”大模型是以視頻創(chuàng)意類AI技術為核心的多媒體大模型，涵蓋音頻、圖像、視頻等多模態(tài)能力。昆侖萬維旗下Star Group和Opera都具備做短視頻的土壤，其中Opera在海外已經推出了短視頻功能。此外，昆侖萬維天工大模型在騰訊優(yōu)圖實驗室聯(lián)合廈門大學開展的多模態(tài)大語言模型測評中，綜合得分排名第一。專業(yè)智能視頻解決方案與視頻云服務提供商當虹科技擁有自研的AIGC工具集，于去年上半年發(fā)布以靜態(tài)照片生成三維體積視頻的方案。

據(jù)財聯(lián)社不完全統(tǒng)計，包括萬興科技、博匯科技、易點天下、數(shù)碼視訊、漢王科技、當虹科技、東方國信、神思電子、因賽集團、拓爾思、國脈文化、佳都科技在內的超10家A股上市公司近三個月以來在互動平臺披露視頻生成模型領域的業(yè)務情況。其中，當虹科技1月5日互動平臺表示，公司擁有自研的AIGC工具集，發(fā)布了以靜態(tài)照片生成三維體積視頻的方案，并且通過點云模型轉換及壓縮算法實現(xiàn)高達800倍的視覺無損壓縮，實現(xiàn)不同模態(tài)之間相互切換。因賽集團旗下InsightGPT目前可生成20秒以上的視頻，能夠結合圖像、視頻大模型，融合摳圖等多種算法，再結合音頻模型，整體渲染后最終合成完整視頻。