①智源評(píng)測發(fā)現(xiàn),2024年下半年大模型發(fā)展更聚焦綜合能力提升與實(shí)際應(yīng)用,語言模型發(fā)展相對(duì)放緩;②林詠華告訴《科創(chuàng)板日報(bào)》記者,2025年,基于語言模型會(huì)產(chǎn)生更多的Agent,然后圍繞Agent來做更復(fù)雜的AI應(yīng)用和系統(tǒng)。
《科創(chuàng)板日報(bào)》20日訊(記者 李明明)近日,智源研究院發(fā)布并解讀國內(nèi)外100余個(gè)開源和商業(yè)閉源的語言、視覺語言、文生圖、文生視頻、語音語言大模型綜合及專項(xiàng)評(píng)測結(jié)果。
智源評(píng)測發(fā)現(xiàn),2024年下半年大模型發(fā)展更聚焦綜合能力提升與實(shí)際應(yīng)用。多模態(tài)模型發(fā)展迅速,涌現(xiàn)了不少新的廠商與新模型,語言模型發(fā)展相對(duì)放緩。模型開源生態(tài)中,除了持續(xù)堅(jiān)定開源的海內(nèi)外機(jī)構(gòu),還出現(xiàn)了新的開源貢獻(xiàn)者。
就評(píng)測結(jié)果顯示當(dāng)前語言模型發(fā)展放緩的具體原因,智源研究院副院長兼總工程師林詠華在接受《科創(chuàng)板日報(bào)》記者采訪時(shí)表示,首先,現(xiàn)在最優(yōu)秀的語言模型已經(jīng)發(fā)展了一定的基礎(chǔ)能力,再明顯的增長不是特別容易,不能只是拼更大的參數(shù)或更多的數(shù)據(jù)這條路,而是需要更多的深入創(chuàng)新才能提升,因此,會(huì)看到更新更大的語言模型出現(xiàn)的頻率有所減緩,因此現(xiàn)在進(jìn)入了語言模型的深水區(qū)。
從全球模型的發(fā)展情況來看,模型尺寸出現(xiàn)兩極分化。11月Hugging Face下載量最高的模型顯示,高下載量出現(xiàn)在兩極分化的模型上,一類是更大更強(qiáng)的稠密模型,像Llama3.1的405B全球一個(gè)月的下載量是七八百萬,也是下載量最高之一。但是剩下的高下載量則很多是7B或以下的小模型。
“其次,可以看到多模態(tài)模型的潛力。目前多模態(tài)模型的需求蓬勃發(fā)展,但是,相較語言模型來說,其在基礎(chǔ)能力上有明顯的提升空間。2025年,預(yù)計(jì)多模態(tài)模型會(huì)層出不窮,包括開源模型,會(huì)有更多新的多模態(tài)模型?!?林詠華說。
“百?!痹u(píng)測結(jié)果:文生視頻模型畫質(zhì)進(jìn)一步提升 但普遍存在大幅度動(dòng)作變形等問題
智源研究院評(píng)測結(jié)果顯示,語言模型,針對(duì)一般中文場景的開放式問答或者生成任務(wù),模型能力已趨于飽和穩(wěn)定,但是復(fù)雜場景任務(wù)的表現(xiàn),國內(nèi)頭部語言模型仍然與國際一流水平存在顯著差距。
在語言模型主觀評(píng)測重點(diǎn)考察模型中文能力方面,結(jié)果顯示字節(jié)跳動(dòng)Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排名第五;在語言模型客觀評(píng)測中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴Qwen-max-0919、字節(jié)跳動(dòng)Doubao-pro-32k-preview位居第三、第四,Meta Llama-3.3-70B-Instruct排名前五。
在視覺語言多模態(tài)模型方面,雖然開源模型架構(gòu)趨同(語言塔+視覺塔),但表現(xiàn)不一,其中較好的開源模型在圖文理解任務(wù)上正在縮小與頭部閉源模型的能力差距,而長尾視覺知識(shí)與文字識(shí)別以及復(fù)雜圖文數(shù)據(jù)分析能力仍有提升空間。評(píng)測結(jié)果顯示,OpenAI GPT-4o-2024-11-20與字節(jié)跳動(dòng)Doubao-Pro-Vision-32k-241028先后領(lǐng)先于Anthropic Claude-3-5-sonnet-20241022,阿里巴巴Qwen2-VL-72B-Instruct和Google Gemini-1.5-Pro緊隨其后。
在文生圖多模態(tài)模型方面,今年上半年參評(píng)的模型普遍無法生成正確的中文文字,但此次參評(píng)的頭部模型已經(jīng)具備中文文字生成能力,但整體普遍存在復(fù)雜場景人物變形的情況,針對(duì)常識(shí)或知識(shí)性推理任務(wù),小于3的數(shù)量關(guān)系任務(wù)表現(xiàn)有所提升,大于3的數(shù)量關(guān)系依然無法處理,涉及中國文化和古詩詞理解的場景對(duì)于模型而言是不小的挑戰(zhàn)。評(píng)測結(jié)果顯示,騰訊Hunyuan Image位列第一,字節(jié)跳動(dòng)Doubao image v2.1、Ideogram 2.0分居第二、第三,OpenAI DALL·E 3、快手可圖次之。
在文生視頻多模態(tài)模型方面,畫質(zhì)進(jìn)一步提升,動(dòng)態(tài)性更強(qiáng),鏡頭語言更豐富,專場更流暢,但普遍存在大幅度動(dòng)作變形,無法理解物理規(guī)律,物體消失、閃現(xiàn)、穿模的情況。評(píng)測結(jié)果顯示,快手可靈1.5(高品質(zhì))、字節(jié)跳動(dòng)即夢 P2.0 pro、愛詩科技PixVerse V3、MiniMax 海螺AI、Pika 1.5位列前五。
2025年基于語言模型會(huì)產(chǎn)生更多Agent
隨著技術(shù)的不斷成熟和應(yīng)用場景的不斷拓展,多模態(tài)大模型也在各個(gè)領(lǐng)域發(fā)揮越來越重要的作用。相應(yīng)的各家大模型廠商去年目標(biāo)多是追逐AGI,今年則開始發(fā)力應(yīng)用。
對(duì)于AGI和應(yīng)用這兩者的優(yōu)先級(jí),林詠華告訴《科創(chuàng)板日報(bào)》記者,通過整理今年5月和12月的兩組對(duì)比數(shù)據(jù),可以看到,以語言模型為例,追逐更大更強(qiáng)的語言模型,尤其是開源模型的這些廠商數(shù)量在減少;同時(shí),本次評(píng)測的開源模型中,國內(nèi)新出現(xiàn)的廠商較少。
因此,對(duì)于國內(nèi)大模型廠商來說,很多廠商經(jīng)過一年多的訓(xùn)練,其模型能力已經(jīng)到達(dá)了一定應(yīng)用的可能性,需要盡快做應(yīng)用落地。
林詠華進(jìn)一步表示,如今依然還有少部分的廠商和機(jī)構(gòu)會(huì)在AGI的路上不斷往前走,例如META今年推出了405B的超大模型,其全球下載量也很大,智源發(fā)布的Emu3也是完全原生的多模態(tài)世界模型等。因此目前的趨勢是,全球開始有分層有分工地追求AGI,一部分不斷地追求更強(qiáng)更大的AGI模型,另一部分則希望有好的模型做應(yīng)用嘗試。
但是,今年沒有特別明顯的killer APP出來,智源從評(píng)測的眾多模型來看,明年AI應(yīng)用的趨勢會(huì)體現(xiàn)在哪些方面?
對(duì)此,林詠華告訴《科創(chuàng)板日報(bào)》記者,AI應(yīng)用的具體情況和模型發(fā)展到什么階段相關(guān)。例如,今年很多AI應(yīng)用是以語言模型為基礎(chǔ),經(jīng)過2023年語言模型的蓬勃發(fā)展,2024年語言模型基礎(chǔ)能力水平較高,并開始發(fā)展復(fù)雜的應(yīng)用能力,所以出現(xiàn)以各種的語言模型為支撐的AI應(yīng)用。
2025年,語言模型會(huì)繼續(xù)往前發(fā)展,基于語言模型會(huì)產(chǎn)生更多的Agent,然后圍繞Agent來做更復(fù)雜的AI應(yīng)用和系統(tǒng),這也是明年的熱點(diǎn)之一。
同時(shí),經(jīng)過今年的發(fā)展,無論是開源模型,還是閉源模型,2025年都會(huì)出現(xiàn)基于文生圖、尤其是文生視頻的應(yīng)用。
另外,如果從模型的能力上看,以VLM多模態(tài)為代表的跨模態(tài)視覺語言模型,在企業(yè)的落地場景會(huì)有很多,現(xiàn)在有一些已經(jīng)落地,有一些還在探索當(dāng)中。明年把基礎(chǔ)能力做得更好,也會(huì)形成新的AI應(yīng)用。
如今,互聯(lián)網(wǎng)科技巨頭大力推多模態(tài)大模型,而且算力和算法等也是這些巨頭的優(yōu)勢。那么,相對(duì)于巨頭以及先崛起的AI六小龍,目前正待崛起的小的模型企業(yè),他們的機(jī)會(huì)在哪?
林詠華認(rèn)為,多模態(tài)模型有不同的訓(xùn)練方法,如果用VLM的做法,通過語言塔加視覺塔為基礎(chǔ)進(jìn)行訓(xùn)練,不需要完全從頭開始。 此外,多模態(tài)模型上可以有不同的創(chuàng)新,比如,不同模態(tài)的連接方式、預(yù)處理、后處理、微調(diào)學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等,是那些資金不強(qiáng)但是創(chuàng)新能力足夠強(qiáng)的團(tuán)隊(duì)可以做的事情。
此外,林詠華還表示,互聯(lián)網(wǎng)大廠在模型的技術(shù)能力上有兩方面的優(yōu)勢。
“首先,語言模型需要更多的用戶使用,才能起到數(shù)據(jù)飛輪的作用,互聯(lián)網(wǎng)大廠有很強(qiáng)的流量優(yōu)勢,對(duì)比流量小的模型廠商有天然的優(yōu)勢;其次,在文生圖、文生視頻方面,像字節(jié)、快手的優(yōu)勢在于數(shù)據(jù),其本身有短視頻平臺(tái),積累了相關(guān)的高質(zhì)量數(shù)據(jù),會(huì)比其他的非互聯(lián)網(wǎng)廠商有明顯的優(yōu)勢。”