按綜合總分排名,Anthropic、階躍星辰/財(cái)躍星辰和阿里巴巴的參評(píng)模型位列前三。
2024年12月13日,上海人工智能實(shí)驗(yàn)室聯(lián)合上海財(cái)經(jīng)大學(xué)、上海庫(kù)帕思科技有限公司發(fā)布《金融大模型應(yīng)用評(píng)測(cè)報(bào)告(2024)》(以下簡(jiǎn)稱(chēng)《報(bào)告》)。 評(píng)測(cè)圍繞金融行業(yè)的核心業(yè)務(wù)需求及大模型在金融場(chǎng)景中的適配性,結(jié)合銀行、證券、保險(xiǎn)、基金等重點(diǎn)應(yīng)用場(chǎng)景,對(duì)14家機(jī)構(gòu)的20個(gè)主流大模型的金融專(zhuān)業(yè)能力進(jìn)行了評(píng)測(cè)。
結(jié)果顯示,參評(píng)模型在金融安全與價(jià)值對(duì)齊方面表現(xiàn)優(yōu)異,體現(xiàn)出行業(yè)對(duì)關(guān)鍵合規(guī)性和倫理問(wèn)題普遍高度重視;而在模型基礎(chǔ)能力、金融專(zhuān)業(yè)認(rèn)知,特別是多模態(tài)處理能力等方面,參評(píng)模型存在一定短板,尤其是在復(fù)雜金融業(yè)務(wù)場(chǎng)景中的表現(xiàn)亟待提升。按綜合總分排名,Anthropic、階躍星辰/財(cái)躍星辰和阿里巴巴的參評(píng)模型位列前三。
未來(lái),金融領(lǐng)域評(píng)測(cè)報(bào)告將以每年一至兩次的頻率發(fā)布,旨在為行業(yè)提供客觀評(píng)測(cè)結(jié)果與方向指引參考,助力金融科技在智能化、專(zhuān)業(yè)化、精細(xì)化方向上進(jìn)一步突破與發(fā)展。
訪問(wèn)鏈接或掃描二維碼可下載摘要版《報(bào)告》:
https://img.shlab.org.cn/pjlab/files/2024/12/638695925361130000.pdf
報(bào)告摘要
?參評(píng)模型在金融安全與價(jià)值觀對(duì)齊方面表現(xiàn)優(yōu)異,體現(xiàn)出行業(yè)對(duì)關(guān)鍵合規(guī)性和倫理問(wèn)題高度重視。
?在模型基礎(chǔ)能力、金融專(zhuān)業(yè)認(rèn)知能力,特別是多模態(tài)處理能力等方面,參評(píng)模型存在一定短板,尤其是在復(fù)雜金融業(yè)務(wù)場(chǎng)景中的表現(xiàn)亟待提升。
?在金融業(yè)務(wù)輔助拓展能力維度,模型在智能投資顧問(wèn)方面的整體表現(xiàn)尤為亮眼,這既反映了大模型的應(yīng)用潛力,也揭示了評(píng)測(cè)數(shù)據(jù)集在構(gòu)建業(yè)務(wù)方向的豐富性和復(fù)雜程度方面仍有較大提升空間。
?隨著大模型在金融業(yè)務(wù)場(chǎng)景應(yīng)用的深入和擴(kuò)展,安全問(wèn)題或以更隱蔽和多變的形式顯現(xiàn)。因此,持續(xù)迭代更新安全評(píng)測(cè)方法,強(qiáng)化相關(guān)數(shù)據(jù)集建設(shè)將是未來(lái)的重點(diǎn)任務(wù)。
?高質(zhì)量金融語(yǔ)料數(shù)據(jù)集的可持續(xù)供給對(duì)提升模型能力具有決定性意義。特別是在多模態(tài)金融數(shù)據(jù)集方面,當(dāng)前的供給不足已成為業(yè)界共同面臨的瓶頸。
為促進(jìn)大模型的產(chǎn)業(yè)應(yīng)用與生態(tài)發(fā)展,上海AI實(shí)驗(yàn)室構(gòu)建了大模型開(kāi)源開(kāi)放評(píng)測(cè)體系司南(OpenCompass),客觀中立地為大模型技術(shù)創(chuàng)新提供堅(jiān)實(shí)的技術(shù)支撐;同時(shí)積極與業(yè)界共建垂類(lèi)評(píng)測(cè),通過(guò)構(gòu)建評(píng)測(cè)基準(zhǔn)-評(píng)測(cè)-應(yīng)用閉環(huán),發(fā)揮評(píng)測(cè)數(shù)據(jù)價(jià)值,為產(chǎn)業(yè)應(yīng)用提供方向牽引與安全保障。
本次評(píng)測(cè)的開(kāi)展,旨在切實(shí)提升金融服務(wù)的智能化水平,降低企業(yè)數(shù)字化轉(zhuǎn)型成本,并積極探索金融垂直領(lǐng)域大模型應(yīng)用的新理念、新機(jī)制和新手段,進(jìn)一步推動(dòng)金融科技創(chuàng)新應(yīng)用的發(fā)展。
評(píng)測(cè)以司南平臺(tái)為核心工具,圍繞金融行業(yè)的核心業(yè)務(wù)需求及大模型在金融場(chǎng)景中的適配性,結(jié)合銀行、證券、保險(xiǎn)、基金等重點(diǎn)應(yīng)用場(chǎng)景,形成“模型基礎(chǔ)能力”“金融安全與價(jià)值對(duì)齊能力”“金融風(fēng)險(xiǎn)控制能力”“金融專(zhuān)業(yè)認(rèn)知能力”“金融業(yè)務(wù)輔助拓展能力” 等五大測(cè)評(píng)維度。基于《金融大模型應(yīng)用評(píng)測(cè)指南》(T/SAIAS 019—2024)團(tuán)體標(biāo)準(zhǔn),評(píng)測(cè)采用了《庫(kù)帕思金融大模型評(píng)測(cè)數(shù)據(jù)集(2024版)》。評(píng)測(cè)對(duì)象包括14家機(jī)構(gòu)的20個(gè)主流大模型,含閉源和開(kāi)源模型,分別通過(guò)購(gòu)買(mǎi)API 接口和下載部署的方式進(jìn)行測(cè)試。綜合評(píng)估分?jǐn)?shù)采用線性加權(quán)模型,對(duì)每項(xiàng)指標(biāo)進(jìn)行標(biāo)準(zhǔn)化處理后加權(quán)平均計(jì)算。
《報(bào)告》顯示,參評(píng)模型綜合平均得分為71.9。在5大評(píng)測(cè)維度中,參評(píng)模型在金融安全與價(jià)值對(duì)齊能力維度表現(xiàn)最為出色,平均得分達(dá)92.8。在模型基礎(chǔ)能力和金融專(zhuān)業(yè)認(rèn)知能力(含多模態(tài)任務(wù))維度得分較低,分別為59.8和52.0,且各模型表現(xiàn)差異較大。
綜合總分排名前三的模型依次為:
1.Anthropic Claude-3.5-Sonnet-20240620, 79.8分
2.階躍星辰/財(cái)躍星辰 Step-2-16k/Finstep,79.7分
3.阿里巴巴 Qwen2.5-72b-Instruct/Qwen2-VL-72B,77.6分
本次測(cè)評(píng)一定程度上展示了大模型在金融應(yīng)用方向的能力現(xiàn)狀,各模型整體表現(xiàn)基本滿足當(dāng)下場(chǎng)景需求,其中金融安全與價(jià)值對(duì)齊表現(xiàn)優(yōu)異,但仍存在較大提升空間,如金融專(zhuān)業(yè)認(rèn)知和多模態(tài)處理能力。本次評(píng)測(cè)是依據(jù)《金融大模型應(yīng)用評(píng)測(cè)指南》(T/SAIAS 019—2024)團(tuán)體標(biāo)準(zhǔn),使用《庫(kù)帕思金融大模型評(píng)測(cè)數(shù)據(jù)集(2024版)》,通過(guò)司南大模型開(kāi)源開(kāi)放評(píng)測(cè)體系對(duì)部分通用大模型和金融垂類(lèi)大模型的一次抽樣測(cè)試。評(píng)測(cè)并未涵蓋所有的金融場(chǎng)景和模型,評(píng)測(cè)數(shù)據(jù)集的部分樣例已在OpenDataLab社區(qū)公開(kāi)。
本次評(píng)測(cè)是相關(guān)工作的第一步,通過(guò)選取部分模型進(jìn)行評(píng)估來(lái)對(duì)方法進(jìn)行驗(yàn)證。未來(lái),還將每年開(kāi)展至少1-2次評(píng)測(cè),并逐步擴(kuò)大測(cè)試范圍,開(kāi)放和共建評(píng)測(cè)工具、評(píng)測(cè)數(shù)據(jù)集和評(píng)測(cè)方法體系。同時(shí),將與金融行業(yè)各方協(xié)同,進(jìn)一步強(qiáng)化以金融業(yè)務(wù)為中心的模型評(píng)測(cè)體系建設(shè),加強(qiáng)高質(zhì)量金融語(yǔ)料建設(shè),結(jié)合相關(guān)標(biāo)準(zhǔn);加強(qiáng)對(duì)大模型應(yīng)用實(shí)踐的引導(dǎo)與規(guī)范,并與實(shí)踐緊密結(jié)合,以更好推動(dòng)大模型技術(shù)在金融領(lǐng)域的落地應(yīng)用。