欧美日本亚洲一区二区,欧美精品一区二区精油,十分钟免费高清视频大全

金融大模型應(yīng)用評(píng)測(cè)報(bào)告出爐，安全對(duì)齊表現(xiàn)優(yōu)異，專(zhuān)業(yè)認(rèn)知、多模態(tài)處理能力亟待提升

2024-12-13 12:47 星期五

按綜合總分排名，Anthropic、階躍星辰/財(cái)躍星辰和阿里巴巴的參評(píng)模型位列前三。

2024年12月13日，上海人工智能實(shí)驗(yàn)室聯(lián)合上海財(cái)經(jīng)大學(xué)、上海庫(kù)帕思科技有限公司發(fā)布《金融大模型應(yīng)用評(píng)測(cè)報(bào)告（2024）》（以下簡(jiǎn)稱(chēng)《報(bào)告》）。評(píng)測(cè)圍繞金融行業(yè)的核心業(yè)務(wù)需求及大模型在金融場(chǎng)景中的適配性，結(jié)合銀行、證券、保險(xiǎn)、基金等重點(diǎn)應(yīng)用場(chǎng)景，對(duì)14家機(jī)構(gòu)的20個(gè)主流大模型的金融專(zhuān)業(yè)能力進(jìn)行了評(píng)測(cè)。

結(jié)果顯示，參評(píng)模型在金融安全與價(jià)值對(duì)齊方面表現(xiàn)優(yōu)異，體現(xiàn)出行業(yè)對(duì)關(guān)鍵合規(guī)性和倫理問(wèn)題普遍高度重視；而在模型基礎(chǔ)能力、金融專(zhuān)業(yè)認(rèn)知，特別是多模態(tài)處理能力等方面，參評(píng)模型存在一定短板，尤其是在復(fù)雜金融業(yè)務(wù)場(chǎng)景中的表現(xiàn)亟待提升。按綜合總分排名，Anthropic、階躍星辰/財(cái)躍星辰和阿里巴巴的參評(píng)模型位列前三。

未來(lái)，金融領(lǐng)域評(píng)測(cè)報(bào)告將以每年一至兩次的頻率發(fā)布，旨在為行業(yè)提供客觀評(píng)測(cè)結(jié)果與方向指引參考，助力金融科技在智能化、專(zhuān)業(yè)化、精細(xì)化方向上進(jìn)一步突破與發(fā)展。

訪問(wèn)鏈接或掃描二維碼可下載摘要版《報(bào)告》：

https://img.shlab.org.cn/pjlab/files/2024/12/638695925361130000.pdf

報(bào)告摘要

?參評(píng)模型在金融安全與價(jià)值觀對(duì)齊方面表現(xiàn)優(yōu)異，體現(xiàn)出行業(yè)對(duì)關(guān)鍵合規(guī)性和倫理問(wèn)題高度重視。

?在模型基礎(chǔ)能力、金融專(zhuān)業(yè)認(rèn)知能力，特別是多模態(tài)處理能力等方面，參評(píng)模型存在一定短板，尤其是在復(fù)雜金融業(yè)務(wù)場(chǎng)景中的表現(xiàn)亟待提升。

?在金融業(yè)務(wù)輔助拓展能力維度，模型在智能投資顧問(wèn)方面的整體表現(xiàn)尤為亮眼，這既反映了大模型的應(yīng)用潛力，也揭示了評(píng)測(cè)數(shù)據(jù)集在構(gòu)建業(yè)務(wù)方向的豐富性和復(fù)雜程度方面仍有較大提升空間。

?隨著大模型在金融業(yè)務(wù)場(chǎng)景應(yīng)用的深入和擴(kuò)展，安全問(wèn)題或以更隱蔽和多變的形式顯現(xiàn)。因此，持續(xù)迭代更新安全評(píng)測(cè)方法，強(qiáng)化相關(guān)數(shù)據(jù)集建設(shè)將是未來(lái)的重點(diǎn)任務(wù)。

?高質(zhì)量金融語(yǔ)料數(shù)據(jù)集的可持續(xù)供給對(duì)提升模型能力具有決定性意義。特別是在多模態(tài)金融數(shù)據(jù)集方面，當(dāng)前的供給不足已成為業(yè)界共同面臨的瓶頸。

為促進(jìn)大模型的產(chǎn)業(yè)應(yīng)用與生態(tài)發(fā)展，上海AI實(shí)驗(yàn)室構(gòu)建了大模型開(kāi)源開(kāi)放評(píng)測(cè)體系司南（OpenCompass），客觀中立地為大模型技術(shù)創(chuàng)新提供堅(jiān)實(shí)的技術(shù)支撐；同時(shí)積極與業(yè)界共建垂類(lèi)評(píng)測(cè)，通過(guò)構(gòu)建評(píng)測(cè)基準(zhǔn)-評(píng)測(cè)-應(yīng)用閉環(huán)，發(fā)揮評(píng)測(cè)數(shù)據(jù)價(jià)值，為產(chǎn)業(yè)應(yīng)用提供方向牽引與安全保障。

本次評(píng)測(cè)的開(kāi)展，旨在切實(shí)提升金融服務(wù)的智能化水平，降低企業(yè)數(shù)字化轉(zhuǎn)型成本，并積極探索金融垂直領(lǐng)域大模型應(yīng)用的新理念、新機(jī)制和新手段，進(jìn)一步推動(dòng)金融科技創(chuàng)新應(yīng)用的發(fā)展。

評(píng)測(cè)以司南平臺(tái)為核心工具，圍繞金融行業(yè)的核心業(yè)務(wù)需求及大模型在金融場(chǎng)景中的適配性，結(jié)合銀行、證券、保險(xiǎn)、基金等重點(diǎn)應(yīng)用場(chǎng)景，形成“模型基礎(chǔ)能力”“金融安全與價(jià)值對(duì)齊能力”“金融風(fēng)險(xiǎn)控制能力”“金融專(zhuān)業(yè)認(rèn)知能力”“金融業(yè)務(wù)輔助拓展能力” 等五大測(cè)評(píng)維度。基于《金融大模型應(yīng)用評(píng)測(cè)指南》（T/SAIAS 019—2024）團(tuán)體標(biāo)準(zhǔn)，評(píng)測(cè)采用了《庫(kù)帕思金融大模型評(píng)測(cè)數(shù)據(jù)集（2024版）》。評(píng)測(cè)對(duì)象包括14家機(jī)構(gòu)的20個(gè)主流大模型，含閉源和開(kāi)源模型，分別通過(guò)購(gòu)買(mǎi)API 接口和下載部署的方式進(jìn)行測(cè)試。綜合評(píng)估分?jǐn)?shù)采用線性加權(quán)模型，對(duì)每項(xiàng)指標(biāo)進(jìn)行標(biāo)準(zhǔn)化處理后加權(quán)平均計(jì)算。

《報(bào)告》顯示，參評(píng)模型綜合平均得分為71.9。在5大評(píng)測(cè)維度中，參評(píng)模型在金融安全與價(jià)值對(duì)齊能力維度表現(xiàn)最為出色，平均得分達(dá)92.8。在模型基礎(chǔ)能力和金融專(zhuān)業(yè)認(rèn)知能力（含多模態(tài)任務(wù)）維度得分較低，分別為59.8和52.0，且各模型表現(xiàn)差異較大。

綜合總分排名前三的模型依次為：

1.Anthropic Claude-3.5-Sonnet-20240620， 79.8分

2.階躍星辰/財(cái)躍星辰 Step-2-16k/Finstep，79.7分

3.阿里巴巴 Qwen2.5-72b-Instruct/Qwen2-VL-72B，77.6分

本次測(cè)評(píng)一定程度上展示了大模型在金融應(yīng)用方向的能力現(xiàn)狀，各模型整體表現(xiàn)基本滿足當(dāng)下場(chǎng)景需求，其中金融安全與價(jià)值對(duì)齊表現(xiàn)優(yōu)異，但仍存在較大提升空間，如金融專(zhuān)業(yè)認(rèn)知和多模態(tài)處理能力。本次評(píng)測(cè)是依據(jù)《金融大模型應(yīng)用評(píng)測(cè)指南》（T/SAIAS 019—2024）團(tuán)體標(biāo)準(zhǔn)，使用《庫(kù)帕思金融大模型評(píng)測(cè)數(shù)據(jù)集（2024版）》，通過(guò)司南大模型開(kāi)源開(kāi)放評(píng)測(cè)體系對(duì)部分通用大模型和金融垂類(lèi)大模型的一次抽樣測(cè)試。評(píng)測(cè)并未涵蓋所有的金融場(chǎng)景和模型，評(píng)測(cè)數(shù)據(jù)集的部分樣例已在OpenDataLab社區(qū)公開(kāi)。

本次評(píng)測(cè)是相關(guān)工作的第一步，通過(guò)選取部分模型進(jìn)行評(píng)估來(lái)對(duì)方法進(jìn)行驗(yàn)證。未來(lái)，還將每年開(kāi)展至少1-2次評(píng)測(cè)，并逐步擴(kuò)大測(cè)試范圍，開(kāi)放和共建評(píng)測(cè)工具、評(píng)測(cè)數(shù)據(jù)集和評(píng)測(cè)方法體系。同時(shí)，將與金融行業(yè)各方協(xié)同，進(jìn)一步強(qiáng)化以金融業(yè)務(wù)為中心的模型評(píng)測(cè)體系建設(shè)，加強(qiáng)高質(zhì)量金融語(yǔ)料建設(shè)，結(jié)合相關(guān)標(biāo)準(zhǔn)；加強(qiáng)對(duì)大模型應(yīng)用實(shí)踐的引導(dǎo)與規(guī)范，并與實(shí)踐緊密結(jié)合，以更好推動(dòng)大模型技術(shù)在金融領(lǐng)域的落地應(yīng)用。