中信證券:OpenAI o1推理升級,關(guān)注強化學習新機遇
2024-09-18 08:39 星期三
中信證券 楊澤原、丁奇、馬慶劉??
①新模型在訓練和推理端同步推動算力需求倍增,算力產(chǎn)業(yè)鏈景氣度持續(xù)上升;
②應用端進一步降低各領(lǐng)域應用開發(fā)成本,推理性能提升擴展強邏輯場景覆蓋,加速各領(lǐng)域應用落地。

中信證券研報指出,OpenAI o1模型升級思維鏈和強化學習,重點提升模型推理性能,代碼、數(shù)學、科學等強邏輯領(lǐng)域能力大幅提升,持續(xù)探索AGI實現(xiàn)新方式。新模型在訓練和推理端同步推動算力需求倍增,算力產(chǎn)業(yè)鏈景氣度持續(xù)上升;應用端進一步降低各領(lǐng)域應用開發(fā)成本,推理性能提升擴展強邏輯場景覆蓋,加速各領(lǐng)域應用落地。建議持續(xù)關(guān)注相關(guān)領(lǐng)域的頭部AI公司。

▍事項:北京時間9月13日凌晨, OpenAI發(fā)布o1模型;OpenAI o1具備復雜推理能力,代碼、數(shù)學、科學領(lǐng)域達到頂尖水平。

o1可將任務拆解成多個簡單任務,構(gòu)成完整思維鏈并進行優(yōu)化,提升最終回答的邏輯性、綜合性、準確性。當前preview版本已開放給5級API用戶,并將在下周向企業(yè)和學術(shù)用戶優(yōu)先開放。根據(jù)公司官網(wǎng),編程方面,模型在Codeforces競賽上超過83%的專業(yè)人員。數(shù)學方面,以2024年的美國數(shù)學邀請賽為測試集,o1單次生成可解決74%的問題,多次生成后進一步提升正確率到83%,而GPT-4只能解決12%的問題。科學方面,模型GPQA Dimond測試集正確率78%,超越人類專家70%水平。

▍技術(shù)解析:強化學習+LLM尋求最優(yōu)路徑,獎勵模型泛化問題尚需驗證。

參考OpenAI官網(wǎng)及DeepMind的論文Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters(Charlie Snell,Jaehoon Lee,Kelvin Xu等),我們推測o1模型將復雜任務拆解成多任務構(gòu)成的思維鏈,并采用類似強化學習(RL)的模式,通過各節(jié)點行為優(yōu)化尋求最優(yōu)路徑。其中,獎勵模型決定優(yōu)化方向,擁有明確評判標準的領(lǐng)域更具優(yōu)勢,因此o1模型在代碼、數(shù)學、科學領(lǐng)域表現(xiàn)更優(yōu),而在寫作、編輯等任務上表現(xiàn)暫時不及GPT-4o,未來獎勵模型能否準確評估其他的輸出結(jié)果,是相關(guān)技術(shù)路線發(fā)展的核心問題之一。

▍算力投入:強化學習帶來算力投入和推理成本倍增。

根據(jù)OpenAI測算,訓練和推理端用于強化學習的算力投入與模型效果依然成正比,大模型獲得全新有效算力投入途徑,有望帶來數(shù)倍于傳統(tǒng)大模型的算力需求。其中模型推理端算力需求增長顯著,根據(jù)公司官網(wǎng),當前o1-preview模型生成時間可達分鐘級,API定價輸入15美元/百萬Token和輸出60美元/百萬Token,較GPT-4o輸入5美元/百萬Token和輸出15美元/百萬Token的定價有數(shù)倍增長。根據(jù)英偉達CEO黃仁勛在Communacopia + Technology會議上的發(fā)言,海外Blackwell系列需求旺盛,算力行業(yè)景氣度持續(xù)上行。

▍應用展望:加速開發(fā)成本優(yōu)化,Agent能力提升B端率先受益。

短期聚焦代碼、數(shù)學、科學等強邏輯領(lǐng)域,其中AI代碼生成將推動全領(lǐng)域開發(fā)效率提升。根據(jù)微軟財報,海外GitHub Copilot Q1付費用戶數(shù)超180萬,同比,國內(nèi)工商銀行軟開中心編碼助手生成代碼量占總代碼量的比例超32%,o1模型代碼能力,有望進一步提升AI輔助開發(fā)效率。未來模型通過獎勵模型泛化有望擴展更多行業(yè),加速對邊緣行業(yè)和場景的覆蓋,思維鏈結(jié)合工具使用、知識庫等能力應用,可以形成更強Agent性能,服務企業(yè)匯總、分析、預警、預測、管理等強邏輯任務需求。

▍風險因素:

AI核心技術(shù)發(fā)展不及預期,AI被不當使用造成嚴重社會影響,企業(yè)數(shù)據(jù)安全風險,信息安全風險,行業(yè)競爭加劇。

▍投資策略:

OpenAI o1模型重點升級思維鏈能力,結(jié)合強化學習,提升代碼、數(shù)學、科學等強邏輯領(lǐng)域能力,持續(xù)探索AGI實現(xiàn)方式。新模型在訓練和推理端同步推動算力需求倍增,算力產(chǎn)業(yè)鏈景氣度持續(xù)上升;應用端進一步降低各領(lǐng)域應用開發(fā)成本,推理性能提升擴展強邏輯場景覆蓋,C端和B端應用有望加速。建議持續(xù)關(guān)注相關(guān)領(lǐng)域的頭部AI公司。

收藏
77.31W
我要評論
歡迎您發(fā)表有價值的評論,發(fā)布廣告和不和諧的評論都將會被刪除,您的賬號將禁止評論。
發(fā)表評論
要聞
股市
關(guān)聯(lián)話題
4.95W 人關(guān)注
4.16W 人關(guān)注
8698 人關(guān)注