国产亚洲欧美日韩在线观看一区,久久久无码国产一区二区,亚洲国产精品网站在线播放

中信證券：OpenAI o1推理升級，關(guān)注強化學習新機遇

2024-09-18 08:39 星期三

中信證券楊澤原、丁奇、馬慶劉??

①新模型在訓練和推理端同步推動算力需求倍增，算力產(chǎn)業(yè)鏈景氣度持續(xù)上升；
②應用端進一步降低各領(lǐng)域應用開發(fā)成本，推理性能提升擴展強邏輯場景覆蓋，加速各領(lǐng)域應用落地。

中信證券研報指出，OpenAI o1模型升級思維鏈和強化學習，重點提升模型推理性能，代碼、數(shù)學、科學等強邏輯領(lǐng)域能力大幅提升，持續(xù)探索AGI實現(xiàn)新方式。新模型在訓練和推理端同步推動算力需求倍增，算力產(chǎn)業(yè)鏈景氣度持續(xù)上升；應用端進一步降低各領(lǐng)域應用開發(fā)成本，推理性能提升擴展強邏輯場景覆蓋，加速各領(lǐng)域應用落地。建議持續(xù)關(guān)注相關(guān)領(lǐng)域的頭部AI公司。

▍事項：北京時間9月13日凌晨， OpenAI發(fā)布o1模型；OpenAI o1具備復雜推理能力，代碼、數(shù)學、科學領(lǐng)域達到頂尖水平。

o1可將任務拆解成多個簡單任務，構(gòu)成完整思維鏈并進行優(yōu)化，提升最終回答的邏輯性、綜合性、準確性。當前preview版本已開放給5級API用戶，并將在下周向企業(yè)和學術(shù)用戶優(yōu)先開放。根據(jù)公司官網(wǎng)，編程方面，模型在Codeforces競賽上超過83%的專業(yè)人員。數(shù)學方面，以2024年的美國數(shù)學邀請賽為測試集，o1單次生成可解決74%的問題，多次生成后進一步提升正確率到83%，而GPT-4只能解決12%的問題。科學方面，模型GPQA Dimond測試集正確率78%，超越人類專家70%水平。

▍技術(shù)解析：強化學習+LLM尋求最優(yōu)路徑，獎勵模型泛化問題尚需驗證。

參考OpenAI官網(wǎng)及DeepMind的論文Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters（Charlie Snell，Jaehoon Lee，Kelvin Xu等），我們推測o1模型將復雜任務拆解成多任務構(gòu)成的思維鏈，并采用類似強化學習（RL）的模式，通過各節(jié)點行為優(yōu)化尋求最優(yōu)路徑。其中，獎勵模型決定優(yōu)化方向，擁有明確評判標準的領(lǐng)域更具優(yōu)勢，因此o1模型在代碼、數(shù)學、科學領(lǐng)域表現(xiàn)更優(yōu)，而在寫作、編輯等任務上表現(xiàn)暫時不及GPT-4o，未來獎勵模型能否準確評估其他的輸出結(jié)果，是相關(guān)技術(shù)路線發(fā)展的核心問題之一。

▍算力投入：強化學習帶來算力投入和推理成本倍增。

根據(jù)OpenAI測算，訓練和推理端用于強化學習的算力投入與模型效果依然成正比，大模型獲得全新有效算力投入途徑，有望帶來數(shù)倍于傳統(tǒng)大模型的算力需求。其中模型推理端算力需求增長顯著，根據(jù)公司官網(wǎng)，當前o1-preview模型生成時間可達分鐘級，API定價輸入15美元/百萬Token和輸出60美元/百萬Token，較GPT-4o輸入5美元/百萬Token和輸出15美元/百萬Token的定價有數(shù)倍增長。根據(jù)英偉達CEO黃仁勛在Communacopia + Technology會議上的發(fā)言，海外Blackwell系列需求旺盛，算力行業(yè)景氣度持續(xù)上行。

▍應用展望：加速開發(fā)成本優(yōu)化，Agent能力提升B端率先受益。

短期聚焦代碼、數(shù)學、科學等強邏輯領(lǐng)域，其中AI代碼生成將推動全領(lǐng)域開發(fā)效率提升。根據(jù)微軟財報，海外GitHub Copilot Q1付費用戶數(shù)超180萬，同比，國內(nèi)工商銀行軟開中心編碼助手生成代碼量占總代碼量的比例超32%，o1模型代碼能力，有望進一步提升AI輔助開發(fā)效率。未來模型通過獎勵模型泛化有望擴展更多行業(yè)，加速對邊緣行業(yè)和場景的覆蓋，思維鏈結(jié)合工具使用、知識庫等能力應用，可以形成更強Agent性能，服務企業(yè)匯總、分析、預警、預測、管理等強邏輯任務需求。

▍風險因素：

AI核心技術(shù)發(fā)展不及預期，AI被不當使用造成嚴重社會影響，企業(yè)數(shù)據(jù)安全風險，信息安全風險，行業(yè)競爭加劇。

▍投資策略：

OpenAI o1模型重點升級思維鏈能力，結(jié)合強化學習，提升代碼、數(shù)學、科學等強邏輯領(lǐng)域能力，持續(xù)探索AGI實現(xiàn)方式。新模型在訓練和推理端同步推動算力需求倍增，算力產(chǎn)業(yè)鏈景氣度持續(xù)上升；應用端進一步降低各領(lǐng)域應用開發(fā)成本，推理性能提升擴展強邏輯場景覆蓋，C端和B端應用有望加速。建議持續(xù)關(guān)注相關(guān)領(lǐng)域的頭部AI公司。

閱77.31W

我要評論

反饋意見