偷窥中国老太xxxx,小小的日本在线观看中文

OpenAI直播最后一天放出“王炸”：下一代推理模型o3亮相！

原創(chuàng)

2024-12-21 08:13 星期六

財(cái)聯(lián)社瀟湘

①OpenAI將其最為重要的尖端產(chǎn)品，放在了為期12天的技術(shù)分享直播活動(dòng)的最后一天！
②周五，OpenAI發(fā)布了下一代的推理模型o3，這是今年早些時(shí)候發(fā)布的o1推理模型的升級(jí)版本；
③OpenAI聲稱，至少在某些條件下，o3模型可以接近實(shí)現(xiàn)AGI。

財(cái)聯(lián)社12月21日訊（編輯瀟湘）OpenAI將其最為重要的尖端產(chǎn)品，放在了為期12天的技術(shù)分享直播活動(dòng)的最后一天！

周五，OpenAI發(fā)布了下一代的推理模型o3，這是今年早些時(shí)候發(fā)布的o1推理模型的升級(jí)版本。更準(zhǔn)確地說(shuō)，o3是一個(gè)模型系列——就像o1一樣，同時(shí)有o3和o3-mini兩個(gè)版本，后者是一款更小的精簡(jiǎn)版模型，針對(duì)特定任務(wù)進(jìn)行了微調(diào)。

OpenAI聲稱，至少在某些條件下，o3模型可以接近實(shí)現(xiàn)AGI。

AGI是“通用人工智能”(artificial general intelligence)的縮寫(xiě)，泛指能完成人類所能完成的任何任務(wù)的人工智能。OpenAI對(duì)此有著自己的定義：“在最具經(jīng)濟(jì)價(jià)值的工作上勝過(guò)人類的高度自主系統(tǒng)”。

實(shí)現(xiàn)AGI將是一個(gè)大膽的宣言。對(duì)于OpenAI來(lái)說(shuō)，其背后也將具有現(xiàn)實(shí)意義。根據(jù)OpenAI與其親密合作伙伴和投資方微軟的協(xié)議條款，一旦OpenAI達(dá)到AGI，就沒(méi)有義務(wù)再讓微軟使用其最先進(jìn)的技術(shù)(即那些符合OpenAI AGI定義的技術(shù))。

OpenAI首席執(zhí)行官山姆·奧爾特曼(Sam Altman)介紹稱，OpenAI計(jì)劃在1月底前正式推出o3 mini，之后推出完整版的o3。該公司期待更強(qiáng)大的大型語(yǔ)言模型可以超越現(xiàn)有模型，吸引新的投資和用戶。

OpenAI在一篇博客文章中表示，o1模型已經(jīng)能夠推理復(fù)雜的任務(wù)，與以前的科學(xué)、編碼和數(shù)學(xué)模型相比，它能解決更具挑戰(zhàn)性的問(wèn)題。而OpenAI新推出的o3和o3 mini模型目前正在進(jìn)行內(nèi)部安全測(cè)試，它們將比之前推出的o1模型更加強(qiáng)大。

OpenAI兩年前發(fā)布了ChatGPT，拉開(kāi)了AI軍備競(jìng)賽的序幕。ChatGPT是一款聊天機(jī)器人，最初由版本為GPT-3.5的大型語(yǔ)言模型驅(qū)動(dòng)。OpenAI 隨后在2023年推出了GPT-4，并稱其更準(zhǔn)確、更具創(chuàng)造性。最近，OpenAI又推出了其首個(gè)推理模型o1。

該公司發(fā)言人表示，OpenAI決定不將下一代新模型命名為o2，“是出于對(duì)同名英國(guó)電信運(yùn)營(yíng)商o2的尊重”。奧爾特曼當(dāng)天在直播中也調(diào)侃稱，“按照OpenAI非常非常不擅長(zhǎng)命名的偉大傳統(tǒng)，它將被命名為o3。”

o3有多強(qiáng)大？

那么，o3具體的表現(xiàn)究竟能有多強(qiáng)大呢？

根據(jù)OpenAI的介紹，o3模型在ARC-AGI基準(zhǔn)上獲得了破紀(jì)錄的分?jǐn)?shù)。ARC-AGI由Keras之父Fran ? ois Chollet開(kāi)發(fā)，主要是通過(guò)圖形邏輯推理來(lái)測(cè)試模型的推理能力。以100%為最高分的ARC-AGI評(píng)估結(jié)果顯示，在低計(jì)算場(chǎng)景中，o3得分為75.7%，而在高計(jì)算測(cè)試中，它達(dá)到了87.5%。

這標(biāo)志著，o3的最佳成績(jī)超過(guò)了標(biāo)志著達(dá)到人類水平的門檻85%。作為對(duì)比，目前開(kāi)放的o1模型的得分僅在25%到32%之間。o3的表現(xiàn)幾乎是o1的逾三倍。

在其他基準(zhǔn)測(cè)試中，o3也明顯脫穎而出。

在衡量編程能力的Codeforces Elo評(píng)分中，o3取得了2727的Elo評(píng)分，而o1評(píng)分僅為1891。事實(shí)上，o3 mini在中等推理時(shí)間模式的表現(xiàn)也已足以超越o1。

在OpenAI于8月推出的SWE-bench Verified代碼生成評(píng)估基準(zhǔn)中，o3的準(zhǔn)確率為71.7%，比o1高出了22.8個(gè)百分點(diǎn)。

o3還在2024年美國(guó)AIME數(shù)學(xué)競(jìng)賽中取得了96.7%準(zhǔn)確率的高分，只缺了一道題，并在GPQA Diamond(一套研究生水平的生物、物理和化學(xué)試題)中取得了87.7%準(zhǔn)確率的高分。

尤為值得一提的是，o3在EpochAI的“FrontierMath”基準(zhǔn)測(cè)試中創(chuàng)造了新紀(jì)錄，解決了25.2%的問(wèn)題——在該項(xiàng)測(cè)試中沒(méi)有其他模型能超過(guò)2%。

Epoch AI此前聯(lián)合六十余位全世界的數(shù)學(xué)家，其中包括教授、IMO命題人、菲爾茲獎(jiǎng)獲得者，共同推出了全新的數(shù)學(xué)基準(zhǔn)FrontierMath。這些數(shù)學(xué)問(wèn)題從奧賽難度到當(dāng)今的數(shù)學(xué)前沿，包含了目前數(shù)學(xué)研究的所有主要分支——從數(shù)論和實(shí)數(shù)分析中的計(jì)算密集型問(wèn)題到代數(shù)幾何和群論中的抽象問(wèn)題。

行業(yè)競(jìng)爭(zhēng)與風(fēng)險(xiǎn)

毫無(wú)疑問(wèn)，o3模型在上述測(cè)試中的表現(xiàn)，足以令人感到驚艷。無(wú)論在軟件工程、編寫(xiě)代碼，還是競(jìng)賽數(shù)學(xué)、掌握人類博士級(jí)別的自然科學(xué)知識(shí)能力方面，o3都明顯高出o1一籌。

OpenAI總裁Greg Brockman表示，“我們最新的推理模型o3是一個(gè)突破，在我們最困難的基準(zhǔn)上有了階躍函數(shù)的改進(jìn)。我們現(xiàn)在開(kāi)始安全測(cè)試和紅隊(duì)演練?！?/p>

而邁向類人智能的大跨步突破，顯然也會(huì)引發(fā)一些人士對(duì)AI安全性的擔(dān)心。

風(fēng)險(xiǎn)可能確實(shí)存在。人工智能安全測(cè)試人員發(fā)現(xiàn)，與傳統(tǒng)的“非推理”模型相比，o1的推理能力便已使其試圖欺騙人類用戶的比例更高，而在這方面，Meta、Anthropic和谷歌的領(lǐng)先人工智能模型也是如此。

o3試圖欺騙用戶的比例可能比它的前身更高；一旦未來(lái)OpenAI的紅隊(duì)測(cè)試結(jié)果出爐，人們或許便能知道具體情況。奧爾特曼對(duì)此也表示，在OpenAI發(fā)布新的推理模型之前，他更希望有一個(gè)聯(lián)邦測(cè)試框架來(lái)指導(dǎo)監(jiān)控和降低這些模型的風(fēng)險(xiǎn)。

在公開(kāi)發(fā)布o(jì)3模型之前，OpenAI也將開(kāi)放外部研究人員測(cè)試o3模型的申請(qǐng)流程，申請(qǐng)將于1月10日截止。

近期，在OpenAI首批推理模型o1發(fā)布之后，一些該公司的主要競(jìng)爭(zhēng)對(duì)手也已紛紛推出了推理模型。在本月早些時(shí)候，谷歌就發(fā)布了其旗艦?zāi)Ｐ虶emini的新版本，據(jù)稱其速度是上一代模型的兩倍，可以“思考、記憶、計(jì)劃，甚至代表你采取行動(dòng)”。Meta首席執(zhí)行官馬克·扎克伯格最近也透露，計(jì)劃于明年推出Llama 4。

這些動(dòng)向表明人工智能領(lǐng)域的競(jìng)爭(zhēng)目前正日益激烈，各方都在努力創(chuàng)造能夠解決復(fù)雜問(wèn)題的更為智能的模型。

而OpenAI周五o3模型的最新亮相，也為其為期12天的直播產(chǎn)品發(fā)布會(huì)畫(huà)上了圓滿句號(hào)。在早前的直播中，這家初創(chuàng)公司推出了更昂貴的新ChatGPT Pro訂閱選項(xiàng)(每月200美元)，并正式對(duì)外推出了AI視頻生成模型Sora Turbo以及其他新產(chǎn)品。ChatGPT搜索功能也全面升級(jí)，新增地圖集成、實(shí)時(shí)搜索等功能，向所有用戶開(kāi)放。

閱80.57W

我要評(píng)論

反饋意見(jiàn)