馬斯克發(fā)布Grok 2測試版 邏輯能力更強(qiáng) 新增文生圖功能
原創(chuàng)
2024-08-14 21:46 星期三
科創(chuàng)板日報(bào) 宋子喬
①目前僅X Premium及Premium+用戶可體驗(yàn); 
②xAI計(jì)劃在本月稍晚時(shí)候,推出Grok 2正式版本的企業(yè)API;
③馬斯克盛贊:“Grok是火箭速度”。

《科創(chuàng)板日報(bào)》8月14日訊(編輯 宋子喬) 北京時(shí)間8月14日下午,馬斯克旗下xAI公司的第二代AI大模型Grok 2測試版本正式發(fā)布,包括Grok 2和Grok 2 mini兩個(gè)版本,實(shí)測支持中文提問和中文回答,目前僅X Premium及Premium+用戶可體驗(yàn),非X訂閱用戶可以在LMSYS大模型競技場(Auto Arena of LLMs,專為大模型設(shè)計(jì)的評估平臺(tái))中,免費(fèi)體驗(yàn)Grok 2的早期版本模型sus-column-r。

image

馬斯克在去年4月注冊了xAI公司,今年5月,xAI官宣獲得60億美元的B輪融資,這輪融資使該公司的估值達(dá)到約240億美元。xAI在今年先后推出了Grok 1和升級(jí)版Grok 1.5。

馬斯克盛贊:“Grok是火箭速度”。

image

評測顯示,Grok 2測試版的邏輯推理能力有較大提升,該模型還具備文生圖能力,信息顯示其使用Black Forest Labs 的FLUX.1模型生成圖像。

Grok 2測試版不僅準(zhǔn)確解答了“9.8和9.11哪個(gè)大”,還能數(shù)清草莓(strawberry)里有多少個(gè)“r”,這些可謂人類測試大模型的經(jīng)典難題。

image

image

X平臺(tái)的用戶已經(jīng)上傳了許多由Grok 2測試版模型生成的照片。

image

在GPQA、MMLU、MMLU-Pro、MATH、MathVista等多項(xiàng)測評中,Grok 2的得分都超過了GPT-4 Turbo、Claude 3 Opus、Gemini Pro 1.5等主流模型。另據(jù)知名度較高的研究機(jī)構(gòu)Large Model Systems Organization(簡稱LMSYS)最新發(fā)布的評測數(shù)據(jù),Grok 2早期版本(代號(hào)sus-column-r)已經(jīng)殺入LMSYS推出的大模型競技場Chatbot Arena排行榜前三,與GPT-4o并列。

image

image

Grok 2早期版本sus-column-r的Elo得分情況

Grok 2測試版本的發(fā)布,標(biāo)志著該模型距離正式商用又邁出一步。

xAI計(jì)劃在本月稍晚時(shí)候,推出Grok 2正式版本的企業(yè)API。xAI表示將強(qiáng)化安全功能,包括強(qiáng)制性的多因素身份驗(yàn)證(如Yubikey、Apple TouchID或TOTP),并提供了詳盡的流量統(tǒng)計(jì)數(shù)據(jù)和高級(jí)計(jì)費(fèi)分析服務(wù),支持?jǐn)?shù)據(jù)導(dǎo)出。

另外,馬斯克此前透露后者將在今年年底左右發(fā)布更新版本的大模型Grok 3。

今年4月,馬斯克在接受挪威主權(quán)基金負(fù)責(zé)人Nicolai Tangen采訪時(shí)表示,Grok 2需要大約2萬張H100來進(jìn)行訓(xùn)練。Grok 3所需的算力資源只多不少,馬斯克在上個(gè)月稱,xAI公司一直在訓(xùn)練Grok 3,該模型將使用10萬塊英偉達(dá)H100芯片進(jìn)行訓(xùn)練,其水平將與尚未發(fā)布的OpenAI GPT-5相匹敵,甚至超越GPT-5。

收藏
64.27W
我要評論
歡迎您發(fā)表有價(jià)值的評論,發(fā)布廣告和不和諧的評論都將會(huì)被刪除,您的賬號(hào)將禁止評論。
發(fā)表評論
要聞
股市
關(guān)聯(lián)話題
4.16W 人關(guān)注
8701 人關(guān)注