英偉達(dá)財(cái)報(bào)前精準(zhǔn)狙擊?這家獨(dú)角獸強(qiáng)勢(shì)進(jìn)軍AI推理 不用HBM做到世界最快
原創(chuàng)
2024-08-28 14:24 星期三
科創(chuàng)板日?qǐng)?bào) 朱凌
①Cerebras基于其自己的芯片計(jì)算系統(tǒng)發(fā)布了號(hào)稱世界上速度最快的AI推理服務(wù);
②Cerebras將內(nèi)存直接內(nèi)置在巨大的芯片中,從而擁有巨大的片上內(nèi)存和極高的內(nèi)存帶寬。

《科創(chuàng)板日?qǐng)?bào)》8月28日訊(編輯 朱凌)當(dāng)?shù)貢r(shí)間周三盤(pán)后,英偉達(dá)即將公布整個(gè)二級(jí)市場(chǎng)的最后一份重磅二季報(bào),全球投資者因此高度緊張。而就在前一天(當(dāng)?shù)貢r(shí)間8月27日),美國(guó)人工智能處理器芯片獨(dú)角獸Cerebras Systems基于其自己的芯片計(jì)算系統(tǒng)發(fā)布了號(hào)稱世界上速度最快的AI推理服務(wù),聲稱比使用英偉達(dá)H100 GPU構(gòu)建的系統(tǒng)快十到二十倍。

目前,英偉達(dá)GPU在AI訓(xùn)練和推理兩方面都占據(jù)著市場(chǎng)主導(dǎo)地位。Cerebras自2019年推出首款A(yù)I芯片以來(lái),一直專注銷(xiāo)售AI芯片和計(jì)算系統(tǒng),致力于在AI訓(xùn)練領(lǐng)域挑戰(zhàn)英偉達(dá)。

根據(jù)美國(guó)科技媒體The Information的報(bào)道,得益于AI推理服務(wù),OpenAI今年收入預(yù)計(jì)將達(dá)到34億美元。既然AI推理的蛋糕這么大,Cerebras聯(lián)合創(chuàng)始人兼首席執(zhí)行官安德魯·費(fèi)爾德曼表示,Cerebras也要在AI市場(chǎng)上占據(jù)一席之地。

Cerebras這次推出AI推理服務(wù)不僅開(kāi)啟了AI芯片和計(jì)算系統(tǒng)之外,基于使用量的第二收入曲線,更是發(fā)起了對(duì)英偉達(dá)的全面進(jìn)攻?!皬挠ミ_(dá)手中搶走足夠讓他們生氣了的市場(chǎng)份額?!辟M(fèi)爾德曼如是說(shuō)。

又快又便宜

Cerebras的AI推理服務(wù)在速度和成本上均表現(xiàn)出顯著優(yōu)勢(shì)。據(jù)費(fèi)爾德曼介紹,以每秒可輸出的token數(shù)量來(lái)衡量,Cerebras的AI推理速度是微軟Azure、亞馬遜AWS等云服務(wù)商運(yùn)行的AI推理服務(wù)的20倍。

費(fèi)爾德曼在發(fā)布會(huì)現(xiàn)場(chǎng)同時(shí)啟動(dòng)了Cerebras與亞馬遜AWS的AI推理服務(wù),Cerebras可以瞬間完成推理工作并輸出,處理速度達(dá)到每秒1832個(gè)tokens,而AWS需要幾秒鐘才能完成輸出,處理速度僅為每秒93個(gè)tokens。

費(fèi)爾德曼稱,更快的推理速度意味著,可以實(shí)現(xiàn)實(shí)時(shí)交互式語(yǔ)音回答,或通過(guò)調(diào)用多輪結(jié)果、更多外部來(lái)源、更長(zhǎng)文檔,從而獲得更準(zhǔn)確、更相關(guān)的回答,給AI推理帶來(lái)質(zhì)的飛躍。

除了速度優(yōu)勢(shì)外,Cerebras還有巨大的成本優(yōu)勢(shì)。費(fèi)爾德曼表示,Cerebras的AI推理服務(wù)性價(jià)比是AWS等的100倍。以運(yùn)行Meta的Llama 3.1 70B開(kāi)源大型語(yǔ)言模型為例,該服務(wù)的價(jià)格為每個(gè)token僅需60美分,而一般云服務(wù)商提供的相同服務(wù)每個(gè)令牌價(jià)格為2.90美元。

目前最大GPU面積的56倍

Cerebras的AI推理服務(wù)又快又便宜的原因在于其WSE-3芯片的設(shè)計(jì)。這是Cerebras今年3月推出的第三代處理器芯片,它的尺寸巨大,幾乎相當(dāng)于一個(gè)12英寸半導(dǎo)體晶片的整個(gè)表面,或者說(shuō)比一本書(shū)還要大,單體面積達(dá)到約462.25平方厘米。它是目前最大GPU面積的56倍。

image

WSE-3芯片沒(méi)有像英偉達(dá)那樣采用需要通過(guò)接口連接才能訪問(wèn)的獨(dú)立高帶寬存儲(chǔ)器(HBM)。相反,它將內(nèi)存直接內(nèi)置在芯片中。

image

得益于芯片尺寸,WSE-3的片上存儲(chǔ)器(On-chip memory)高達(dá)44G,幾乎是英偉達(dá)H100的900倍,內(nèi)存帶寬是英偉達(dá)H100的7000倍。

費(fèi)爾德曼表示,內(nèi)存帶寬是限制語(yǔ)言模型推理性能的根本因素。而Cerebras將邏輯和內(nèi)存整合到一個(gè)巨型芯片中,擁有巨大的片上內(nèi)存和極高的內(nèi)存帶寬,可以快速地處理數(shù)據(jù)并產(chǎn)生推理結(jié)果。“這是GPU不可能達(dá)到的速度?!?/p>

除了速度和成本優(yōu)勢(shì)外,WSE-3芯片還是AI訓(xùn)練和推理兩面手,在處理各種AI任務(wù)時(shí)都具有卓越的性能。

根據(jù)計(jì)劃,Cerebras將在多個(gè)地點(diǎn)建立AI推理數(shù)據(jù)中心,并將按請(qǐng)求次數(shù)對(duì)推理能力收費(fèi)。同時(shí),Cerebras還將向嘗試向云服務(wù)商出售基于WSE-3的CS-3計(jì)算系統(tǒng)。

收藏
44.02W
我要評(píng)論
歡迎您發(fā)表有價(jià)值的評(píng)論,發(fā)布廣告和不和諧的評(píng)論都將會(huì)被刪除,您的賬號(hào)將禁止評(píng)論。
發(fā)表評(píng)論
要聞
股市
關(guān)聯(lián)話題
8.4W 人關(guān)注
7478 人關(guān)注
1.03W 人關(guān)注
4.16W 人關(guān)注