有卡不等于有算力?模型參數(shù)擴(kuò)張帶動(dòng)對(duì)AI infra訴求 多芯異構(gòu)成趨勢(shì)|行業(yè)動(dòng)態(tài)
原創(chuàng)
2024-09-10 09:31 星期二
財(cái)聯(lián)社記者 付靜
①模型參數(shù)擴(kuò)張帶動(dòng)對(duì)AI infra訴求,AI算力規(guī)模上升,性能卻未必快速線性增長(zhǎng);
②具備硬件資源,配套軟件能力仍缺乏,疊加沒有實(shí)際終端客戶或應(yīng)用場(chǎng)景等,造成智算中心閑置;
③多芯異構(gòu)是智算的一大趨勢(shì),需要通過“多芯兼容”滿足更多國(guó)產(chǎn)化訴求,同時(shí)緩解卡的供給風(fēng)險(xiǎn)。

財(cái)聯(lián)社9月10日訊(記者 付靜)“我們?nèi)绾胃咝У貥?gòu)建一個(gè)智算中心,是不是有卡就足夠了?答案是完全不夠的?!苯?,財(cái)聯(lián)社記者在騰訊(00700.HK)全球數(shù)字生態(tài)大會(huì)上聽到了這一對(duì)話。

財(cái)聯(lián)社記者觀察到,AI算力需求巨幅增長(zhǎng),云計(jì)算廠商、通信運(yùn)營(yíng)商、芯片廠商乃至眾多跨界玩家均瞄準(zhǔn)了智算的蛋糕,不過,算力規(guī)模上升,性能卻未必快速線性增長(zhǎng),同時(shí)一些新的技術(shù)和功能挑戰(zhàn)出現(xiàn)。當(dāng)下,“大集群不等于大算力”的觀點(diǎn)正引發(fā)業(yè)內(nèi)諸多討論。

騰訊云副總裁沙開波在接受財(cái)聯(lián)社記者采訪時(shí)談到了AI智算領(lǐng)域的新趨勢(shì):大模型參數(shù)規(guī)模持續(xù)增加,需要有更多、更大的算力集群滿足訓(xùn)練訴求,對(duì)整個(gè)AI infra性能的要求更高;AI的場(chǎng)景越來越廣泛,會(huì)出現(xiàn)更多對(duì)AI infra或云基礎(chǔ)設(shè)施的訴求。

由此,騰訊云正式發(fā)布AI infra品牌“騰訊云智算”。財(cái)聯(lián)社記者了解到,隨著集群規(guī)模增長(zhǎng),大模型廠商基于GPU集群做訓(xùn)練,要做到單卡吞吐不下降、算力閑置不降低等,軟件層面可以做一定優(yōu)化。

“很多行業(yè)本身對(duì)數(shù)據(jù)安全合規(guī)有很強(qiáng)的訴求,包括用于訓(xùn)練推理的數(shù)據(jù)可能只有在本地?cái)?shù)據(jù)中心里才能使用,這個(gè)就要求我們很多的能力,很多產(chǎn)品要能夠在它的環(huán)境里面私有化部署?!鄙抽_波同時(shí)告訴財(cái)聯(lián)社記者。

不過沙開波亦明確表示,算力能發(fā)揮出多少,上限取決于硬件或芯片本身的性能,不是通過軟件可以避免的,軟件可以優(yōu)化的方向是幫助發(fā)揮硬件的更多性能。

他分析,即便具備硬件資源,配套軟件能力仍缺乏,疊加沒有實(shí)際的終端客戶或應(yīng)用場(chǎng)景等原因,就造成了業(yè)內(nèi)目前出現(xiàn)的智算需求持續(xù)增長(zhǎng),智算中心卻閑置的現(xiàn)象。

此前財(cái)聯(lián)社記者從業(yè)內(nèi)人士方面獲悉,只有用戶愿意來使用算力,才有人愿意來運(yùn)營(yíng),智算中心投資建設(shè)方才能收回成本,形成可持續(xù)發(fā)展的閉環(huán)。

與此同時(shí)記者注意到,多芯異構(gòu)是另一大趨勢(shì)。

據(jù)悉,騰訊云智算集結(jié)了國(guó)內(nèi)外前沿芯片,今年騰訊全球數(shù)字生態(tài)大會(huì)上,英特爾、英偉達(dá)、AMD在內(nèi)的大廠紛紛以合作伙伴身份亮相,騰訊云智算還宣布和國(guó)產(chǎn)算力企業(yè)燧原科技在內(nèi)的多方共建產(chǎn)業(yè)高效能云智算中心。沙開波告訴財(cái)聯(lián)社記者,需要通過“多芯兼容”滿足更多的國(guó)產(chǎn)化訴求,同時(shí)緩解卡的供給風(fēng)險(xiǎn)。

會(huì)議期間,財(cái)聯(lián)社記者通過英特爾技術(shù)人士獲悉,公司正與騰訊云在AI領(lǐng)域深入合作?!膀v訊云現(xiàn)在的計(jì)算實(shí)例的一些主力產(chǎn)品如S5、S6、C6、S8、M8都是用至強(qiáng)處理器?!睋?jù)了解,當(dāng)前大部分廠商訓(xùn)練、推理所使用的是第四代、第五代英特爾至強(qiáng),今年6月第六代至強(qiáng)能效核發(fā)布,下半年將發(fā)布的第六代性能核可用于6B、7B、13B的模型推理。

同時(shí),騰訊云方面表示,“各大芯片廠商不斷地加大在GPU上的投入和布局,越來越多的智算中心里,不同型號(hào)、不同廠商的卡放在一起異構(gòu)組網(wǎng)的情況越來越普遍,需要網(wǎng)絡(luò)的解決方案解決好異構(gòu)組網(wǎng)場(chǎng)景,更好地發(fā)揮出算力的效率?!彬v訊云將推出搭載至強(qiáng)6處理器的新一代云實(shí)例,基于星星海自研服務(wù)器及網(wǎng)絡(luò)架構(gòu)的升級(jí),在社交媒體、游戲、數(shù)據(jù)庫(kù)、短視頻等應(yīng)用場(chǎng)景進(jìn)行性能提升。

據(jù)悉,騰訊云智算整合了騰訊云高性能計(jì)算HCC、高性能網(wǎng)絡(luò)IHN星脈、高性能云存儲(chǔ)、加速框架、容器、向量數(shù)據(jù)庫(kù)、智算套件等騰訊云產(chǎn)品。穩(wěn)定性和性能方面,騰訊云集群千卡單日故障數(shù)刷新到0.16,1分鐘完成萬(wàn)卡checkpoint寫入,千卡集群的通信時(shí)間縮短到6%。

財(cái)聯(lián)社記者了解到,目前騰訊云智算已服務(wù)了月之暗面、智譜AI在內(nèi)的90%以上國(guó)內(nèi)頭部大模型企業(yè)。例如,基于騰訊云高性能計(jì)算集群HCC、高性能網(wǎng)絡(luò)IHN星脈及安全解決方案,智譜AI模型訓(xùn)練集群效提升3.23倍,內(nèi)容審核準(zhǔn)確率提升17%,5分鐘GPU服務(wù)器故障可自動(dòng)恢復(fù)。

此外,記者從元象科技方面了解到,其最新版本MoE模型用數(shù)百億級(jí)別預(yù)算量達(dá)到了數(shù)千億級(jí)別的模型效果?!拔覀児性粕嫌袀€(gè)大模型客戶,用了騰訊云智算的大模型訓(xùn)練集群解決方案之后,一年的千卡成本可以下降2000萬(wàn)這樣的量級(jí)?!鄙抽_波還告訴記者。

收藏
73.71W
我要評(píng)論
歡迎您發(fā)表有價(jià)值的評(píng)論,發(fā)布廣告和不和諧的評(píng)論都將會(huì)被刪除,您的賬號(hào)將禁止評(píng)論。
發(fā)表評(píng)論
要聞
股市
關(guān)聯(lián)話題
0 人關(guān)注
0 人關(guān)注