亚洲精品仙女图片在线观看,中文字幕在线在线播放91

“價(jià)格屠夫”DeepSeek的理想主義：開源、降本與AI普惠

原創(chuàng)

2025-01-28 08:13 星期二

科創(chuàng)板日?qǐng)?bào) 鄭遠(yuǎn)方

①DeepSeek證明了，在“大力出奇跡”的Scaling Law之外，AI大模型或許還有另一條制勝之道、一種“DeepSeek Law”。
②“DeepSeek目標(biāo)是實(shí)現(xiàn)AGI，而不僅僅是短期的商業(yè)化?！眲?chuàng)始人梁文鋒表示，降價(jià)并非為了搶用戶，而是基于成本下降和對(duì)普惠AI的追求。

《科創(chuàng)板日?qǐng)?bào)》1月28日訊 一天內(nèi)登頂中美App Store免費(fèi)榜、火到兩天崩潰兩次、Meta開設(shè)四個(gè)作戰(zhàn)室研究，近幾日以來，DeepSeek猶如一顆 “東方核彈”，引爆了全球AI圈。

DeepSeek這次引發(fā)全球震動(dòng)的根源之一，就是其最新發(fā)布的開源模型DeepSeek-R1。據(jù)公司介紹，在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上，DeepSeek-R1性能比肩已經(jīng)能OpenAI o1正式版，并采用MIT許可協(xié)議，支持免費(fèi)商用、任意修改和衍生開發(fā)等。

可以說，DeepSeek和它的大模型證明了，在“大力出奇跡”的Scaling Law之外，AI大模型或許還有另一條制勝之道、一種“DeepSeek Law”：調(diào)整改變大模型的基礎(chǔ)結(jié)構(gòu)+有效利用有限資源。

▌“一份給全球的開源大禮”

DeepSeek的很多選擇都和國(guó)內(nèi)的大模型創(chuàng)業(yè)公司不同，比如堅(jiān)定選擇開源路線，將代碼、模型權(quán)重和訓(xùn)練日志全部公開，DeepSeek-R1自然也不例外。

對(duì)于DeepSeek-R1，多位AI行業(yè)大佬都不乏溢美之詞。

“DeepSeek-R1是我見過最令人驚嘆、最讓人印象深刻的突破之一，而且它還是開源的，可以說是一份給全球的大禮?！表敿?jí)風(fēng)投之一A16Z創(chuàng)始人Marc Andreesen如此形容這個(gè)模型。

“我們生活在這樣一個(gè)時(shí)代，一家非美國(guó)公司正在讓OpenAI的初衷得以延續(xù)，即做真正開放、為所有人賦能的前沿研究?！庇ミ_(dá)高級(jí)研究科學(xué)家Jim Fan表示，DeepSeek-R1可能是第一個(gè)展示了RL（強(qiáng)化學(xué)習(xí)）飛輪可發(fā)揮作用，且能帶來持續(xù)增長(zhǎng)的OSS（開源軟件）項(xiàng)目。

Meta首席科學(xué)家楊立昆（Yann Lecun）則表示， “開源模型正在超越專有模型。DeepSeek從開放研究和開源中獲益匪淺。他們提出了新的想法，并基于其他人的工作進(jìn)行創(chuàng)新。由于他們的工作是公開和開源的，所有人都能從中獲益。這就是開源研究和開源技術(shù)的力量?！?/p>

隨之而來的，是全球范圍內(nèi)AI技術(shù)人員們掀起的“DeepSeek復(fù)現(xiàn)熱潮”：

比如UC伯克利博士生潘家怡和兩位研究人員，就在游戲CountDown中復(fù)現(xiàn)了DeepSeek R1-Zero。團(tuán)隊(duì)驗(yàn)證了通過RL，3B的基礎(chǔ)語言模型也能夠自我驗(yàn)證和搜索，成果出色。更重要的是，這項(xiàng)復(fù)現(xiàn)成本僅僅不到30美元。

全球最大開源平臺(tái)HuggingFace團(tuán)隊(duì)，也已官宣復(fù)刻DeepSeek R1所有pipeline。復(fù)刻完成后，所有的訓(xùn)練數(shù)據(jù)、訓(xùn)練腳本等等，將全部開源。

“在顛覆性的技術(shù)面前，閉源形成的護(hù)城河是短暫的。即使OpenAI閉源，也無法阻止被別人趕超。”DeepSeek創(chuàng)始人梁文鋒曾這樣解釋選擇開源的原因，“開源，發(fā)論文，其實(shí)并沒有失去什么。對(duì)于技術(shù)人員來說，被follow是很有成就感的事。開源更像一個(gè)文化行為，而非商業(yè)行為……我們不會(huì)閉源。我們認(rèn)為先有一個(gè)強(qiáng)大的技術(shù)生態(tài)更重要?！?/strong>

▌技術(shù)降本造就“AI價(jià)格屠夫”

談到DeepSeek大模型，另一個(gè)被常常提到的形容詞，應(yīng)該是“物美價(jià)廉”。

最新面世的這一DeepSeek-R1，API服務(wù)定價(jià)為每百萬輸入tokens 1元（緩存命中）/4元（緩存未命中），每百萬輸出tokens 16元，輸出API價(jià)格僅僅只有OpenAI o1的3%。

這不是DeepSeek第一次舉起“價(jià)格屠刀”。

在去年5月，DeepSeek已經(jīng)帶著開源第二代MoE大模型DeepSeek-V2，頂著“價(jià)格屠夫”、“AI界拼多多”的稱號(hào)一炮而紅——性能比肩GPT-4，但定價(jià)上每百萬token輸入1元、輸出2元（32K上下文），僅是GPT-4的近百分之一水平。

在這之后，字節(jié)跳動(dòng)、百度、騰訊、阿里巴巴等互聯(lián)網(wǎng)大廠紛紛按捺不住，紛紛官宣大模型降價(jià)，由此打響了國(guó)內(nèi)大模型價(jià)格戰(zhàn)。

低價(jià)背后，還是離不開“技術(shù)炫技”帶來的降本。

一個(gè)多月前DeepSeek-V3就曾引發(fā)業(yè)內(nèi)高度關(guān)注，關(guān)鍵原因之一就是預(yù)訓(xùn)練成本之低——這個(gè)參數(shù)量高達(dá)671B的大模型，在預(yù)訓(xùn)練階段僅使用2048塊GPU訓(xùn)練了2個(gè)月，且只花費(fèi)557.6萬美元。與此同時(shí)，DeepSeek-V3相比其他前沿大模型，性能卻足以比肩乃至更優(yōu)。

在這背后，DeepSeek-V3采用了用于高效推理的多頭潛在注意力（MLA）和用于經(jīng)濟(jì)訓(xùn)練的DeepSeekMoE。研發(fā)團(tuán)隊(duì)證明，多Token預(yù)測(cè)目標(biāo)（Multi-Token Prediction，MTP）有利于提高模型性能，可以用于推理加速的推測(cè)解碼。后訓(xùn)練方面，DeepSeek V3引入了一種創(chuàng)新方法，將推理能力從長(zhǎng)思維鏈模型（DeepSeek R1）中，蒸餾到標(biāo)準(zhǔn)模型上。這在顯著提高推理性能的同時(shí)，保持了DeepSeek V3的輸出風(fēng)格和長(zhǎng)度控制。

▌AI應(yīng)用普及前奏

“DeepSeek的目標(biāo)是實(shí)現(xiàn)AGI，而不僅僅是短期的商業(yè)化?！?/strong>梁文鋒曾在采訪中如此強(qiáng)調(diào)。

DeepSeek的降價(jià)并非為了搶用戶，而是基于成本下降和對(duì)普惠AI的追求。他相信，隨著經(jīng)濟(jì)的發(fā)展，中國(guó)也應(yīng)該成為技術(shù)創(chuàng)新的貢獻(xiàn)者，而不僅僅是應(yīng)用創(chuàng)新的跟隨者。

站在當(dāng)下時(shí)點(diǎn)，AI應(yīng)用滲透率仍然較低，產(chǎn)業(yè)仍在早期。中信證券指出，DeepSeek模型相比GPT4模型更小的參數(shù)量也意味著更低的推理成本，推理成本的降低，將是AI應(yīng)用普及的前奏，正如4G提速降費(fèi)給我國(guó)移動(dòng)互聯(lián)網(wǎng)產(chǎn)業(yè)提供了助力。

其進(jìn)一步表示，豆包pro、DeepSeek-v3等國(guó)產(chǎn)模型連續(xù)發(fā)布。模型能力上，國(guó)產(chǎn)模型在文本和知識(shí)能力上接近GPT-4、Claude、Llama等海外前沿模型水平，多模態(tài)能力逐步完備，邏輯和代碼能力在非o1技術(shù)路線下達(dá)到可用水平。價(jià)格上，國(guó)產(chǎn)模型API百萬tokens輸出普遍定價(jià)10元以內(nèi)，是GPT-4o的1/3甚至更低。

預(yù)計(jì)模型性價(jià)比持續(xù)提升下，國(guó)內(nèi)AI應(yīng)用依托豐富生態(tài)和成熟流量，有望加速在各領(lǐng)域落地。其中，Agent模式有望以更長(zhǎng)的任務(wù)流程、更好的場(chǎng)景理解、更高的自主能力，成為所有互聯(lián)網(wǎng)用戶的數(shù)字助手，在企業(yè)管理、教育、辦公、金融等領(lǐng)域展現(xiàn)應(yīng)用價(jià)值。

值得一提的是，有消息稱Meta生成AI小組和基礎(chǔ)設(shè)施團(tuán)隊(duì)已開設(shè)四個(gè)作戰(zhàn)室，學(xué)習(xí)DeepSeek工作原理。其中兩個(gè)動(dòng)員起來的小組正在試圖了解High-Flyer如何降低訓(xùn)練和運(yùn)行DeepSeek的成本。第三個(gè)Meta研究小組正在試圖弄清楚High-Flyer可能使用哪些數(shù)據(jù)來訓(xùn)練其模型。第四作戰(zhàn)室正在考慮基于DeepSeek模型屬性重構(gòu)Meta模型的新技術(shù)——

這或許也意味著，站在巨人肩膀上的DeepSeek，成為了有望托舉更多人的巨人。

閱98.41W

我要評(píng)論
反饋意見

歡迎您發(fā)表有價(jià)值的評(píng)論，發(fā)布廣告和不和諧的評(píng)論都將會(huì)被刪除，您的賬號(hào)將禁止評(píng)論。

發(fā)表評(píng)論

要聞

股市

查看更多

關(guān)聯(lián)話題

人工智能

4.64W 人關(guān)注

+ 關(guān)注

DeepSeek概念

6845 人關(guān)注

+ 關(guān)注

ChatGPT

1.35W 人關(guān)注

+ 關(guān)注

追擊ChatGPT

9176 人關(guān)注

+ 關(guān)注

首頁

電報(bào)

話題

盯盤

VIP

FM

投研

下載

頭條

A股

港股

環(huán)球

公司

券商

基金·ETF

地產(chǎn)

金融

汽車

科創(chuàng)

品見