歡迎來到淘金地

545%!DeepSeek公布理論成本利潤(rùn)率

來源: 發(fā)布時(shí)間:2025-03-12

過去一周,DeepSeek連續(xù)開放了5個(gè)Infra項(xiàng)目的源代碼,正當(dāng)大家以為這場(chǎng)開源盛宴已經(jīng)結(jié)束。3月1日,DeepSeek的彩蛋來了!開源周Day6,DeepSeek官方團(tuán)隊(duì)在開發(fā)者社區(qū)Github和知乎給出了DeepSeek-V3/R1推理系統(tǒng)的技術(shù)解讀。通過優(yōu)化吞吐和延遲,DeepSeek理論上一天的總收入達(dá)到了562027美元,成本利潤(rùn)率為545%。

敏銳的網(wǎng)友——如MenloVentures投資人Deedy翻譯了這意味著什么:“理論ARR(年收入)2億美元、利潤(rùn)率超過500%,這樣的商業(yè)效率理應(yīng)是一家值100億美元的公司。

”從2024年5月發(fā)布DeepSeekV2以來,DeepSeek模型服務(wù)就以“價(jià)格屠夫”示眾,總是比行業(yè)其他模型便宜1/10左右,質(zhì)疑DeepSeek虧本打價(jià)格戰(zhàn)的聲音也一直有。

通過這5天開放源代碼以及當(dāng)下的推理系統(tǒng)概述,這一疑慮也被打消,可以預(yù)見,模型推理價(jià)格越來越負(fù)擔(dān)得起,且服務(wù)提供方也有的賺。這一事件的影響也可以通過社交平臺(tái)網(wǎng)友展現(xiàn)出刷屏的驚喜得以一窺,“成本利潤(rùn)率545%,等于說你是在告訴我,我被Open AI搶奪了?開源周Day7的彩蛋是 AGI?”

但更大的信號(hào)指向生態(tài)伙伴,部署DeepSeek有的賺。

一位AI領(lǐng)域的投資人表示,“官方技術(shù)解讀表明,云平臺(tái)和上下游通過部署DeepSeek的服務(wù),理論上收益和利潤(rùn)率可以達(dá)到很高”。無論是對(duì)于提供在線推理、還是私有化部署等服務(wù)的供應(yīng)商,都是利好。

在這波DeepSeek熱中受益的云平臺(tái)硅基流動(dòng)創(chuàng)始人袁進(jìn)輝也在首要時(shí)間發(fā)表了自己的感受,“DeepSeek官方披露大規(guī)模部署成本和收益,又一次顛覆了很多人認(rèn)知?!钡枰獣r(shí)間適配DeepSeek V3/R1模型架構(gòu),他表示“現(xiàn)在很多供應(yīng)商還做不到這個(gè)水平,主要是V3/R1架構(gòu)和其它主流模型差別太大了,由大量小專業(yè)人士組成,導(dǎo)致瞄準(zhǔn)其它主流模型結(jié)構(gòu)開發(fā)的系統(tǒng)都不再有效,必須按照DeepSeek報(bào)告描述的方法才能達(dá)到比較好的效率,而開發(fā)這樣的系統(tǒng)難度很高,需要時(shí)間”。

袁進(jìn)輝進(jìn)一步指出現(xiàn)在復(fù)現(xiàn)這樣的推理服務(wù)的難度以及DeepSeek可能的戰(zhàn)略思考,“幸好這周DeepSeek五連發(fā)已經(jīng)把主要模塊開源出來了,降低了社區(qū)復(fù)現(xiàn)的難度。這些成果充分體現(xiàn)了DeepSeek團(tuán)隊(duì)首要性原理的思考方式和強(qiáng)悍的意志,他們應(yīng)該是首先是基于某些原因想到了用這樣的模型結(jié)構(gòu),然后發(fā)現(xiàn)這樣的結(jié)構(gòu)無論是訓(xùn)練還是推理,要做好都有非常大的工程挑戰(zhàn),不過這些問題在他們工程團(tuán)隊(duì)來說并不是搞不定的,關(guān)鍵是花那么大力氣做完是否有大的收益呢,在極終結(jié)果出來前,誰也說不準(zhǔn),他們還是賭了,結(jié)果是賭對(duì)了。也可能是反過來的,基于系統(tǒng)的出發(fā)點(diǎn)設(shè)計(jì)了這樣一個(gè)全新的模型結(jié)構(gòu)?!?

在DeepSeek官方報(bào)告中也提示了DeepSeek-V3/R1推理系統(tǒng)的優(yōu)化目標(biāo)是:更大的吞吐,更低的延遲。配合技術(shù)解讀,DeepSeek開源周放出的5個(gè)代碼庫帶來的影響力才剛剛開始。

《DeepSeek-V3 / R1 推理系統(tǒng)概覽全文

DeepSeek-V3/R1推理系統(tǒng)的優(yōu)化目標(biāo)是:更大的吞吐,更低的延遲。

為了實(shí)現(xiàn)這兩個(gè)目標(biāo),我們的方案是使用大規(guī)??绻?jié)點(diǎn)專業(yè)人士并行(Expert Parallelism / EP)。首先EP使得batch size快速增加,從而提高GPU矩陣乘法的效率,提高吞吐。其次EP使得專業(yè)人士分散在不同的 GPU上,每個(gè)GPU只需要計(jì)算很少的專業(yè)人士(因此更少的訪存需求),從而降低延遲。

但EP同時(shí)也增加了系統(tǒng)的復(fù)雜性。復(fù)雜性主要體現(xiàn)在兩個(gè)方面:

EP引入跨節(jié)點(diǎn)的傳輸。為了優(yōu)化吞吐,需要設(shè)計(jì)合適的計(jì)算流程使得傳輸和計(jì)算可以同步進(jìn)行。

EP涉及多個(gè)節(jié)點(diǎn),因此天然需要Data Parallelism(DP),不同的DP之間需要進(jìn)行負(fù)載均衡。

因此,本文的主要內(nèi)容是如何使用EP增大batch size,如何隱藏傳輸?shù)暮臅r(shí),如何進(jìn)行負(fù)載均衡。

1、大規(guī)??绻?jié)點(diǎn)專業(yè)人士并行(Expert Parallelism / EP)

由于DeepSeek-V3/R1的專業(yè)人士數(shù)量眾多,并且每層256個(gè)專業(yè)人士中只啟動(dòng)其中8個(gè)。模型的高度稀疏性決定了我們必須采用很大的overall batch size,才能給每個(gè)專業(yè)人士提供足夠的expert batch size,從而實(shí)現(xiàn)更大的吞吐、更低的延時(shí)。需要大規(guī)??绻?jié)點(diǎn)專業(yè)人士并行(Expert Parallelism / EP)。

我們采用多機(jī)多卡間的專業(yè)人士并行策略來達(dá)到以下目的:

Prefill:路由專業(yè)人士EP32、MLA和共享專業(yè)人士DP32,一個(gè)部署單元是4節(jié)點(diǎn),32個(gè)冗余路由專業(yè)人士,每張卡9個(gè)路由專業(yè)人士和1個(gè)共享專業(yè)人士

Decode:路由專業(yè)人士EP144、MLA和共享專業(yè)人士DP144,一個(gè)部署單元是18節(jié)點(diǎn),32個(gè)冗余路由專業(yè)人士,每張卡2個(gè)路由專業(yè)人士和1個(gè)共享專業(yè)人士

2、計(jì)算通信重疊

多機(jī)多卡的專業(yè)人士并行會(huì)引入比較大的通信開銷,所以我們使用了雙 batch重疊來掩蓋通信開銷,提高整體吞吐。

對(duì)于prefill階段,兩個(gè)batch的計(jì)算和通信交錯(cuò)進(jìn)行,一個(gè)batch在進(jìn)行計(jì)算的時(shí)候可以去掩蓋另一個(gè)batch的通信開銷;

對(duì)于decode階段,不同階段的執(zhí)行時(shí)間有所差別,所以我們把a(bǔ)ttention部分拆成了兩個(gè)stage,共計(jì) 5 個(gè)stage的流水線來實(shí)現(xiàn)計(jì)算和通信的重疊。

3、盡可能地負(fù)載均衡

由于采用了很大規(guī)模的并行(包括數(shù)據(jù)并行和專業(yè)人士并行),如果某個(gè)GPU的計(jì)算或通信負(fù)載過重,將成為性能瓶頸,拖慢整個(gè)系統(tǒng);同時(shí)其他GPU因?yàn)榈却辙D(zhuǎn),造成整體利用率下降。因此我們需要盡可能地為每個(gè)GPU分配均衡的計(jì)算負(fù)載、通信負(fù)載。

Prefill Load Balancer

重點(diǎn)問題:不同數(shù)據(jù)并行(DP)實(shí)例上的請(qǐng)求個(gè)數(shù)、長(zhǎng)度不同,導(dǎo)致 core-attention 計(jì)算量、dispatch發(fā)送量也不同

優(yōu)化目標(biāo):各GPU的計(jì)算量盡量相同(core-attention 計(jì)算負(fù)載均衡)、輸入的token數(shù)量也盡量相同(dispatch發(fā)送量負(fù)載均衡),避免部分GPU處理時(shí)間過長(zhǎng)

Decode Load Balancer

重點(diǎn)問題:不同數(shù)據(jù)并行(DP)實(shí)例上的請(qǐng)求數(shù)量、長(zhǎng)度不同,導(dǎo)致core-attention計(jì)算量(與KVCache占用量相關(guān))、dispatch發(fā)送量不同

優(yōu)化目標(biāo):各GPU的KVCache占用量盡量相同(core-attention計(jì)算負(fù)載均衡)、請(qǐng)求數(shù)量盡量相同(dispatch 發(fā)送量負(fù)載均衡)

Expert-Parallel Load Balancer

重點(diǎn)問題:對(duì)于給定 、MoE模型,存在一些天然的高負(fù)載專業(yè)人士(expert),導(dǎo)致不同GPU的專業(yè)人士計(jì)算負(fù)載不均衡

優(yōu)化目標(biāo):每個(gè)GPU上的專業(yè)人士計(jì)算量均衡(即極小化所有 GPU 的dispatch接收量的極大值)

4、參考架構(gòu)圖

5、線上系統(tǒng)的實(shí)際統(tǒng)計(jì)數(shù)據(jù)

DeepSeek V3和R1的所有服務(wù)均使用H800 GPU,使用和訓(xùn)練一致的精度,即矩陣計(jì)算和dispatch傳輸采用和訓(xùn)練一致的FP8格式,core-attention計(jì)算和combine傳輸采用和訓(xùn)練一致的BF16,很大程度保證了服務(wù)效果。

另外,由于白天的服務(wù)負(fù)荷高,晚上的服務(wù)負(fù)荷低,因此我們實(shí)現(xiàn)了一套機(jī)制,在白天負(fù)荷高的時(shí)候,用所有節(jié)點(diǎn)部署推理服務(wù)。晚上負(fù)荷低的時(shí)候,減少推理節(jié)點(diǎn),以用來做研究和訓(xùn)練。在極近的24小時(shí)里(北京時(shí)間 2025/02/27 12:00 至 2025/02/28 12:00),DeepSeek V3和R1推理服務(wù)占用節(jié)點(diǎn)總和,峰值占用為278個(gè)節(jié)點(diǎn),平均占用226.75個(gè)節(jié)點(diǎn)(每個(gè)節(jié)點(diǎn)為8個(gè)H800 GPU)。假定GPU租賃成本為2美元/小時(shí),總成本為 $87072/天。

在24小時(shí)統(tǒng)計(jì)時(shí)段內(nèi),DeepSeek V3和R1:

輸入token總數(shù)為608B,其中342B tokens(56.3%)命中 KVCache 硬盤緩存。

輸出token總數(shù)為168B。平均輸出速率為20~22tps,平均每輸出一個(gè)token的KVCache長(zhǎng)度是4989。

平均每臺(tái)H800的吞吐量為:對(duì)于prefill任務(wù),輸入吞吐約 73.7k tokens/s(含緩存命中);對(duì)于decode任務(wù),輸出吞吐約 14.8k tokens/s。

以上統(tǒng)計(jì)包括了網(wǎng)頁、APP 和 API 的所有負(fù)載。如果所有tokens全部按照DeepSeek R1的定價(jià) (注:DeepSeek R1 的定價(jià):$0.14 / 百萬輸入tokens (緩存命中),$0.55 / 百萬輸入tokens (緩存未命中),$2.19 / 百萬輸出 tokens;當(dāng)然我們實(shí)際上沒有這么多收入,因?yàn)閂3的定價(jià)更低,同時(shí)收費(fèi)服務(wù)只占了一部分,另外夜間還會(huì)有折扣)計(jì)算,理論上一天的總收入為562027美元,成本利潤(rùn)率545%。轉(zhuǎn)載自澎湃新聞

公司信息

聯(lián) 系 人:

手機(jī)號(hào):

電話:

郵箱:

網(wǎng)址:

地址:

本日新聞 本周新聞 本月新聞
返回頂部