【導(dǎo)讀】在大模型智能體(Agent)應(yīng)用日益普及的今天,多輪交互導(dǎo)致的超長(zhǎng)上下文累積使得KV緩存的加載效率取代計(jì)算能力,成為制約推理性能的新瓶頸。傳統(tǒng)架構(gòu)中“存儲(chǔ)至預(yù)填充引擎”的單一路徑設(shè)計(jì),導(dǎo)致了存儲(chǔ)網(wǎng)卡帶寬在預(yù)填充端飽和而在解碼端閑置的嚴(yán)重資源失衡。針對(duì)這一痛點(diǎn),DeepSeek于2月27日重磅推出了名為DualPath的全新推理系統(tǒng)方案。該方案突破性地在存儲(chǔ)與解碼引擎之間開(kāi)辟了直通新通道,利用RDMA技術(shù)實(shí)現(xiàn)KV緩存的雙路徑動(dòng)態(tài)加載與負(fù)載均衡。作為由北大實(shí)習(xí)生吳永彤主導(dǎo)的最新成果,DualPath不僅在理論上消除了KV緩存的I/O開(kāi)銷(xiāo),更在千卡集群的實(shí)測(cè)中將離線與在線吞吐量提升了近兩倍,為大模型在智能體場(chǎng)景下的高效落地提供了極具價(jià)值的架構(gòu)革新思路。
DeepSeek又找到突破大模型推理瓶頸的新方法了!智東西2月27日?qǐng)?bào)道,昨天,DeepSeek發(fā)布了一項(xiàng)名為DualPath的全新推理系統(tǒng)方案,直指當(dāng)前大語(yǔ)言模型在智能體應(yīng)用場(chǎng)景下遭遇的短板——KV緩存存儲(chǔ)I/O瓶頸。該方案通過(guò)引入雙路徑加載機(jī)制,顯著提升系統(tǒng)吞吐量,基本消除了KV緩存的I/O開(kāi)銷(xiāo)。
DualPath的核心創(chuàng)新在于開(kāi)辟了一條從存儲(chǔ)直通解碼引擎的新通道。KV緩存不再僅由預(yù)填充引擎加載,而是可以加載至解碼引擎,再通過(guò)計(jì)算網(wǎng)絡(luò)中的RDMA高效傳輸至預(yù)填充端。這一設(shè)計(jì)不僅緩解了存儲(chǔ)端的壓力,還避免了網(wǎng)絡(luò)擁塞,確保延遲敏感型任務(wù)不受干擾。與全局調(diào)度器協(xié)同后,DualPath實(shí)現(xiàn)了動(dòng)態(tài)平衡兩端負(fù)載,進(jìn)一步提升資源利用率。在真實(shí)智能體工作負(fù)載測(cè)試中,DualPath將離線推理吞吐量提升最高達(dá)1.87倍,在線服務(wù)吞吐量平均提升1.96倍。
在大規(guī)模可擴(kuò)展性方面,DualPath系統(tǒng)在最多1152張GPU上進(jìn)行了驗(yàn)證。離線推理從2P4D(2K智能體)擴(kuò)展到48P96D(48K智能體)實(shí)現(xiàn)近線性擴(kuò)展,任務(wù)完成時(shí)間基本保持一致。
值得一提的是,與之前DeepSeek發(fā)表的許多研究論文類(lèi)似,這篇論文的第一作者吳永彤同樣是DeepSeek的實(shí)習(xí)生。吳永彤目前在北京大學(xué)攻讀博士學(xué)位,師從金鑫教授,主要研究大模型基礎(chǔ)設(shè)施相關(guān)課題,自2025年8月以來(lái)便在DeepSeek系統(tǒng)組工作,曾參與DeepSeek-V3.2的研究。
01.智能體I/O瓶頸凸顯傳統(tǒng)設(shè)計(jì)成本高昂
隨著智能體應(yīng)用普及,多輪推理已成常態(tài)。智能體通過(guò)工具與外部環(huán)境進(jìn)行數(shù)十甚至數(shù)百輪交互,上下文跨輪累積到極長(zhǎng)長(zhǎng)度。由于多輪、短追加的特性,KV緩存命中率高達(dá)95%以上,加載效率取代計(jì)算成為性能主導(dǎo)因素?,F(xiàn)有系統(tǒng)采用分層預(yù)填充、預(yù)填充-解碼分離(PD分離)和外部KV緩存存儲(chǔ)架構(gòu)。但問(wèn)題在于:預(yù)填充引擎存儲(chǔ)網(wǎng)卡帶寬持續(xù)飽和,而解碼引擎存儲(chǔ)網(wǎng)卡帶寬大量閑置。這種不平衡暴露了根本性低效——存儲(chǔ)網(wǎng)絡(luò)帶寬利用不均,而單純?cè)黾宇A(yù)填充端帶寬成本高昂。
DualPath的提出正是為了解決上述問(wèn)題,其核心洞察在于打破“KV緩存加載必須以預(yù)填充為中心”的傳統(tǒng)設(shè)計(jì)?,F(xiàn)有系統(tǒng)僅通過(guò)存儲(chǔ)到預(yù)填充引擎的單一路徑加載,導(dǎo)致預(yù)填充端帶寬飽和而解碼端帶寬閑置。DualPath則增加了存儲(chǔ)到解碼路徑,將KV緩存先加載至空閑的解碼引擎,再通過(guò)RDMA高效傳輸給預(yù)填充引擎。這一模式聚合了所有存儲(chǔ)網(wǎng)卡帶寬,重新分配網(wǎng)絡(luò)負(fù)載,從根本上緩解預(yù)填充端的I/O瓶頸。
不過(guò),該設(shè)計(jì)仍然面臨兩大挑戰(zhàn):首先,引入額外的加載路徑會(huì)產(chǎn)生復(fù)雜的流量模式,并可能與模型執(zhí)行中的集體通信原語(yǔ)產(chǎn)生潛在干擾,若管理不當(dāng)會(huì)降低整體性能。其次,系統(tǒng)必須在動(dòng)態(tài)和異構(gòu)的工作負(fù)載下在線決定使用哪條加載路徑,并同時(shí)確保GPU和網(wǎng)卡之間的負(fù)載均衡。
02.三大核心組件打造DualPath新組件并未引入瓶頸
那么,DeepSeek究竟是如何解決這些挑戰(zhàn)的呢?DualPath使用了兩項(xiàng)廣泛使用的技術(shù):(1)PD分離,將提示詞和解碼處理分開(kāi)以提高效率。(1)分層預(yù)填充,避免了預(yù)填充引擎上的HBM瓶頸,并提高了GPU利用率。而DualPath主要由三大核心組件構(gòu)成。
推理引擎是基礎(chǔ)執(zhí)行單元,每個(gè)引擎管理一個(gè)GPU,并明確區(qū)分為專(zhuān)司預(yù)填充計(jì)算的預(yù)填充引擎和負(fù)責(zé)解碼生成的解碼引擎。
流量管理器內(nèi)嵌于每個(gè)引擎,統(tǒng)籌所有數(shù)據(jù)移動(dòng):包括主機(jī)與設(shè)備間的內(nèi)存拷貝、預(yù)填充與解碼引擎之間的KV緩存?zhèn)鬏?,以及通過(guò)存儲(chǔ)網(wǎng)卡進(jìn)行的KV緩存持久化讀寫(xiě)。其采用以計(jì)算網(wǎng)卡為中心的流量管理策略,確保KV緩存流量不會(huì)干擾延遲敏感的模型集體通信。
請(qǐng)求調(diào)度器作為中央決策單元,接收客戶(hù)端請(qǐng)求并智能分發(fā)給各引擎,同時(shí)動(dòng)態(tài)決策每條請(qǐng)求采用傳統(tǒng)存儲(chǔ)到預(yù)填充路徑還是新型存儲(chǔ)到解碼路徑,實(shí)現(xiàn)雙路徑間的流量均衡與全局負(fù)載優(yōu)化。
在具體實(shí)現(xiàn)上,DualPath在每個(gè)預(yù)填充引擎和解碼引擎上預(yù)留少量DRAM作為緩沖區(qū)。對(duì)于預(yù)填充端讀路徑,命中token的KV緩存首先從存儲(chǔ)讀入預(yù)填充引擎緩沖區(qū),然后按層流式傳入預(yù)填充引擎的HBM,與未命中token的KV計(jì)算過(guò)程重疊執(zhí)行。
隨后,完整的提示詞KV會(huì)被傳輸至解碼引擎緩沖區(qū),供解碼階段使用。對(duì)于解碼端讀路徑,命中KV首先加載到解碼引擎緩沖區(qū),在預(yù)填充引擎執(zhí)行預(yù)填充時(shí)逐層通過(guò)RDMA讀取,同時(shí)與計(jì)算重疊。未命中KV計(jì)算完成后回傳至解碼引擎,與命中KV合并形成完整提示詞緩存。無(wú)論哪條路徑,數(shù)據(jù)傳輸都采用分層流式方式,以緩解HBM容量壓力并實(shí)現(xiàn)計(jì)算與通信的重疊。
解碼階段開(kāi)始前,解碼引擎將完整KV從緩沖區(qū)傳入HBM,完成主機(jī)到設(shè)備拷貝后釋放CPU內(nèi)存;在生成過(guò)程中,每當(dāng)累積滿一個(gè)固定大小的token塊,就立即持久化到存儲(chǔ)。為了驗(yàn)證該架構(gòu)不會(huì)引入新的瓶頸,論文對(duì)計(jì)算網(wǎng)卡帶寬和DRAM帶寬進(jìn)行了系統(tǒng)性分析。
通過(guò)建立每對(duì)預(yù)填充引擎—解碼引擎之間的流量模型,并假設(shè)負(fù)載均衡與網(wǎng)絡(luò)無(wú)擁塞,作者推導(dǎo)出在一定的P/D(預(yù)填充節(jié)點(diǎn)與解碼節(jié)點(diǎn)數(shù)量之比)范圍內(nèi),計(jì)算網(wǎng)卡、PCIe以及DRAM均不會(huì)成為瓶頸。在典型配置(例如每節(jié)點(diǎn)8個(gè)GPU、存儲(chǔ)帶寬遠(yuǎn)小于計(jì)算帶寬)下,可行的P/D區(qū)間覆蓋大多數(shù)實(shí)際部署比例,說(shuō)明系統(tǒng)能夠在充分利用所有存儲(chǔ)網(wǎng)卡帶寬的同時(shí),保持計(jì)算與內(nèi)存資源的穩(wěn)定運(yùn)行。
03.系統(tǒng)落地仍面臨三大挑戰(zhàn)采用計(jì)算網(wǎng)卡為中心的流量管理
然而,在真實(shí)系統(tǒng)中落地雙路徑架構(gòu)仍面臨三項(xiàng)核心挑戰(zhàn)。首先是細(xì)粒度數(shù)據(jù)傳輸。分層執(zhí)行緩解了HBM容量壓力,但也將KV拆分為大量小塊,需要在存儲(chǔ)、主機(jī)DRAM和GPUHBM之間高效搬運(yùn),同時(shí)控制軟件與硬件開(kāi)銷(xiāo)。
其次是流量隔離。新增的KV傳輸可能干擾模型執(zhí)行中的延遲敏感型集體通信(如AllToAll、ReduceScatter/AllGather),若缺乏隔離機(jī)制,將直接推高端到端推理延遲。
最后是動(dòng)態(tài)負(fù)載均衡。由于系統(tǒng)存在兩條讀取路徑,調(diào)度器必須結(jié)合磁盤(pán)隊(duì)列長(zhǎng)度、GPU負(fù)載和請(qǐng)求特征動(dòng)態(tài)決策,否則容易再次形成局部瓶頸。
為避免KV傳輸干擾模型通信,系統(tǒng)采用以計(jì)算網(wǎng)卡為中心的流量管理機(jī)制。所有進(jìn)出GPU的流量,包括H2D/D2H拷貝,統(tǒng)一經(jīng)由與GPU配對(duì)的計(jì)算網(wǎng)卡,并通過(guò)GPUDirectRDMA完成傳輸,使全部數(shù)據(jù)流匯聚到計(jì)算網(wǎng)絡(luò),從而利用硬件QoS能力進(jìn)行優(yōu)先級(jí)隔離。
在基于InfiniBand的部署中,模型推理通信被映射到高優(yōu)先級(jí)虛擬通道,KV傳輸映射到低優(yōu)先級(jí)通道,并通過(guò)加權(quán)輪詢(xún)保障前者帶寬。這樣既保護(hù)了延遲敏感通信,又允許KV流量利用空閑帶寬。實(shí)驗(yàn)還表明,在大量小塊場(chǎng)景下,其更適合細(xì)粒度傳輸。
在調(diào)度層面,系統(tǒng)采用兩級(jí)自適應(yīng)機(jī)制。引擎間調(diào)度為請(qǐng)求選擇預(yù)填充引擎—解碼引擎對(duì)并確定讀取路徑,通過(guò)token數(shù)量與磁盤(pán)隊(duì)列長(zhǎng)度實(shí)現(xiàn)負(fù)載均衡;解碼引擎調(diào)度分為跨組與組內(nèi)兩階段,在平衡總token數(shù)的同時(shí)考慮HBM容量約束,避免資源過(guò)載。
引擎內(nèi)調(diào)度主要作用于預(yù)填充引擎,通過(guò)估計(jì)注意力層計(jì)算量設(shè)定“計(jì)算配額”,以FIFO方式組批,必要時(shí)對(duì)請(qǐng)求分塊,使各GPU計(jì)算時(shí)間趨于一致,減少同步等待。
總體而言,雙路徑加載聚合存儲(chǔ)帶寬,理論分析保證系統(tǒng)無(wú)新增瓶頸,計(jì)算網(wǎng)卡中心化設(shè)計(jì)實(shí)現(xiàn)嚴(yán)格流量隔離,自適應(yīng)調(diào)度則維持負(fù)載均衡與低延遲,共同構(gòu)成一個(gè)高吞吐、可擴(kuò)展的推理架構(gòu)。
04.實(shí)驗(yàn)證明KV緩存I/O開(kāi)銷(xiāo)已基本消除在千卡集群上實(shí)現(xiàn)線性擴(kuò)展
為驗(yàn)證DualPath帶來(lái)的性能提升,DeepSeek在一個(gè)由InfiniBand互連的GPU服務(wù)器集群上進(jìn)行實(shí)驗(yàn),評(píng)估了三個(gè)模型的表現(xiàn):DeepSeek V3.2 660B(記為DS 660B)、DS 660B的27B縮小版本(記為DS 27B)以及作為稠密模型代表的Qwen2.5-32B(記為Qwen 32B)。
實(shí)驗(yàn)結(jié)果顯示,DualPath在更大的批次規(guī)模和更長(zhǎng)的最大有效上下文長(zhǎng)度下獲益更加顯著。在DS 660B上,DualPath相較于DeepSeek內(nèi)部的基線推理框架最高實(shí)現(xiàn)1.87倍加速,且性能接近假設(shè)零I/O開(kāi)銷(xiāo)的理論性能上限,說(shuō)明KV緩存I/O開(kāi)銷(xiāo)已基本被消除。
在DS 27B上,DualPath相較于DeepSeek內(nèi)部的基線推理框架最高提升1.78倍。在改變追加長(zhǎng)度和生成長(zhǎng)度時(shí),DualPath在短token場(chǎng)景下優(yōu)勢(shì)更明顯。隨著追加長(zhǎng)度增加,GPU計(jì)算壓力增大,而生成長(zhǎng)度增加則因預(yù)填充間隔變長(zhǎng),降低了KV緩存加載壓力。圖9顯示,隨著追加長(zhǎng)度增長(zhǎng),未采用DualPath的推理引擎表現(xiàn)和DualPath的性能越發(fā)接近,表明系統(tǒng)瓶頸逐漸轉(zhuǎn)向GPU計(jì)算。在不同追加規(guī)模下,DualPath相較于基線實(shí)現(xiàn)1.82至1.99倍加速,生成長(zhǎng)度擴(kuò)展趨勢(shì)類(lèi)似。在不同預(yù)填充-解碼比例下,DualPath均顯著優(yōu)于基線,平均實(shí)現(xiàn)1.64倍加速,最高達(dá)2.46倍?;€推理引擎只能使用預(yù)填充節(jié)點(diǎn)的存儲(chǔ)帶寬,而DualPath能夠利用所有節(jié)點(diǎn)的帶寬,驗(yàn)證了在智能體場(chǎng)景下存儲(chǔ)帶寬是主要瓶頸。在在線服務(wù)評(píng)估中,DualPath在智能體請(qǐng)求到達(dá)速率上顯著優(yōu)于基線,在DS27B和DS660B上分別達(dá)到1.67倍和2.25倍提升。
在負(fù)載均衡方面,DualPath顯著改善了存儲(chǔ)網(wǎng)卡和注意力層執(zhí)行時(shí)間的均衡性。相較于輪詢(xún)調(diào)度,調(diào)度算法將存儲(chǔ)網(wǎng)卡負(fù)載均衡指標(biāo)從1.53優(yōu)化至1.18。同時(shí),在任務(wù)前5%執(zhí)行階段,將注意力層最大/平均執(zhí)行時(shí)間比控制在1.06以?xún)?nèi),減少了GPU空閑氣泡。在大規(guī)??蓴U(kuò)展性方面,DualPath系統(tǒng)在最多1152張GPU上進(jìn)行了驗(yàn)證。離線推理從2P4D(2K智能體)擴(kuò)展到48P96D(48K智能體)實(shí)現(xiàn)近線性擴(kuò)展,任務(wù)完成時(shí)間基本保持一致。
在線服務(wù)中,44P88D配置在保持相似延遲的同時(shí),將吞吐量提升22倍。所有實(shí)驗(yàn)中調(diào)度器CPU占用低于10核,表明其不是性能瓶頸。大規(guī)模部署不僅減少資源碎片化,還為并行度和P/D比例調(diào)優(yōu)提供更大靈活性,同時(shí)在突發(fā)在線請(qǐng)求場(chǎng)景下提供更多調(diào)度空間以緩解排隊(duì)延遲。
總結(jié)
DeepSeek DualPath系統(tǒng)的成功驗(yàn)證表明,打破“以預(yù)填充為中心”的傳統(tǒng)數(shù)據(jù)加載范式,是解決智能體場(chǎng)景下KV緩存I/O瓶頸的關(guān)鍵所在。通過(guò)構(gòu)建存儲(chǔ)到解碼的第二路徑,并結(jié)合以計(jì)算網(wǎng)卡為中心的流量管理與自適應(yīng)調(diào)度機(jī)制,DualPath不僅實(shí)現(xiàn)了存儲(chǔ)帶寬的全局聚合與高效利用,更在1152張GPU的大規(guī)模集群中展現(xiàn)了近線性的擴(kuò)展能力,將離線推理吞吐量最高提升1.87倍,在線服務(wù)吞吐量平均提升1.96倍,基本抹平了I/O開(kāi)銷(xiāo)對(duì)系統(tǒng)性能的限制。盡管未來(lái)在應(yīng)對(duì)高度動(dòng)態(tài)的工作負(fù)載時(shí),仍需探索更靈活的并行度與P/D比例自適應(yīng)調(diào)整機(jī)制,但DualPath無(wú)疑為業(yè)界提供了一套高吞吐、低延遲且可擴(kuò)展的推理新標(biāo)準(zhǔn),標(biāo)志著大模型基礎(chǔ)設(shè)施正式邁入“雙路徑”協(xié)同優(yōu)化的新階段。





