DeepSeek發(fā)布DualPath：雙路徑加載機(jī)制徹底打破大模型KV緩存I/O瓶頸

發(fā)布時(shí)間：2026-02-28 來(lái)源：轉(zhuǎn)載責(zé)任編輯：lily

【導(dǎo)讀】在大模型智能體（Agent）應(yīng)用日益普及的今天，多輪交互導(dǎo)致的超長(zhǎng)上下文累積使得KV緩存的加載效率取代計(jì)算能力，成為制約推理性能的新瓶頸。傳統(tǒng)架構(gòu)中“存儲(chǔ)至預(yù)填充引擎”的單一路徑設(shè)計(jì)，導(dǎo)致了存儲(chǔ)網(wǎng)卡帶寬在預(yù)填充端飽和而在解碼端閑置的嚴(yán)重資源失衡。針對(duì)這一痛點(diǎn)，DeepSeek于2月27日重磅推出了名為DualPath的全新推理系統(tǒng)方案。該方案突破性地在存儲(chǔ)與解碼引擎之間開(kāi)辟了直通新通道，利用RDMA技術(shù)實(shí)現(xiàn)KV緩存的雙路徑動(dòng)態(tài)加載與負(fù)載均衡。作為由北大實(shí)習(xí)生吳永彤主導(dǎo)的最新成果，DualPath不僅在理論上消除了KV緩存的I/O開(kāi)銷(xiāo)，更在千卡集群的實(shí)測(cè)中將離線與在線吞吐量提升了近兩倍，為大模型在智能體場(chǎng)景下的高效落地提供了極具價(jià)值的架構(gòu)革新思路。

DeepSeek又找到突破大模型推理瓶頸的新方法了！智東西2月27日?qǐng)?bào)道，昨天，DeepSeek發(fā)布了一項(xiàng)名為DualPath的全新推理系統(tǒng)方案，直指當(dāng)前大語(yǔ)言模型在智能體應(yīng)用場(chǎng)景下遭遇的短板——KV緩存存儲(chǔ)I/O瓶頸。該方案通過(guò)引入雙路徑加載機(jī)制，顯著提升系統(tǒng)吞吐量，基本消除了KV緩存的I/O開(kāi)銷(xiāo)。

DualPath的核心創(chuàng)新在于開(kāi)辟了一條從存儲(chǔ)直通解碼引擎的新通道。KV緩存不再僅由預(yù)填充引擎加載，而是可以加載至解碼引擎，再通過(guò)計(jì)算網(wǎng)絡(luò)中的RDMA高效傳輸至預(yù)填充端。這一設(shè)計(jì)不僅緩解了存儲(chǔ)端的壓力，還避免了網(wǎng)絡(luò)擁塞，確保延遲敏感型任務(wù)不受干擾。與全局調(diào)度器協(xié)同后，DualPath實(shí)現(xiàn)了動(dòng)態(tài)平衡兩端負(fù)載，進(jìn)一步提升資源利用率。在真實(shí)智能體工作負(fù)載測(cè)試中，DualPath將離線推理吞吐量提升最高達(dá)1.87倍，在線服務(wù)吞吐量平均提升1.96倍。

在大規(guī)模可擴(kuò)展性方面，DualPath系統(tǒng)在最多1152張GPU上進(jìn)行了驗(yàn)證。離線推理從2P4D（2K智能體）擴(kuò)展到48P96D（48K智能體）實(shí)現(xiàn)近線性擴(kuò)展，任務(wù)完成時(shí)間基本保持一致。

值得一提的是，與之前DeepSeek發(fā)表的許多研究論文類(lèi)似，這篇論文的第一作者吳永彤同樣是DeepSeek的實(shí)習(xí)生。吳永彤目前在北京大學(xué)攻讀博士學(xué)位，師從金鑫教授，主要研究大模型基礎(chǔ)設(shè)施相關(guān)課題，自2025年8月以來(lái)便在DeepSeek系統(tǒng)組工作，曾參與DeepSeek-V3.2的研究。

01.智能體I/O瓶頸凸顯傳統(tǒng)設(shè)計(jì)成本高昂

隨著智能體應(yīng)用普及，多輪推理已成常態(tài)。智能體通過(guò)工具與外部環(huán)境進(jìn)行數(shù)十甚至數(shù)百輪交互，上下文跨輪累積到極長(zhǎng)長(zhǎng)度。由于多輪、短追加的特性，KV緩存命中率高達(dá)95%以上，加載效率取代計(jì)算成為性能主導(dǎo)因素?，F(xiàn)有系統(tǒng)采用分層預(yù)填充、預(yù)填充-解碼分離（PD分離）和外部KV緩存存儲(chǔ)架構(gòu)。但問(wèn)題在于：預(yù)填充引擎存儲(chǔ)網(wǎng)卡帶寬持續(xù)飽和，而解碼引擎存儲(chǔ)網(wǎng)卡帶寬大量閑置。這種不平衡暴露了根本性低效——存儲(chǔ)網(wǎng)絡(luò)帶寬利用不均，而單純?cè)黾宇A(yù)填充端帶寬成本高昂。

DualPath的提出正是為了解決上述問(wèn)題，其核心洞察在于打破“KV緩存加載必須以預(yù)填充為中心”的傳統(tǒng)設(shè)計(jì)?，F(xiàn)有系統(tǒng)僅通過(guò)存儲(chǔ)到預(yù)填充引擎的單一路徑加載，導(dǎo)致預(yù)填充端帶寬飽和而解碼端帶寬閑置。DualPath則增加了存儲(chǔ)到解碼路徑，將KV緩存先加載至空閑的解碼引擎，再通過(guò)RDMA高效傳輸給預(yù)填充引擎。這一模式聚合了所有存儲(chǔ)網(wǎng)卡帶寬，重新分配網(wǎng)絡(luò)負(fù)載，從根本上緩解預(yù)填充端的I/O瓶頸。

不過(guò)，該設(shè)計(jì)仍然面臨兩大挑戰(zhàn)：首先，引入額外的加載路徑會(huì)產(chǎn)生復(fù)雜的流量模式，并可能與模型執(zhí)行中的集體通信原語(yǔ)產(chǎn)生潛在干擾，若管理不當(dāng)會(huì)降低整體性能。其次，系統(tǒng)必須在動(dòng)態(tài)和異構(gòu)的工作負(fù)載下在線決定使用哪條加載路徑，并同時(shí)確保GPU和網(wǎng)卡之間的負(fù)載均衡。

02.三大核心組件打造DualPath新組件并未引入瓶頸

那么，DeepSeek究竟是如何解決這些挑戰(zhàn)的呢？DualPath使用了兩項(xiàng)廣泛使用的技術(shù)：（1）PD分離，將提示詞和解碼處理分開(kāi)以提高效率。（1）分層預(yù)填充，避免了預(yù)填充引擎上的HBM瓶頸，并提高了GPU利用率。而DualPath主要由三大核心組件構(gòu)成。

推理引擎是基礎(chǔ)執(zhí)行單元，每個(gè)引擎管理一個(gè)GPU，并明確區(qū)分為專(zhuān)司預(yù)填充計(jì)算的預(yù)填充引擎和負(fù)責(zé)解碼生成的解碼引擎。

流量管理器內(nèi)嵌于每個(gè)引擎，統(tǒng)籌所有數(shù)據(jù)移動(dòng)：包括主機(jī)與設(shè)備間的內(nèi)存拷貝、預(yù)填充與解碼引擎之間的KV緩存?zhèn)鬏?，以及通過(guò)存儲(chǔ)網(wǎng)卡進(jìn)行的KV緩存持久化讀寫(xiě)。其采用以計(jì)算網(wǎng)卡為中心的流量管理策略，確保KV緩存流量不會(huì)干擾延遲敏感的模型集體通信。

請(qǐng)求調(diào)度器作為中央決策單元，接收客戶(hù)端請(qǐng)求并智能分發(fā)給各引擎，同時(shí)動(dòng)態(tài)決策每條請(qǐng)求采用傳統(tǒng)存儲(chǔ)到預(yù)填充路徑還是新型存儲(chǔ)到解碼路徑，實(shí)現(xiàn)雙路徑間的流量均衡與全局負(fù)載優(yōu)化。

在具體實(shí)現(xiàn)上，DualPath在每個(gè)預(yù)填充引擎和解碼引擎上預(yù)留少量DRAM作為緩沖區(qū)。對(duì)于預(yù)填充端讀路徑，命中token的KV緩存首先從存儲(chǔ)讀入預(yù)填充引擎緩沖區(qū)，然后按層流式傳入預(yù)填充引擎的HBM，與未命中token的KV計(jì)算過(guò)程重疊執(zhí)行。

隨后，完整的提示詞KV會(huì)被傳輸至解碼引擎緩沖區(qū)，供解碼階段使用。對(duì)于解碼端讀路徑，命中KV首先加載到解碼引擎緩沖區(qū)，在預(yù)填充引擎執(zhí)行預(yù)填充時(shí)逐層通過(guò)RDMA讀取，同時(shí)與計(jì)算重疊。未命中KV計(jì)算完成后回傳至解碼引擎，與命中KV合并形成完整提示詞緩存。無(wú)論哪條路徑，數(shù)據(jù)傳輸都采用分層流式方式，以緩解HBM容量壓力并實(shí)現(xiàn)計(jì)算與通信的重疊。

解碼階段開(kāi)始前，解碼引擎將完整KV從緩沖區(qū)傳入HBM，完成主機(jī)到設(shè)備拷貝后釋放CPU內(nèi)存；在生成過(guò)程中，每當(dāng)累積滿一個(gè)固定大小的token塊，就立即持久化到存儲(chǔ)。為了驗(yàn)證該架構(gòu)不會(huì)引入新的瓶頸，論文對(duì)計(jì)算網(wǎng)卡帶寬和DRAM帶寬進(jìn)行了系統(tǒng)性分析。

通過(guò)建立每對(duì)預(yù)填充引擎—解碼引擎之間的流量模型，并假設(shè)負(fù)載均衡與網(wǎng)絡(luò)無(wú)擁塞，作者推導(dǎo)出在一定的P/D（預(yù)填充節(jié)點(diǎn)與解碼節(jié)點(diǎn)數(shù)量之比）范圍內(nèi)，計(jì)算網(wǎng)卡、PCIe以及DRAM均不會(huì)成為瓶頸。在典型配置（例如每節(jié)點(diǎn)8個(gè)GPU、存儲(chǔ)帶寬遠(yuǎn)小于計(jì)算帶寬）下，可行的P/D區(qū)間覆蓋大多數(shù)實(shí)際部署比例，說(shuō)明系統(tǒng)能夠在充分利用所有存儲(chǔ)網(wǎng)卡帶寬的同時(shí)，保持計(jì)算與內(nèi)存資源的穩(wěn)定運(yùn)行。

03.系統(tǒng)落地仍面臨三大挑戰(zhàn)采用計(jì)算網(wǎng)卡為中心的流量管理

然而，在真實(shí)系統(tǒng)中落地雙路徑架構(gòu)仍面臨三項(xiàng)核心挑戰(zhàn)。首先是細(xì)粒度數(shù)據(jù)傳輸。分層執(zhí)行緩解了HBM容量壓力，但也將KV拆分為大量小塊，需要在存儲(chǔ)、主機(jī)DRAM和GPUHBM之間高效搬運(yùn)，同時(shí)控制軟件與硬件開(kāi)銷(xiāo)。

其次是流量隔離。新增的KV傳輸可能干擾模型執(zhí)行中的延遲敏感型集體通信（如AllToAll、ReduceScatter/AllGather），若缺乏隔離機(jī)制，將直接推高端到端推理延遲。

最后是動(dòng)態(tài)負(fù)載均衡。由于系統(tǒng)存在兩條讀取路徑，調(diào)度器必須結(jié)合磁盤(pán)隊(duì)列長(zhǎng)度、GPU負(fù)載和請(qǐng)求特征動(dòng)態(tài)決策，否則容易再次形成局部瓶頸。

為避免KV傳輸干擾模型通信，系統(tǒng)采用以計(jì)算網(wǎng)卡為中心的流量管理機(jī)制。所有進(jìn)出GPU的流量，包括H2D/D2H拷貝，統(tǒng)一經(jīng)由與GPU配對(duì)的計(jì)算網(wǎng)卡，并通過(guò)GPUDirectRDMA完成傳輸，使全部數(shù)據(jù)流匯聚到計(jì)算網(wǎng)絡(luò)，從而利用硬件QoS能力進(jìn)行優(yōu)先級(jí)隔離。

在基于InfiniBand的部署中，模型推理通信被映射到高優(yōu)先級(jí)虛擬通道，KV傳輸映射到低優(yōu)先級(jí)通道，并通過(guò)加權(quán)輪詢(xún)保障前者帶寬。這樣既保護(hù)了延遲敏感通信，又允許KV流量利用空閑帶寬。實(shí)驗(yàn)還表明，在大量小塊場(chǎng)景下，其更適合細(xì)粒度傳輸。

在調(diào)度層面，系統(tǒng)采用兩級(jí)自適應(yīng)機(jī)制。引擎間調(diào)度為請(qǐng)求選擇預(yù)填充引擎—解碼引擎對(duì)并確定讀取路徑，通過(guò)token數(shù)量與磁盤(pán)隊(duì)列長(zhǎng)度實(shí)現(xiàn)負(fù)載均衡；解碼引擎調(diào)度分為跨組與組內(nèi)兩階段，在平衡總token數(shù)的同時(shí)考慮HBM容量約束，避免資源過(guò)載。

引擎內(nèi)調(diào)度主要作用于預(yù)填充引擎，通過(guò)估計(jì)注意力層計(jì)算量設(shè)定“計(jì)算配額”，以FIFO方式組批，必要時(shí)對(duì)請(qǐng)求分塊，使各GPU計(jì)算時(shí)間趨于一致，減少同步等待。

總體而言，雙路徑加載聚合存儲(chǔ)帶寬，理論分析保證系統(tǒng)無(wú)新增瓶頸，計(jì)算網(wǎng)卡中心化設(shè)計(jì)實(shí)現(xiàn)嚴(yán)格流量隔離，自適應(yīng)調(diào)度則維持負(fù)載均衡與低延遲，共同構(gòu)成一個(gè)高吞吐、可擴(kuò)展的推理架構(gòu)。

04.實(shí)驗(yàn)證明KV緩存I/O開(kāi)銷(xiāo)已基本消除在千卡集群上實(shí)現(xiàn)線性擴(kuò)展

為驗(yàn)證DualPath帶來(lái)的性能提升，DeepSeek在一個(gè)由InfiniBand互連的GPU服務(wù)器集群上進(jìn)行實(shí)驗(yàn)，評(píng)估了三個(gè)模型的表現(xiàn)：DeepSeek V3.2 660B（記為DS 660B）、DS 660B的27B縮小版本（記為DS 27B）以及作為稠密模型代表的Qwen2.5-32B（記為Qwen 32B）。

實(shí)驗(yàn)結(jié)果顯示，DualPath在更大的批次規(guī)模和更長(zhǎng)的最大有效上下文長(zhǎng)度下獲益更加顯著。在DS 660B上，DualPath相較于DeepSeek內(nèi)部的基線推理框架最高實(shí)現(xiàn)1.87倍加速，且性能接近假設(shè)零I/O開(kāi)銷(xiāo)的理論性能上限，說(shuō)明KV緩存I/O開(kāi)銷(xiāo)已基本被消除。

在DS 27B上，DualPath相較于DeepSeek內(nèi)部的基線推理框架最高提升1.78倍。在改變追加長(zhǎng)度和生成長(zhǎng)度時(shí)，DualPath在短token場(chǎng)景下優(yōu)勢(shì)更明顯。隨著追加長(zhǎng)度增加，GPU計(jì)算壓力增大，而生成長(zhǎng)度增加則因預(yù)填充間隔變長(zhǎng)，降低了KV緩存加載壓力。圖9顯示，隨著追加長(zhǎng)度增長(zhǎng)，未采用DualPath的推理引擎表現(xiàn)和DualPath的性能越發(fā)接近，表明系統(tǒng)瓶頸逐漸轉(zhuǎn)向GPU計(jì)算。在不同追加規(guī)模下，DualPath相較于基線實(shí)現(xiàn)1.82至1.99倍加速，生成長(zhǎng)度擴(kuò)展趨勢(shì)類(lèi)似。在不同預(yù)填充-解碼比例下，DualPath均顯著優(yōu)于基線，平均實(shí)現(xiàn)1.64倍加速，最高達(dá)2.46倍?；€推理引擎只能使用預(yù)填充節(jié)點(diǎn)的存儲(chǔ)帶寬，而DualPath能夠利用所有節(jié)點(diǎn)的帶寬，驗(yàn)證了在智能體場(chǎng)景下存儲(chǔ)帶寬是主要瓶頸。在在線服務(wù)評(píng)估中，DualPath在智能體請(qǐng)求到達(dá)速率上顯著優(yōu)于基線，在DS27B和DS660B上分別達(dá)到1.67倍和2.25倍提升。

在負(fù)載均衡方面，DualPath顯著改善了存儲(chǔ)網(wǎng)卡和注意力層執(zhí)行時(shí)間的均衡性。相較于輪詢(xún)調(diào)度，調(diào)度算法將存儲(chǔ)網(wǎng)卡負(fù)載均衡指標(biāo)從1.53優(yōu)化至1.18。同時(shí)，在任務(wù)前5%執(zhí)行階段，將注意力層最大/平均執(zhí)行時(shí)間比控制在1.06以?xún)?nèi)，減少了GPU空閑氣泡。在大規(guī)?？蓴U(kuò)展性方面，DualPath系統(tǒng)在最多1152張GPU上進(jìn)行了驗(yàn)證。離線推理從2P4D（2K智能體）擴(kuò)展到48P96D（48K智能體）實(shí)現(xiàn)近線性擴(kuò)展，任務(wù)完成時(shí)間基本保持一致。

在線服務(wù)中，44P88D配置在保持相似延遲的同時(shí)，將吞吐量提升22倍。所有實(shí)驗(yàn)中調(diào)度器CPU占用低于10核，表明其不是性能瓶頸。大規(guī)模部署不僅減少資源碎片化，還為并行度和P/D比例調(diào)優(yōu)提供更大靈活性，同時(shí)在突發(fā)在線請(qǐng)求場(chǎng)景下提供更多調(diào)度空間以緩解排隊(duì)延遲。

總結(jié)

DeepSeek DualPath系統(tǒng)的成功驗(yàn)證表明，打破“以預(yù)填充為中心”的傳統(tǒng)數(shù)據(jù)加載范式，是解決智能體場(chǎng)景下KV緩存I/O瓶頸的關(guān)鍵所在。通過(guò)構(gòu)建存儲(chǔ)到解碼的第二路徑，并結(jié)合以計(jì)算網(wǎng)卡為中心的流量管理與自適應(yīng)調(diào)度機(jī)制，DualPath不僅實(shí)現(xiàn)了存儲(chǔ)帶寬的全局聚合與高效利用，更在1152張GPU的大規(guī)模集群中展現(xiàn)了近線性的擴(kuò)展能力，將離線推理吞吐量最高提升1.87倍，在線服務(wù)吞吐量平均提升1.96倍，基本抹平了I/O開(kāi)銷(xiāo)對(duì)系統(tǒng)性能的限制。盡管未來(lái)在應(yīng)對(duì)高度動(dòng)態(tài)的工作負(fù)載時(shí)，仍需探索更靈活的并行度與P/D比例自適應(yīng)調(diào)整機(jī)制，但DualPath無(wú)疑為業(yè)界提供了一套高吞吐、低延遲且可擴(kuò)展的推理新標(biāo)準(zhǔn)，標(biāo)志著大模型基礎(chǔ)設(shè)施正式邁入“雙路徑”協(xié)同優(yōu)化的新階段。

3-958x200_20251021044704_586_20260213110352_663_20260218181015_530.png

上一篇：Altera 攜手博通等巨頭亮相 MWC 2026：以可編程創(chuàng)新重塑下一代射頻生態(tài)

下一篇：年薪最高470萬(wàn)！OpenAI天價(jià)搶人揭秘：硅谷AI人才戰(zhàn)進(jìn)入“鈔能力”時(shí)代

特別推薦

噪聲中提取真值！瑞盟科技推出MSA2240電流檢測(cè)芯片賦能多元高端測(cè)量場(chǎng)景
10MHz高頻運(yùn)行！氮矽科技發(fā)布集成驅(qū)動(dòng)GaN芯片，助力電源能效再攀新高
失真度僅0.002%！力芯微推出超低內(nèi)阻、超低失真4PST模擬開(kāi)關(guān)
一“芯”雙電！圣邦微電子發(fā)布雙輸出電源芯片，簡(jiǎn)化AFE與音頻設(shè)計(jì)
一機(jī)適配萬(wàn)端：金升陽(yáng)推出1200W可編程電源，賦能高端裝備制造

技術(shù)文章更多>>

技術(shù)白皮書(shū)下載更多>>

国产精品国精品国产免费,夜趣导航唯一官方网站,美国操逼福利,宅男视频在线播放日韩一级片在线观看_啪啪无遮挡_在车里做的三级_欧美日韩激情视频

DeepSeek發(fā)布DualPath：雙路徑加載機(jī)制徹底打破大模型KV緩存I/O瓶頸

友情鏈接(QQ：317243736)

国产精品国精品国产免费,夜趣导航唯一官方网站,美国操逼福利,宅男视频在线播放 日韩一级片在线观看_啪啪无遮挡_在车里做的三级_欧美日韩激情视频

DeepSeek發(fā)布DualPath：雙路徑加載機(jī)制徹底打破大模型KV緩存I/O瓶頸

友情鏈接(QQ：317243736)

国产精品国精品国产免费,夜趣导航唯一官方网站,美国操逼福利,宅男视频在线播放日韩一级片在线观看_啪啪无遮挡_在车里做的三级_欧美日韩激情视频