近日,DeepSeek团队联合清华大学、北京大学计算机学院发表名为《DualPath:突破智能体LLM推理中的存储带宽瓶颈》的论文。针对智能体LLM推理中的KV-Cache存储瓶颈,论文提出DualPath系统。该系统打破传统单一存储到预填充路径,引入创新的存储到解码路径,利用闲置带宽并配合全局动态调度。实验显示,其在线推理吞吐量平均提升达1.96倍。

近日,DeepSeek团队联合清华大学、北京大学计算机学院发表名为《DualPath:突破智能体LLM推理中的存储带宽瓶颈》的论文。针对智能体LLM推理中的KV-Cache存储瓶颈,论文提出DualPath系统。该系统打破传统单一存储到预填充路径,引入创新的存储到解码路径,利用闲置带宽并配合全局动态调度。实验显示,其在线推理吞吐量平均提升达1.96倍。

广告等商务合作,请点击这里
