趋境科技与鲲鹏联合发布“鲲鹏+xPU解决方案”，革新大模型推理算力基础设施

2025年5月22日，在鲲鹏昇腾开发者大会2025（KADC 2025）上，趋境科技CEO艾智远与华为鲲鹏计算业务总裁李义联合发布“鲲鹏+xPU 解决方案”，深度融合趋境科技领先的异构协同推理技术与鲲鹏基础软硬件平台，推出面向大模型推理场景的一体化解决方案。

该方案兼容昇腾等主流 xPU，覆盖数据中心到边缘场景，提供鲲鹏推理工作站、鲲鹏推理服务器等多样化的产品形态，适配 DeepSeek、Qwen 等主流大模型，搭载趋境科技异构推理优化技术显著降低大模型推理门槛，助力企业构建高性能、低门槛的智能算力基础设施。

图片来源：企业供图

同时趋境科技也在大会分论坛上分享了基于“鲲鹏+xPU解决方案”中的具体技术实现与当前的性能指标。

技术架构：异构协同突破推理性能极限

在“鲲鹏+xPU 解决方案”中，搭载了趋境科技业界首创的异构协同推理技术，同时根据鲲鹏技术软硬件做了深度适配：

1、NUMA亲和优化。NUMA 众多，需要对算子进行 NUMA 亲和改造，以减少跨 NUMA 的访问和同步，以此降低访问延迟，提升推理吞吐。

2、鲲鹏计算加速。使用了 KML 鲲鹏数学库进行加速，算子性能提升100%；通过鲲鹏工具链中的毕昇编译器编译，性能提升50%。

3、并行计算加速。开启 MTP （多 tokens/s 预测），大约提升 40% 的性能；采用新技术“Expert 延迟计算”，完全隐藏 NPU CPU 运行空泡，性能最高提升2倍。

图片来源：企业供图

基于趋境科技与清华大学 KVCache.AI 团队开源的异构推理框架 KTransformers 当前完成两种方案的性能调试：

1、昇腾+鲲鹏 KTransformers 方案（AK+K），在单机单卡的环境中，能够运行 DeepSeek R1 671B 8bit 满血版，prefill 和 decode 速度是 llama.cpp 的 4-6 倍。

2、鲲鹏 CPU+ KTransformers 方案（K+K），在单机零卡的环境中，CPU MoE 算子带宽利用率达到 70 %，运行 DeepSeek R1 671B 8bit 满血版，prefill 和 decode 速度是 llama.cpp 的 4-6 倍。

趋境科技在梦想启航·鲲鹏昇腾种子计划加持下，计划与鲲鹏进一步推动“鲲鹏+xPU 解决方案”深化，推出更多的产品形态，将大模型拓展到端侧，推动AI普惠化。

趋境科技始终秉承“生态共赢”的理念，一方面通过部分开源的技术来推进技术社区建设和技术普惠，其高性能异构推理框架 KTransformers 自开源以来，已吸引全球超万名开发者关注；另一方面通过与各生态合作伙伴合作，推出多样化的推理解决方案，致力于解决大模型落地的实际问题，推动企业真正低门槛用上大模型，并解决业务中的实际问题。

趋境科技与鲲鹏联合发布“鲲鹏+xPU解决方案”，革新大模型推理算力基础设施

热门评论

热门推荐

趋境科技与鲲鹏联合发布“鲲鹏+xPU解决方案”，革新大模型推理算力基础设施

相关推荐

热门评论

热门推荐