趋境科技与鲲鹏联合发布“鲲鹏+xPU解决方案”,革新大模型推理算力基础设施

2025年5月22日,在鲲鹏昇腾开发者大会2025(KADC 2025)上,趋境科技CEO艾智远与华为鲲鹏计算业务总裁李义联合发布“鲲鹏+xPU 解决方案”。

图片来源: 企业供图

2025年5月22日,在鲲鹏昇腾开发者大会2025(KADC 2025)上,趋境科技CEO艾智远与华为鲲鹏计算业务总裁李义联合发布“鲲鹏+xPU 解决方案”,深度融合趋境科技领先的异构协同推理技术与鲲鹏基础软硬件平台,推出面向大模型推理场景的一体化解决方案。

该方案兼容昇腾等主流 xPU,覆盖数据中心到边缘场景,提供鲲鹏推理工作站、鲲鹏推理服务器等多样化的产品形态,适配 DeepSeek、Qwen 等主流大模型,搭载趋境科技异构推理优化技术显著降低大模型推理门槛,助力企业构建高性能、低门槛的智能算力基础设施。

image

图片来源:企业供图

同时趋境科技也在大会分论坛上分享了基于“鲲鹏+xPU解决方案”中的具体技术实现与当前的性能指标。

技术架构:异构协同突破推理性能极限

在“鲲鹏+xPU 解决方案”中,搭载了趋境科技业界首创的异构协同推理技术,同时根据鲲鹏技术软硬件做了深度适配:

1、NUMA亲和优化。NUMA 众多,需要对算子进行 NUMA 亲和改造,以减少跨 NUMA 的访问和同步,以此降低访问延迟,提升推理吞吐。

2、鲲鹏计算加速。使用了 KML 鲲鹏数学库进行加速,算子性能提升100%;通过鲲鹏工具链中的毕昇编译器编译,性能提升50%。

3、并行计算加速。开启 MTP (多 tokens/s 预测),大约提升 40% 的性能;采用新技术“Expert 延迟计算”,完全隐藏 NPU CPU 运行空泡,性能最高提升2倍。

image

图片来源:企业供图

基于趋境科技与清华大学 KVCache.AI 团队开源的异构推理框架 KTransformers 当前完成两种方案的性能调试:

1、昇腾+鲲鹏 KTransformers 方案(AK+K),在单机单卡的环境中,能够运行 DeepSeek R1 671B 8bit 满血版,prefill 和 decode 速度是 llama.cpp 的 4-6 倍。

2、鲲鹏 CPU+ KTransformers 方案(K+K),在单机零卡的环境中,CPU MoE 算子带宽利用率达到 70 %,运行 DeepSeek R1 671B 8bit 满血版,prefill 和 decode 速度是 llama.cpp 的 4-6 倍。

趋境科技在梦想启航·鲲鹏昇腾种子计划加持下,计划与鲲鹏进一步推动“鲲鹏+xPU 解决方案”深化,推出更多的产品形态,将大模型拓展到端侧,推动AI普惠化。

趋境科技始终秉承“生态共赢”的理念,一方面通过部分开源的技术来推进技术社区建设和技术普惠,其高性能异构推理框架 KTransformers 自开源以来,已吸引全球超万名开发者关注;另一方面通过与各生态合作伙伴合作,推出多样化的推理解决方案,致力于解决大模型落地的实际问题,推动企业真正低门槛用上大模型,并解决业务中的实际问题。

未经正式授权严禁转载本文,侵权必究。如需转载请联系:youlianyunpindao@163.com
以上内容与数据仅供参考,与界面有连云频道立场无关,不构成投资建议,使用前请核实。据此操作,风险自担。

打开界面新闻APP,查看原文
界面新闻
打开界面新闻,查看更多专业报道

热门评论

打开APP,查看全部评论,抢神评席位

热门推荐

    下载界面APP 订阅更多品牌栏目
      界面新闻
      界面新闻
      只服务于独立思考的人群
      打开