科大讯飞与华为昇腾联合优化MoE模型集群推理性能

pepsi 新闻 2025-04-19 12

科大讯飞与华为昇腾联合优化MoE模型集群推理性能-第1张图片-芙蓉之城

4月18日，科大讯飞研究院宣布，其与华为昇腾联合团队在“飞星一号”平台上成功优化了MoE模型集群的推理性能。通过一系列技术创新，近期实现了大规模专家并行集群推理性能的翻倍提升。

据介绍，科大讯飞此前已在国产算力集群上率先突破MoE模型的大规模跨节点专家并行集群推理，并发布了基于国产算力的首个MoE模型训练与推理解决方案。在此前版本的基础上，联合团队进一步升级了适配MoE模型的PD分离+大规模专家并行系统解决方案，进行了多项技术改进：

首先，通过适配MoE的PD分离部署，团队定制了集合通信协议，有效消除了集合通信流量冲突，解决了推理过程中Prefill阶段和Decode阶段的相互干扰问题，使P实例和D实例均达到系统最优状态，整体性能提升了20%以上。

其次，联合团队成功实现了国产算力上的MTP多token预测技术，大幅降低了MTP层的计算耗时，使整体性能提升了30%以上。

此外，专家负载均衡算法也得到了进一步优化，通过多DP负载均衡技术，将卡间负载均衡差异控制在8%以内，从而使集群推理吞吐性能提升了30%以上。

最后，团队创新性地引入了异步双发射技术，有效解决了高并发场景下的高CPU负载问题，实现了CPU与NPU之间的高效协同。这一改进不仅降低了服务请求调度的耗时，还使系统性能整体提升了10%。

基于上述解决方案的优化与升级，联合团队在“飞星一号”平台上对星火MoE模型、DeepSeekV3/R1等模型进行了实测，结果显示推理性能较上一版本提升了1倍，已接近国产算力上MoE集群推理的性能上限。这一成果标志着国产算力在大规模模型推理领域的技术水平迈上了新台阶。

本文地址： http://huotuhuo.com/post/84905.html