腾讯混元 AI Infra 核心技术开源,推理吞吐提升 30%

→ 源码教程下载地址见 →右侧下载链接 →点“登录购买”→注册登录购买后可见→
→ 这里没有广告,只有干货! 给力项目更多教程,点此加入VIP会员,即可免费下载!
→ 每日分享你意想不到的网络思维!加入红帽VIP会员,感受一下网络赚钱的快感,点击进入了解。

2 月 4 日消息,腾讯混元 AI Infra 团队今日宣布推出开源生产级高性能 LLM 推理核心算子库 HPC-Ops。

该算子库宣称基于生产环境痛点,采用 CUDA 和 CuTe 从零构建,通过抽象化工程架构、微架构深度适配及指令级极致优化等,降低底层算子开发门槛,将核心算子性能逼近硬件峰值,实现了性能突破。

在真实场景下,基于 HPC-Ops,混元模型推理 QPM 提升 30%,DeepSeek 模型 QPM 提升 17%。同时,在单算子性能方面,HPC-Ops 实现 Attention 相比 FlashInfer / FlashAttention 最高提升 2.22 倍;GroupGEMM 相比 DeepGEMM 最高提升 1.88 倍;FusedMoE 相比 TensorRT-LLM 最高提升 1.49 倍。

在未来的发展规划中,HPC-Ops 将持续深耕大模型推理性能的突破方向:

  • 一方面,将重点研发稀疏 Attention 算子,针对性解决长上下文大模型的内存与算力瓶颈;

  • 另一方面,会拓展更丰富的量化策略,覆盖 4bit/8bit 混合精度等更多量化方案,进一步平衡推理速度与模型精度;

  • 此外,算子库还将布局计算-通信协同优化的内核,通过融合多 GPU 间的计算逻辑与通信流程,大幅降低分布式推理场景下的通信开销,为超大规模大模型的高效部署提供底层支撑。

附 HPC-Ops 开源地址如下:

https://github.com/Tencent/hpc-ops


温馨提示:
1、如非特别声明,本内容转载于网络,版权归原作者所有!
2、本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
3、本内容若侵犯到你的版权利益,请联系我们,会尽快给予删除处理!
我要投诉
红帽SEO工作室 » 腾讯混元 AI Infra 核心技术开源,推理吞吐提升 30%
在线客服 购买特价主机

服务热线

139-3511-2134

关注红帽网络

微信客服

微信客服