参数超万亿：阿里发布通义千问最强 AI 大模型 Qwen3-Max 正式版，性能全面领先-网络资讯-红帽SEO工作室

当前位置：红帽SEO工作室网络资讯参数超万亿：阿里发布通义千问最强 AI 大模型 Qwen3-Max 正式版，性能全面领先

→ 源码教程下载地址见 →右侧下载链接 →点“登录购买”→注册登录购买后可见→
→ 这里没有广告，只有干货！给力项目更多教程，点此加入VIP会员,即可免费下载！
→ 每日分享你意想不到的网络思维！加入红帽VIP会员，感受一下网络赚钱的快感，点击进入了解。

9 月 24 日消息，继 Qwen3-2507 系列发布之后，阿里云今天宣布推出 Qwen3-Max —— 通义团队迄今为止规模最大、能力最强的语言模型。

Qwen3-Max-Instruct 正式版在代码能力和智能体能力方面进一步提升，在涵盖知识、推理、编程、指令遵循、人类偏好对齐、智能体任务和多语言理解的全面基准测试中均达到业界领先水平。

通义团队表示，仍在训练中的 Qwen3-Max-Thinking 已展现出非凡潜力，预计在不久的将来向公众正式发布这一版本。据介绍，在结合工具使用并增加测试时计算资源的情况下，该“思考”版本已在 AIME 25、HMMT 等高难度推理基准测试中取得 100% 的准确率。

附官方地址：

据阿里介绍，Qwen3-Max 模型总参数超过 1T，预训练使用了 36T tokens。模型结构沿用了 Qwen3 系列的模型结构设计范式，使用了 global-batch load balancing loss。

训练稳定性：得益于 Qwen3 的 MoE 模型结构设计，Qwen3-Max 的预训练 loss 稳定平滑。训练过程一气呵成，没有任何 loss 尖刺，也没有使用训练回退、改变数据分布等调整策略。
训练高效性：在 PAI-FlashMoE 的高效多级流水并行策略优化下，Qwen3-Max-Base 训练效率显著提升，其 MFU 相比 Qwen2.5-Max-Base 相对提升 30%。在长序列训练场景中，进一步使用 ChunkFlow 策略获得了相比序列并行方案提升 3 倍的吞吐收益，支持 Qwen3-Max 1M 长上下文的训练。同时，通过 SanityCheck、EasyCheckpoint、调度链路优化等多种手段，Qwen3-Max 在超大规模集群上因硬件故障造成的时间损失下降为 Qwen2.5-Max 的五分之一。

据介绍，Qwen3-Max-Instruct 的预览版已在 LMArena 文本排行榜上稳居全球前三（超越 GPT-5-Chat）。正式发布版本进一步提升了其能力，尤其在代码生成与智能体表现方面表现卓越。

IT之家注意到，在专注于解决现实编程挑战的基准测试 SWE-Bench Verified 上，Qwen3-Max-Instruct 取得了高达 69.6 分的优异成绩，稳居全球顶尖模型之列。

此外，在评估智能体工具调用能力的严苛基准 Tau2-Bench 上，Qwen3-Max-Instruct 更是实现了突破性表现，以 74.8 分超越 Claude Opus 4 与 DeepSeek-V3.1。

Qwen3-Max 的推理增强版本 —— Qwen3-Max-Thinking，通过集成代码解释器并运用并行测试时计算技术，展现了前所未有的推理能力，尤其在极具挑战性的数学推理基准测试 AIME 25 和 HMMT 上，均取得了满分。

温馨提示：
1、如非特别声明，本内容转载于网络，版权归原作者所有！
2、本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
3、本内容若侵犯到你的版权利益，请联系我们，会尽快给予删除处理！
我要投诉
红帽SEO工作室 » 参数超万亿：阿里发布通义千问最强 AI 大模型 Qwen3-Max 正式版，性能全面领先

分享到：