阿里通义 Qwen3 上线 ,开源大军再添一名猛将
4 月 29 日,通义 App 与通义网页版全面上线阿里新一代通义千问开源模型 Qwen3。用户可以第一时间在通义 App 和网页版中的专属智能体 " 千问大模型 ",以及主对话页面,体验到最强开源模型的智能能力。
Qwen3 一经发布便登顶全球最强开源模型,包含 8 款不同尺寸,均为全新的 " 混合推理模型 ",智能水平大幅提升的同时也更省算力。
其中,旗舰模型 Qwen3-235B-A22B 是一款混合专家(MoE)模型,该模型创下所有国产模型及全球开源模型的性能新高。在代码、数学、通用能力等基准测试中,Qwen3-235B-A22B 展现出多项具有竞争力的数据,直逼 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型。
除此之外,小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%,表现更胜一筹。而 Qwen3-32B 是一款稠密(Dense)模型,部署成本低、稳定高效,是企业部署首选。
通义还开源了两个 MoE 模型的权重:一个是拥有 2350 多亿总参数和 220 多亿激活参数的 Qwen3-235B-A22B,一个是拥有约 300 亿总参数和 30 亿激活参数的小型 MoE 模型 Qwen3-30B-A3B。此外,六个 Dense 模型也已开源,包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B,均在 Apache 2.0 许可下开源。
目前, Qwen3-30B-A3B 等经过后训练的模型已在 Hugging Face、ModelScope 和 Kaggle 等平台上开放使用。用户可在 Qwen Chat 网页版 ( chat.qwen.ai ) 和通义 APP 中试用 Qwen3。
深思考,多语言
Qwen3 支持两种思考模式:
深入思考:在这种模式中,模型会逐步推理,经过深思熟虑后给出最终答案,非常适合需要深入思考的复杂问题。
快速思考:在这种模式中,模型提供快速、近乎即时的响应,适用于那些对速度要求高于深度的简单问题。
用户可以根据具体任务控制模型进行 " 思考 " 的程度,复杂的问题可以通过深入思考来解决,而简单的问题则可以通过快速作答。
值得关注的是,这两种模式的结合大大增强了模型实现稳定且高效的 " 思考预算 " 控制能力,让用户能够更轻松地为不同任务配置特定的预算,在成本效益和推理质量之间实现更优的平衡。
除了多种思考模式,Qwen3 模型还支持多语言功能,涵盖了 119 种语言和方言。
X 上网友也纷纷给出好评!
网友表示,Qwen 3 能快能慢,答案精准。对于编码,它运行良好。对于数学,它保持平静。对于语言,它非常真实。
" 开源模型已经很久没有这么好了。"
预训练,后训练
Qwen3 预训练实现了三重升级:
第一重,数据增强。预训练语料规模达 36 万亿 token,是 Qwen2.5 的 2 倍,覆盖 119 种语言。通义通过多源数据构建了强大的数据集:
网络数据 +PDF 文档提取(Qwen2.5-VL 处理)
专家模型合成数学 / 代码数据(Qwen2.5-Math/Coder 生成教材 / 问答 / 代码)
第二重,阶段训练。预训练过程分为三个阶段:
S1 基础训练:30 万亿 token(上下文长度为 4K token),建立基础能力
S2 知识强化:5 万亿 token,提升 STEM/ 编程 / 推理数据占比
S3 长文本适应:32K token 上下文训练,优化长文本处理
第三重,性能突破。
Dense 模型:小参数量对标 Qwen2.5(如 1.7B ≈ 3B),STEM/ 编程 / 推理能力反超 Qwen2.5
MoE 模型:使用 10% 激活参数达到 Qwen2.5 Dense 水平,训练推理成本大幅降低
后训练方面,通义实施了一个四阶段的训练流程:
长思维链冷启动:涵盖数学、代码、逻辑推理和 STEM 问题等多种任务和领域,配备基本推理能力
长思维链强化学习:大规模强化学习,基于规则的奖励增强模型的探索和钻研能力
思维模式融合:整合非思考模式,确保推理和快速响应能力无缝结合
通用强化学习:应用强化学习于指令遵循、格式遵循和 Agent 能力等在内的 20 多个通用领域,增强模型的通用能力并纠正不良行为
Qwen3 使用演示
首先来看 Hugging Face transformers 中使用 Qwen3-30B-A3B 的标准示例:
要禁用思考模式,只需对参数 enable_thinking 进行如下修改:
可以使用 sglang>=0.4.6.post1 或 vllm>=0.8.4 来创建一个与 OpenAI API 兼容的 API endpoint:
若要禁用思考模式,可以通过移除参数 --reasoning-parser(以及 --enable-reasoning)。
如果用于本地开发,可以通过运行简单的命令 ollama run qwen3:30b-a3b 来使用 ollama 与模型进行交互,也可以使用 LMStudio 或者 llama.cpp 以及 ktransformers 等代码库进行本地开发。
还有一种软切换机制,允许用户在 enable_thinking=True 时动态控制模型的行为,只需在用户提示或系统消息中添加 /think 和 /no_think,就可以逐轮切换模型的思考模式:
Qwen3 在工具调用方面同样表现出色。Qwen-Agent 内部封装了工具调用模板和工具调用解析器,降低代码复杂性:
今年 1 月份千问发布 Qwen2.5-Max,性能比肩 DeepSeek V3、GPT-4 和 Claude-3.5-Sonnet。短短三个月又迎来 Qwen3,阿里在 AGI 这条路上又完成了一个里程碑。此次的亮点旨在 " 双模推理 " 技术——允许用户在深度推理的思考模式与及时响应的非思考模式间自由切换,并提供计算资源动态分配接口,为不同场景需求提供精准算力支持。
未来,通义团队计划从扩展数据规模、增加模型大小、延长上下文长度、拓宽模态范围等方面提升模型性能,从训练模型的时代,慢慢过渡到训练 Agent 的时代。
参考资料:https://mp.weixin.qq.com/s/OvobsCPW0IwxeSm8pljv-A
雷峰网