中国杭州讯,阿里巴巴集团日前发布开源大语言模型家族最新成员 Qwen3,为 AI 创新树立新标杆。
Qwen3 系列包含六款密集模型与两款混合专家模型(Mixture-of-Experts, MoE),有助开发者更灵活地开发适用于移动设备、智能眼镜、自动驾驶汽车及机器人等场景上的应用。
Qwen3 全系列模型现已开源并全球上线,包含六款密集模型(参数量 0.6B、1.7B、4B、8B、14B、32B)及两款 MoE 模型(30B 总参数、3B 激活参数;235B 总参数、22B 激活参数)。
混合推理结合思考与非思考模式
Qwen3 标志着阿里巴巴首次推出混合推理模型,融合传统大语言模型与先进的动态推理技术。Qwen3 可无缝切换「思考模式」与「非思考模式」, 「思考模式」专攻数学演算、编程及逻辑推理等多步骤复杂任务,「非思考模式」则专注于提供高速、通用型回应。
透过 API 调用 Qwen3,开发者可精细控制思考时长(最高达 38K tokens),获取智能表现与运算效率间的最佳平衡。值得注意的是,相较于其他顶尖模型,Qwen3-235B-A22B MoE 模型大幅降低了部署成本,彰显阿里巴巴推动高性能 AI 普及化的承诺。
多语言能力、智能体功能、推理、人机对齐的技术革新
基于 36 万亿 tokens 训练数据量(较前代 Qwen2.5 倍增),Qwen3 在推理、指令遵循、工具运用及多语言任务方面能力显著提升。
核心能力包括:
● 精通多种语言:支持 119 种语言及方言,翻译与多语种指令遵循表现领先业界。
● 先进智能体整合:原生支持模型上下文协议(Model Context Protocol, MCP),具有强大的函數调用能力(Function Calling),复杂智能体任务表现居开源模型之首。
● 卓越推理能力:数学运算、编程与逻辑推理的基准测试表现全面超越前代 Qwen 系列(思考模式 QwQ 与非思考模式 Qwen2.5)
● 强化人机对齐:提供更自然的创意写作、角色扮演与多轮对话体验,实现更自然、更具互动性的对话。
Qwen3系列在多项业界基准测试中获得顶尖成绩
基于模型架构的进步、训练数据量的提升以及更有效的训练方法,Qwen3 系列在多项业界基准测试中获得顶尖成绩,包括 AIME25(数学推理)、LiveCodeBench(编程能力)、BFCL(工具及函數调用能力),以及 Arena-Hard(指令微调模型基准测试)。此外,为开发混合推理模型,研发团队采用了四阶段训练流程,包含长思维链(Chain-of-Thought, CoT)冷启动、长思维链强化学习(Reinforcement Learning, RL)、思维模式融合与通用强化学习。
开放生态驱动创新
Qwen3 全系列模型现已在开源平台 Hugging Face、Github 及 ModelScope 供免费下载,并可透过 chat.qwen.ai 体验。阿里巴巴 AI 模型开发平台 Model Studio 即将开放 API 接入服务。Qwen3 将用于支持阿里巴巴旗舰级 AI 超级助手「夸克」。
自发布以来,Qwen 模型家族全球下载量突破3亿次。在 Hugging Face 平台,基于 Qwen 创建的衍生模型已超 10 万个,令 Qwen 成为全球应用最广泛采用的开源 AI 模型系列之一。
你觉得这篇文章如何? How do you feel about this article?
你已经对这篇文章做出反应了 You have already reacted to this article