
阿里巴巴通义千问29日凌晨发布新一代Qwen3系列人工智能(AI)模型。通义千问声称,新版模型参数量仅DeepSeek-R1的三分之一,成本大幅下降,同时,可与美国Google和OpenAI提供的最佳模型(如OpenAI-o1等模型)相比,在某些情况下甚至优于竞争对手。
据中国证券报,阿里巴巴开源新一代通义千问模型Qwen3是「混合推理模型」,「快思考」与「慢思考」集成进同一个模型,对简单需求可低算力「秒回」答案,适用于对速度要求高于深度的简单问题。而对复杂问题可多步骤「深度思考」,节省算力消耗。
港媒《信报》指出,新版Qwen3包括2个采用混合专家(MoE)模型和6个Dense模型,参数量从6亿个到2,350亿个。与DeepSeek-R1、OpenAI o1及o3-mini、马斯克的Grok 3和谷歌Gemini 2.5 Pro等其他顶级模型比较,旗舰模型Qwen3-235B-A22B在编码、数学、通用能力等基准评估中,取得具竞争力的结果。
小型MoE模型Qwen3-30B-A3B的活化参数量是QwQ-32B的10%,表现更胜一筹,甚至像Qwen3-4B这样的小模型,也能匹敌Qwen2.5-72B-Instruct的表现。而6个Dense模型也已开源,包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B,均在Apache 2.0许可下开源。
至于性能方面,Qwen3预训练数据量达36T ,并在后训练阶段进行多轮强化学习,在推理、指令遵循、工具调用、多语言能力等方面均有增强。在性能提升的同时,Qwen3部署成本下降,仅需4张H20即可部署Qwen3满血版。
上述新版Qwen3系列模型采用宽松的Apache2.0协定开源,首次支持119种语言,全球开发者、研究机构和企业均可免费在魔搭社群、HuggingFace等平台下载模式并商用,也可以通过阿里云百炼调用Qwen3的API服务。
通义千问并表示,Qwen3模型推理能力大幅提升,在数学、代码和逻辑推理等评测中,达到同规模业界SOTA水准。
此前,有消息在4月初时指出,阿里将在本(4)月第二周发布新模型Qwen3,这将是阿里在2025年上半年最重要的模型产品。知情人士指出,2024年第4季,业内已经意识到模型的推理能力很重要,但还不能说是最重要的方向,DeepSeek火爆后,推理能力已经成为绕不开的关键能力。DeepSeek-R1发布后,阿里云基础模型团队把策略中心进一步向模型的推理能力倾斜。