界面新聞記者 | 肖芳
界面新聞編輯 | 文姝琪
4月29日凌晨,阿里巴巴開源新一代通義千問模型Qwen3,參數(shù)量僅為DeepSeek-R1的1/3,成本大幅下降,性能全面超越R1、OpenAI-o1等全球頂尖模型,登頂全球最強開源模型。Qwen3是國內首個“混合推理模型”,“快思考”與“慢思考”集成進同一個模型,對簡單需求可低算力“秒回”答案,對復雜問題可多步驟“深度思考”,大大節(jié)省算力消耗。
“混合推理”相當于把頂尖的推理模型和非推理模型集成到同一個模型里去,需要極其精細、創(chuàng)新的設計及訓練。目前,熱門模型中只有千問3、Claude3.7以及Gemini 2.5 Flash可以做到。
在“推理模式”下,模型會執(zhí)行更多中間步驟,如分解問題、逐步推導、驗證答案等,給出更深思熟慮的答案;而在“非推理模式”下,模型會直接生成答案。同一個模型,可以完成“快思考”和“慢思考”,這類似于人類在回答簡單問題時,憑經驗或直覺快速作答,面對復雜難題時再深思熟慮,仔細思考給出答案。
設計和訓練混合推理模型的難度,是遠超單純的推理模型的。訓練混合推理模型,有復雜的機制,相當于模型要學習兩種不同的輸出分布,要做到兩個模式融合且基本不影響任何一種模式下的效果,很考驗訓練過程的訓練策略。
“推理/非推理”二合一的混合推理模型,既提升了模型本身的智能水平,又整體降低了算力資源消耗。正因為如此,Qwen3在性能大幅提升的同時,成本還出現(xiàn)了下降。
在性能方面,Qwen3采用混合專家(MoE)架構,總參數(shù)量235B,激活僅需22B。Qwen3預訓練數(shù)據(jù)量達36T ,并在后訓練階段多輪強化學習,將非思考模式無縫整合到思考模型中。
評測顯示,Qwen3在推理、指令遵循、工具調用、多語言能力等方面均大幅增強,即創(chuàng)下所有國產模型及全球開源模型的性能新高。其中,在奧數(shù)水平的AIME25測評中,Qwen3斬獲81.5分,刷新開源紀錄;在考察代碼能力的LiveCodeBench評測中,Qwen3突破70分大關,表現(xiàn)甚至超過Grok3;在評估模型人類偏好對齊的ArenaHard測評中,Qwen3以95.6分超越OpenAI-o1及DeepSeek-R1。
同時,Qwen3的部署成本還大幅下降,僅需4張H20即可部署Qwen3滿血版,顯存占用僅為性能相近模型的三分之一。
Qwen3還提供了豐富的模型版本,包含2款30B、235B的MoE模型,以及0.6B、1.7B、4B、8B、14B、32B等6款密集模型,每款模型均斬獲同尺寸開源模型SOTA(最佳性能):Qwen3的30B參數(shù)MoE模型實現(xiàn)了10倍以上的模型性能杠桿提升,僅激活3B就能媲美上代Qwen2.5-32B模型性能;Qwen3的稠密模型性能繼續(xù)突破,一半的參數(shù)量可實現(xiàn)同樣的高性能,如32B版本的Qwen3模型可跨級超越Qwen2.5-72B性能。
Qwen3為即將到來的智能體Agent和大模型應用爆發(fā)提供了更好的支持。在評估模型Agent能力的BFCL評測中,Qwen3創(chuàng)下70.8的新高,超越Gemini2.5-Pro、OpenAI-o1等頂尖模型,將大幅降低Agent調用工具的門檻。
同時,Qwen3原生支持MCP協(xié)議,并具備工具調用(function calling)能力,結合封裝了工具調用模板和工具調用解析器的Qwen-Agent 框架,將大大降低編碼復雜性,實現(xiàn)高效的手機及電腦Agent操作等任務。
據(jù)界面新聞了解,Qwen3系列模型依舊采用寬松的Apache2.0協(xié)議開源,并首次支持119多種語言,全球開發(fā)者、研究機構和企業(yè)均可免費在魔搭社區(qū)、HuggingFace等平臺下載模型并商用,也可以通過阿里云百煉調用Qwen3的API服務。個人用戶可立即通過通義APP直接體驗Qwen3,夸克也即將全線接入Qwen3。
目前,阿里通義已開源200余個模型,全球下載量超3億次,千問衍生模型數(shù)超10萬個,已超越美國Llama,成為全球第一開源模型。
?