4月29日凌晨,阿里巴巴開源新一代通義千問模型Qwen3(千問3),參數(shù)量為DeepSeek-R1的三分之一,成本大幅下降。據(jù)稱,該模型性能全面超越R1、OpenAI-o1等領(lǐng)先模型,登頂全球最強(qiáng)開源模型。
千問3是國內(nèi)首個“混合推理模型”,將“快思考”與“慢思考”集成進(jìn)同一個模型,對簡單需求可低算力“秒回”答案,對復(fù)雜問題可多步驟“深度思考”,節(jié)省算力消耗。
阿里巴巴表示,千問3系列支持119種語言,并基于近36萬億個token(標(biāo)記)進(jìn)行訓(xùn)練,使用的數(shù)據(jù)量是千問2.5的兩倍。
千問3系列包括兩個專家混合(MoE)模型和另外六個模型。阿里巴巴開源了兩個MoE模型的權(quán)重:擁有2350多億總參數(shù)和220多億激活參數(shù)的Qwen3-235B-A22B,以及擁有約300億總參數(shù)和30億激活參數(shù)的小型MoE?模型Qwen3-30B-A3B。
阿里巴巴表示,Qwen3-235B-A22B在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測試中,可媲美DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等頂級模型。
此外,六個Dense模型也已開源,包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B,均在Apache 2.0許可下開源。
阿里巴巴表示,千問3代表了該公司在通往通用人工智能(AGI)和超級人工智能(ASI)旅程中的一個重要里程碑。未來,阿里計劃從多個維度提升模型,包括優(yōu)化模型架構(gòu)和訓(xùn)練方法,以實現(xiàn)擴(kuò)展數(shù)據(jù)規(guī)模、增加模型大小、延長上下文長度、拓寬模態(tài)范圍等關(guān)鍵指標(biāo)。
阿里巴巴集團(tuán)CEO吳泳銘在今年2月的業(yè)績會上表示,阿里集團(tuán)在AI戰(zhàn)略里面的首要目標(biāo)是AGI(通用人工智能)的實現(xiàn),可能遠(yuǎn)遠(yuǎn)超過現(xiàn)在可見的任何一個應(yīng)用場景。
阿里巴巴預(yù)判如果實現(xiàn)AGI,人工智能相關(guān)產(chǎn)業(yè)大概率將會是全球最大的產(chǎn)業(yè),有可能影響或者替代現(xiàn)在50%左右的GDP構(gòu)成。
目前,包括谷歌在內(nèi)的多家科技巨頭推出了開源模型。今年3月,谷歌開源多模態(tài)大模型Gemma 3正式發(fā)布。這款僅需單塊H100 GPU即可運(yùn)行的27B參數(shù)模型,不僅性能對標(biāo)谷歌閉源大模型Gemini 1.5 Pro,更以“低成本、高性能”的標(biāo)簽重新定義了行業(yè)標(biāo)準(zhǔn)。這一舉措被業(yè)界視為谷歌在開源AI領(lǐng)域的一次重大戰(zhàn)略升級。
今年3月底,OpenAI?宣布計劃在今年發(fā)布自GPT-2以來的首個“開源”語言模型。據(jù)媒體報道,OpenAI的開源模型將采用“輸入文本,輸出文本”的模式,并可能允許開發(fā)者自由開啟或關(guān)閉其“推理”功能。
?