4月29日凌晨,阿里巴巴開(kāi)源新一代通義千問(wèn)模型Qwen3(千問(wèn)3),參數(shù)量為DeepSeek-R1的三分之一,成本大幅下降。據(jù)稱(chēng),該模型性能全面超越R1、OpenAI-o1等領(lǐng)先模型,登頂全球最強(qiáng)開(kāi)源模型。
千問(wèn)3是國(guó)內(nèi)首個(gè)“混合推理模型”,將“快思考”與“慢思考”集成進(jìn)同一個(gè)模型,對(duì)簡(jiǎn)單需求可低算力“秒回”答案,對(duì)復(fù)雜問(wèn)題可多步驟“深度思考”,節(jié)省算力消耗。
阿里巴巴表示,千問(wèn)3系列支持119種語(yǔ)言,并基于近36萬(wàn)億個(gè)token(標(biāo)記)進(jìn)行訓(xùn)練,使用的數(shù)據(jù)量是千問(wèn)2.5的兩倍。
千問(wèn)3系列包括兩個(gè)專(zhuān)家混合(MoE)模型和另外六個(gè)模型。阿里巴巴開(kāi)源了兩個(gè)MoE模型的權(quán)重:擁有2350多億總參數(shù)和220多億激活參數(shù)的Qwen3-235B-A22B,以及擁有約300億總參數(shù)和30億激活參數(shù)的小型MoE?模型Qwen3-30B-A3B。
阿里巴巴表示,Qwen3-235B-A22B在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測(cè)試中,可媲美DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等頂級(jí)模型。
此外,六個(gè)Dense模型也已開(kāi)源,包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B,均在A(yíng)pache 2.0許可下開(kāi)源。
阿里巴巴表示,千問(wèn)3代表了該公司在通往通用人工智能(AGI)和超級(jí)人工智能(ASI)旅程中的一個(gè)重要里程碑。未來(lái),阿里計(jì)劃從多個(gè)維度提升模型,包括優(yōu)化模型架構(gòu)和訓(xùn)練方法,以實(shí)現(xiàn)擴(kuò)展數(shù)據(jù)規(guī)模、增加模型大小、延長(zhǎng)上下文長(zhǎng)度、拓寬模態(tài)范圍等關(guān)鍵指標(biāo)。
阿里巴巴集團(tuán)CEO吳泳銘在今年2月的業(yè)績(jī)會(huì)上表示,阿里集團(tuán)在A(yíng)I戰(zhàn)略里面的首要目標(biāo)是AGI(通用人工智能)的實(shí)現(xiàn),可能遠(yuǎn)遠(yuǎn)超過(guò)現(xiàn)在可見(jiàn)的任何一個(gè)應(yīng)用場(chǎng)景。
阿里巴巴預(yù)判如果實(shí)現(xiàn)AGI,人工智能相關(guān)產(chǎn)業(yè)大概率將會(huì)是全球最大的產(chǎn)業(yè),有可能影響或者替代現(xiàn)在50%左右的GDP構(gòu)成。
目前,包括谷歌在內(nèi)的多家科技巨頭推出了開(kāi)源模型。今年3月,谷歌開(kāi)源多模態(tài)大模型Gemma 3正式發(fā)布。這款僅需單塊H100 GPU即可運(yùn)行的27B參數(shù)模型,不僅性能對(duì)標(biāo)谷歌閉源大模型Gemini 1.5 Pro,更以“低成本、高性能”的標(biāo)簽重新定義了行業(yè)標(biāo)準(zhǔn)。這一舉措被業(yè)界視為谷歌在開(kāi)源AI領(lǐng)域的一次重大戰(zhàn)略升級(jí)。
今年3月底,OpenAI?宣布計(jì)劃在今年發(fā)布自GPT-2以來(lái)的首個(gè)“開(kāi)源”語(yǔ)言模型。據(jù)媒體報(bào)道,OpenAI的開(kāi)源模型將采用“輸入文本,輸出文本”的模式,并可能允許開(kāi)發(fā)者自由開(kāi)啟或關(guān)閉其“推理”功能。
?