4月29日凌晨,阿里巴巴開源新一代通義千問模型Qwen3(簡稱千問3),參數(shù)量僅為DeepSeek-R1的1/3,成本大幅下降,性能全面超越R1、OpenAI-o1等全球頂尖模型,登頂全球最強開源模型。
千問3是國內首個混合推理模型,性能更高的同時成本大幅下降,其總參數(shù)為235B,僅為R1的三分之一。有機構測算,部署R1需16張H20芯片,而滿血版千問3僅需4張,成本大降75%。
更重要的是,千問3為即將到來的智能體Agent和大模型應用爆發(fā)提供了更好的支持。在評估模型Agent能力的BFCL評測中,千問3創(chuàng)下70.8的新高,超越Gemini2.5-Pro、OpenAI-o1等頂尖模型。大幅降低Agent調用工具的門檻,或將引發(fā)新一輪AI應用爆發(fā)。
火星電波創(chuàng)始人、前MiniMax海螺AI產(chǎn)品負責人馮雷(橘子)在社交媒體上發(fā)布了他的測試體驗。其中,Qwen3把各個MCP都調用成功了,但別的模型失敗居多。他對界面新聞表示,從R1到千問3,工具調用能力已經(jīng)進步了非常多。
Agent行業(yè)急需工具調用能力高的模型
Agent對模型能力的需求,取決于該 Agent 的任務復雜性和自治程度。
總體上,一個強健的Agent系統(tǒng)對底層模型的需求主要包括基礎語言理解與生成、工具使用與調用、推理與規(guī)劃等多方面的能力。簡單來說,其需要準確理解指令和上下文以及多輪對話中的隱含意圖和模糊表達,把復雜目標拆成子任務、按序執(zhí)行。同時,這個系統(tǒng)還要理解和調用外部工具的流程,并執(zhí)行API調用。
在Platform Thinking主理人、前知乎 COO張寧看來,目前Agent行業(yè)在底層模型上面臨的痛點就是真正好工具調用能力的模型不多。
從千問3的性能和測試表現(xiàn)來看,阿里方面正在著力解決底層模型工具調用能力不足的痛點??梢栽谒伎己头撬伎寄J较戮_集成外部工具,在復雜的基于代理的任務中在開源模型中表現(xiàn)領先。
在評估模型Agent能力的BFCL評測中,千問3創(chuàng)下70.8的新高,超越Gemini2.5-Pro、OpenAI-o1等頂尖模型,將大幅降低Agent調用工具的門檻。
千問3原生支持MCP協(xié)議,并具備強大的工具調用(function calling)能力,結合封裝了工具調用模板和工具調用解析器的Qwen-Agent 框架,將大大降低編碼復雜性,實現(xiàn)高效的手機及電腦Agent操作等任務。開發(fā)者要定義可用工具,可基于 MCP 配置文件,使用 Qwen-Agent 的集成工具或自行集成其他工具,快速開發(fā)一個帶有設定、知識庫RAG和工具使用能力的智能體。
同時,千問3在基礎語言理解與生成能力和推理能力上也表現(xiàn)出不俗的能力。
這意味著,在同等模型能力的條件下,Agent以及AI應用行業(yè)調用模型的成本更低,調用更方便,這勢必會促進更多新Agent以及AI應用的涌現(xiàn)。
堅定開源路線,多版本模型同時推出
千問3還提供了豐富的模型版本,包含2款30B、235B的MoE模型,以及0.6B、1.7B、4B、8B、14B、32B等6款密集模型
其中,千問3的30B參數(shù)MoE模型實現(xiàn)了10倍以上的模型性能杠桿提升,激活3B就能媲美上代Qwen2.5-32B模型性能;千問3的稠密模型性能繼續(xù)突破, Qwen3-4B 這樣的小模型也能達到 Qwen2.5-72B-Instruct 的性能。
因為所有千問3模型都是混合推理模型,API可按需設置“思考預算”(即預期最大深度思考的tokens數(shù)量),進行不同程度的思考,靈活滿足AI應用和不同場景對性能和成本的多樣需求。中小企業(yè)和AI開發(fā)者可根據(jù)自己需求靈活選擇模型,這勢必會降低其使用大模型的門檻和成本。這些資金和人員都非常有限的團隊可以把更多資源和精力投入到市場和用戶需求痛點的挖掘上,以便能研發(fā)出更多創(chuàng)新應用。
在馮雷看來,Qwen 系列模型,因為開源、小巧、好微調的特點,已經(jīng)成為很多開發(fā)者的首選模型。很多強化學習研究也都依賴Qwen 系列的高質量基座,因為基座模型的質量決定了后續(xù)強化學習的上限。
阿里云走到第16個年頭,全面重構了一個從底層硬件到計算、存儲、網(wǎng)絡、數(shù)據(jù)處理、模型訓練和推理平臺的全棧技術架構體系,是亞太第一的云計算平臺;而阿里也是全球最早投入大模型研究的科技公司之一
此前周靖人接受媒體采訪時稱,大模型發(fā)展和云體系的支撐不可分割。無論訓練還是推理,大模型的每一次突破,表面看是模型能力演進,背后其實是整個云計算和數(shù)據(jù)、工程平臺的全面配合和升級。多模態(tài)也是通向 AGI 的重要途徑。
阿里Qwen 3發(fā)布后,馬斯克在社交平臺X上稱,下周,Grok 3.5 早期測試版將僅向SuperGrok訂閱者發(fā)布。它是第一個能夠準確回答有關火箭發(fā)動機或電化學技術問題的人工智能。這也意味著Qwen 3在國際上同樣有較高的關注度。
清華大學人工智能研究院常務副院長、歐洲人文和自然科學院外籍院士孫茂松表示,近年來在人工智能領域尤其是大模型的發(fā)展上,發(fā)出了很強烈的中國的聲音,DeepSeek的出現(xiàn)以及通義千問的系列開源產(chǎn)品極大推動了國內大模型的開源路線,這無疑為緩解技術壟斷,推動技術平權,提升人工智能的普惠性,無疑具有十分重要的作用。
目前,海內外開源社區(qū)中Qwen的衍生模型數(shù)量已突破10萬,超越Llama系列衍生模型,通義千問Qwen穩(wěn)居世界最大的生成式語言模型族群。根據(jù)Huggingface2025年2月10日最新的全球開源大模型榜單,排名前十的開源大模型全部是基于通義千問Qwen開源模型二次開發(fā)的衍生模型。
孫茂松認為,這意味著中國的大模型的文化在國際上得到了認可,這是在文化層面有某種扭轉,外界看來似乎“漫不經(jīng)心”,但這一點非常難能可貴,這實際上是認可中國大模型的發(fā)展和技術。