界面新聞?dòng)浾?| 肖芳
界面新聞編輯 | 文姝琪
百度正在強(qiáng)化文心大模型的多模態(tài)理解能力。
在百度AI Day上,百度集團(tuán)副總裁吳甜詳細(xì)解釋了其最新發(fā)布的兩款模型文心大模型4.5 Turbo和深度思考模型X1 Turbo的技術(shù)創(chuàng)新之處。
她表示,文心大模型4.5和4.5 Turbo實(shí)現(xiàn)了文本、圖像和視頻的混合訓(xùn)練。針對(duì)不同模態(tài)數(shù)據(jù)在結(jié)構(gòu)、規(guī)模、知識(shí)密度上的差異,通過(guò)多模態(tài)異構(gòu)專家建模、自適應(yīng)分辨率視覺(jué)編碼、時(shí)空重排列的三維旋轉(zhuǎn)位置編碼、自適應(yīng)模態(tài)感知損失計(jì)算等技術(shù),大幅提升跨模態(tài)學(xué)習(xí)效率和多模態(tài)融合效果,學(xué)習(xí)效率提高近2倍,多模態(tài)理解效果提升超過(guò)30%。
文心大模型4.5于今年3月16日正式發(fā)布,是百度首個(gè)原生多模態(tài)大模型。文心大模型4.5 Turbo在上個(gè)月舉辦的Create 2025百度AI開(kāi)發(fā)者大會(huì)上對(duì)外發(fā)布,相比文心大模型4.5,其速度更快,價(jià)格下降80%,每百萬(wàn)token的輸入價(jià)格僅為0.8元,輸出價(jià)格3.2元,僅為DeepSeek-V3的40%。
去年,百度CEO李彥宏多次公開(kāi)表示,Sora這種視頻生成模型無(wú)論多火爆,百度都不去做。他給出的理由是,多模態(tài)模型尤其是視頻生成領(lǐng)域,幻覺(jué)問(wèn)題尚未解決,這限制了大規(guī)模應(yīng)用。
但字節(jié)跳動(dòng)和阿里巴巴卻沒(méi)有因?yàn)榛糜X(jué)問(wèn)題停止布局多模態(tài)大模型的腳步:去年12月,字節(jié)跳動(dòng)正式對(duì)外發(fā)布豆包視覺(jué)理解模型、豆包3D生成模型;今年9月和12月,阿里通義千問(wèn)團(tuán)隊(duì)分別對(duì)外發(fā)布視覺(jué)理解模型Qwen2-VL和多模態(tài)推理模型QVQ-72B-Previe。
從市場(chǎng)反饋來(lái)看,這幾款模型在處理自然語(yǔ)言與圖像信息的結(jié)合上靈活性強(qiáng),能精準(zhǔn)識(shí)別圖像中的內(nèi)容,受到了教育、自動(dòng)駕駛等領(lǐng)域企業(yè)的關(guān)注,在視覺(jué)-語(yǔ)言融合場(chǎng)景中展示出較大的潛力。
這意味著,此前百度多模態(tài)大模型上存在一些誤判,其在多模態(tài)模型上的布局也比競(jìng)爭(zhēng)對(duì)手晚了數(shù)月。
百度正在積極補(bǔ)齊大模型布局短板
今年年初,DeepSeek走紅讓外界再次討論百度在大模型領(lǐng)域是否再次陷入了“起個(gè)大早,趕個(gè)晚集”的尷尬境地。
早在2021年,百度就對(duì)外發(fā)布了文心大模型,在行業(yè)中屬于最早一批布局大模型的公司。但經(jīng)過(guò)幾年的發(fā)展,百度在大模型領(lǐng)域不僅并沒(méi)能保持先發(fā)優(yōu)勢(shì),還在開(kāi)源、降價(jià)、多模態(tài)等問(wèn)題上出現(xiàn)了誤判。
界面新聞從多位百度內(nèi)部人士處了解到,在今年第一季度總監(jiān)會(huì)上,李彥宏稱去年內(nèi)部沒(méi)有人提到模型開(kāi)源,導(dǎo)致百度走了一些彎路。
DeepSeek走紅之后,百度已對(duì)此前關(guān)于開(kāi)閉源的問(wèn)題進(jìn)行了糾偏。今年新發(fā)布的文心大模型4.5系列將于6月30日正式開(kāi)源。
而在降價(jià)問(wèn)題上,去年豆包、通義等大模型相繼大幅降低調(diào)用價(jià)格之后,文心大模型的主力模型并未進(jìn)行跟進(jìn)。直到今年的Create 2025百度AI開(kāi)發(fā)者大會(huì),百度才正式宣布文心大模型4.5 Turbo和文心大模型X1 Turbo的價(jià)格將大幅降低。
然而,今年基礎(chǔ)大模型競(jìng)爭(zhēng)的焦點(diǎn)已不在價(jià)格。在一位大模型從業(yè)者看來(lái),基礎(chǔ)信息處理能力的提升以及成本的下降讓豆包、通義等幾款大模型在去年獲得了快速增長(zhǎng)。深度推理能力、視覺(jué)推理能力以及Agent相關(guān)技術(shù)將成為今年到未來(lái)幾年基礎(chǔ)大模型競(jìng)爭(zhēng)的關(guān)鍵。
在當(dāng)下的競(jìng)爭(zhēng)態(tài)勢(shì)下,百度放棄此前的糾結(jié),積極布局多模態(tài)大模型就不難理解了。從文心大模型4.5到4.5 Turbo,從文心大模型X1到X1 Turbo,模型性能提升的同時(shí),多模態(tài)能力也進(jìn)一步增強(qiáng)。
根據(jù)百度方面的介紹,文心大模型4.5 Turbo多模態(tài)能力與GPT 4.1持平,不僅具有圖片理解能力,還能聽(tīng)懂、看懂音視頻內(nèi)容;文心大模型X1 Turbo具備跨工具調(diào)用能力,能整合搜索引擎、數(shù)據(jù)庫(kù)等外部資源完成復(fù)雜任務(wù)。在多模態(tài)交互場(chǎng)景中,這種工具調(diào)用能力與多模態(tài)能力相融合,使其能夠更靈活地應(yīng)對(duì)各種實(shí)際問(wèn)題。
李彥宏在Create 2025百度AI開(kāi)發(fā)者大會(huì)上也談及了布局多模態(tài)大模型的價(jià)值:DeepSeek也不是萬(wàn)能的,它只能處理文本,還不能理解和生成圖片、音頻、視頻等多媒體內(nèi)容,很多客戶都需要這種多模理解和生成能力。
對(duì)于李彥宏此前一直糾結(jié)的幻覺(jué)問(wèn)題,吳甜在此次百度AI Day上也進(jìn)行了重點(diǎn)闡釋:百度研制了自反饋增強(qiáng)的技術(shù)框架,基于大模型自身的生成和評(píng)估反饋能力,實(shí)現(xiàn)了“訓(xùn)練-生成-反饋-增強(qiáng)”的模型迭代閉環(huán),讓大模型擁有了自我迭代能力,顯著降低了模型幻覺(jué),模型理解和處理復(fù)雜任務(wù)的能力大幅提升。
雖然對(duì)過(guò)去的諸多判斷進(jìn)行了糾偏,但不可否認(rèn)的是,百度在大模型上已經(jīng)脫離了第一梯隊(duì)。很多業(yè)內(nèi)人士判斷,未來(lái)的基礎(chǔ)大模型領(lǐng)域?qū)?/span>只剩下DeepSeek、豆包和通義三強(qiáng)爭(zhēng)霸。在這種競(jìng)爭(zhēng)格局下,百度想要翻盤(pán)面臨的挑戰(zhàn)也不言而喻。
數(shù)字人能否助力百度翻盤(pán)?
百度積極布局多模態(tài)大模型,除了當(dāng)下市場(chǎng)競(jìng)爭(zhēng)的需要之外,另一個(gè)重要原因是,多模態(tài)大模型承載了百度對(duì)AI應(yīng)用的期待。
去年以來(lái),李彥宏多次在公開(kāi)場(chǎng)合強(qiáng)調(diào)技術(shù)的商業(yè)價(jià)值。在他看來(lái),一個(gè)沒(méi)有明確用途的AI模型,不過(guò)是一個(gè)吸引人的計(jì)算機(jī)科學(xué)展示。沒(méi)有應(yīng)用,芯片、模型都沒(méi)有價(jià)值。模型會(huì)有很多,但未來(lái)真正統(tǒng)治這個(gè)世界的是應(yīng)用。
今年以來(lái),AI應(yīng)用領(lǐng)域創(chuàng)業(yè)如火如荼,AI辦公、AI搜索、Agent等都是熱門的AI應(yīng)用落地方向。但李彥宏有不一樣的判斷,他在Create 2025百度AI開(kāi)發(fā)者大會(huì)上表示,AI數(shù)字人是今年最令人激動(dòng)的突破性應(yīng)用。聲形超擬真、內(nèi)容更專業(yè)、互動(dòng)更靈活的數(shù)字人,實(shí)現(xiàn)超越真人的體驗(yàn),在電商直播、游戲、消費(fèi)等領(lǐng)域,有著巨大的想象空間。
在百度AI Day上,吳甜透露了百度在數(shù)字人方面的布局:百度研制了“劇本”驅(qū)動(dòng)多模協(xié)同的超擬真數(shù)字人技術(shù),實(shí)現(xiàn)了語(yǔ)言、聲音、形象的協(xié)調(diào)一致。目前這套技術(shù)已經(jīng)支持超過(guò)10萬(wàn)數(shù)字人主播,直播轉(zhuǎn)化率達(dá)31%,降低80%直播開(kāi)播成本。
但也有一些從業(yè)者對(duì)數(shù)字人有不同的聲音。尤其是一些電商商家,嘗試數(shù)字人直播之后,發(fā)現(xiàn)真實(shí)的直播帶貨效果不盡如人意。一家美妝類的商家此前告訴界面新聞,其從去年開(kāi)始嘗試數(shù)字人直播帶貨,但數(shù)字人回復(fù)用戶留言時(shí)不僅生硬,還會(huì)出現(xiàn)答非所問(wèn)的情況,不僅沒(méi)有帶來(lái)更高的轉(zhuǎn)化率,還引發(fā)了更多消費(fèi)者投訴。
在數(shù)字人服務(wù)商世優(yōu)科技CEO紀(jì)智輝看來(lái),目前數(shù)字人直播帶貨并不好做,抖音快手等平臺(tái)的出發(fā)點(diǎn)依然是更好的內(nèi)容和體驗(yàn)?!叭绻脩粼谄脚_(tái)上刷到10個(gè)短視頻有9個(gè)都是數(shù)字人,這會(huì)破壞平臺(tái)的內(nèi)容生態(tài),各個(gè)平臺(tái)都對(duì)數(shù)字人直播進(jìn)行嚴(yán)格管控也是意料之中的事?!?/span>
不過(guò),這些不同的聲音并沒(méi)有阻止百度積極布局數(shù)字人的腳步。根據(jù)百度此前公布的信息,百度已與羅永浩達(dá)成合作,聯(lián)手打造羅永浩的數(shù)字人形象用于直播帶貨,并將于5月23日晚8點(diǎn)在百度電商開(kāi)啟首場(chǎng)直播。
羅永浩數(shù)字人首場(chǎng)直播帶貨的成績(jī)有待觀望。如果數(shù)據(jù)不錯(cuò),或許能改變一些商家對(duì)數(shù)字人直播帶貨的態(tài)度,但其能給百度帶來(lái)多大商業(yè)價(jià)值,仍然需要時(shí)間驗(yàn)證。