界面新聞記者 | 肖芳
界面新聞編輯 | 文姝琪
百度正在強化文心大模型的多模態(tài)理解能力。
在百度AI Day上,百度集團副總裁吳甜詳細解釋了其最新發(fā)布的兩款模型文心大模型4.5 Turbo和深度思考模型X1 Turbo的技術(shù)創(chuàng)新之處。
她表示,文心大模型4.5和4.5 Turbo實現(xiàn)了文本、圖像和視頻的混合訓(xùn)練。針對不同模態(tài)數(shù)據(jù)在結(jié)構(gòu)、規(guī)模、知識密度上的差異,通過多模態(tài)異構(gòu)專家建模、自適應(yīng)分辨率視覺編碼、時空重排列的三維旋轉(zhuǎn)位置編碼、自適應(yīng)模態(tài)感知損失計算等技術(shù),大幅提升跨模態(tài)學(xué)習(xí)效率和多模態(tài)融合效果,學(xué)習(xí)效率提高近2倍,多模態(tài)理解效果提升超過30%。
文心大模型4.5于今年3月16日正式發(fā)布,是百度首個原生多模態(tài)大模型。文心大模型4.5 Turbo在上個月舉辦的Create 2025百度AI開發(fā)者大會上對外發(fā)布,相比文心大模型4.5,其速度更快,價格下降80%,每百萬token的輸入價格僅為0.8元,輸出價格3.2元,僅為DeepSeek-V3的40%。
去年,百度CEO李彥宏多次公開表示,Sora這種視頻生成模型無論多火爆,百度都不去做。他給出的理由是,多模態(tài)模型尤其是視頻生成領(lǐng)域,幻覺問題尚未解決,這限制了大規(guī)模應(yīng)用。
但字節(jié)跳動和阿里巴巴卻沒有因為幻覺問題停止布局多模態(tài)大模型的腳步:去年12月,字節(jié)跳動正式對外發(fā)布豆包視覺理解模型、豆包3D生成模型;今年9月和12月,阿里通義千問團隊分別對外發(fā)布視覺理解模型Qwen2-VL和多模態(tài)推理模型QVQ-72B-Previe。
從市場反饋來看,這幾款模型在處理自然語言與圖像信息的結(jié)合上靈活性強,能精準(zhǔn)識別圖像中的內(nèi)容,受到了教育、自動駕駛等領(lǐng)域企業(yè)的關(guān)注,在視覺-語言融合場景中展示出較大的潛力。
這意味著,此前百度多模態(tài)大模型上存在一些誤判,其在多模態(tài)模型上的布局也比競爭對手晚了數(shù)月。
百度正在積極補齊大模型布局短板
今年年初,DeepSeek走紅讓外界再次討論百度在大模型領(lǐng)域是否再次陷入了“起個大早,趕個晚集”的尷尬境地。
早在2021年,百度就對外發(fā)布了文心大模型,在行業(yè)中屬于最早一批布局大模型的公司。但經(jīng)過幾年的發(fā)展,百度在大模型領(lǐng)域不僅并沒能保持先發(fā)優(yōu)勢,還在開源、降價、多模態(tài)等問題上出現(xiàn)了誤判。
界面新聞從多位百度內(nèi)部人士處了解到,在今年第一季度總監(jiān)會上,李彥宏稱去年內(nèi)部沒有人提到模型開源,導(dǎo)致百度走了一些彎路。
DeepSeek走紅之后,百度已對此前關(guān)于開閉源的問題進行了糾偏。今年新發(fā)布的文心大模型4.5系列將于6月30日正式開源。
而在降價問題上,去年豆包、通義等大模型相繼大幅降低調(diào)用價格之后,文心大模型的主力模型并未進行跟進。直到今年的Create 2025百度AI開發(fā)者大會,百度才正式宣布文心大模型4.5 Turbo和文心大模型X1 Turbo的價格將大幅降低。
然而,今年基礎(chǔ)大模型競爭的焦點已不在價格。在一位大模型從業(yè)者看來,基礎(chǔ)信息處理能力的提升以及成本的下降讓豆包、通義等幾款大模型在去年獲得了快速增長。深度推理能力、視覺推理能力以及Agent相關(guān)技術(shù)將成為今年到未來幾年基礎(chǔ)大模型競爭的關(guān)鍵。
在當(dāng)下的競爭態(tài)勢下,百度放棄此前的糾結(jié),積極布局多模態(tài)大模型就不難理解了。從文心大模型4.5到4.5 Turbo,從文心大模型X1到X1 Turbo,模型性能提升的同時,多模態(tài)能力也進一步增強。
根據(jù)百度方面的介紹,文心大模型4.5 Turbo多模態(tài)能力與GPT 4.1持平,不僅具有圖片理解能力,還能聽懂、看懂音視頻內(nèi)容;文心大模型X1 Turbo具備跨工具調(diào)用能力,能整合搜索引擎、數(shù)據(jù)庫等外部資源完成復(fù)雜任務(wù)。在多模態(tài)交互場景中,這種工具調(diào)用能力與多模態(tài)能力相融合,使其能夠更靈活地應(yīng)對各種實際問題。
李彥宏在Create 2025百度AI開發(fā)者大會上也談及了布局多模態(tài)大模型的價值:DeepSeek也不是萬能的,它只能處理文本,還不能理解和生成圖片、音頻、視頻等多媒體內(nèi)容,很多客戶都需要這種多模理解和生成能力。
對于李彥宏此前一直糾結(jié)的幻覺問題,吳甜在此次百度AI Day上也進行了重點闡釋:百度研制了自反饋增強的技術(shù)框架,基于大模型自身的生成和評估反饋能力,實現(xiàn)了“訓(xùn)練-生成-反饋-增強”的模型迭代閉環(huán),讓大模型擁有了自我迭代能力,顯著降低了模型幻覺,模型理解和處理復(fù)雜任務(wù)的能力大幅提升。
雖然對過去的諸多判斷進行了糾偏,但不可否認的是,百度在大模型上已經(jīng)脫離了第一梯隊。很多業(yè)內(nèi)人士判斷,未來的基礎(chǔ)大模型領(lǐng)域?qū)?/span>只剩下DeepSeek、豆包和通義三強爭霸。在這種競爭格局下,百度想要翻盤面臨的挑戰(zhàn)也不言而喻。
數(shù)字人能否助力百度翻盤?
百度積極布局多模態(tài)大模型,除了當(dāng)下市場競爭的需要之外,另一個重要原因是,多模態(tài)大模型承載了百度對AI應(yīng)用的期待。
去年以來,李彥宏多次在公開場合強調(diào)技術(shù)的商業(yè)價值。在他看來,一個沒有明確用途的AI模型,不過是一個吸引人的計算機科學(xué)展示。沒有應(yīng)用,芯片、模型都沒有價值。模型會有很多,但未來真正統(tǒng)治這個世界的是應(yīng)用。
今年以來,AI應(yīng)用領(lǐng)域創(chuàng)業(yè)如火如荼,AI辦公、AI搜索、Agent等都是熱門的AI應(yīng)用落地方向。但李彥宏有不一樣的判斷,他在Create 2025百度AI開發(fā)者大會上表示,AI數(shù)字人是今年最令人激動的突破性應(yīng)用。聲形超擬真、內(nèi)容更專業(yè)、互動更靈活的數(shù)字人,實現(xiàn)超越真人的體驗,在電商直播、游戲、消費等領(lǐng)域,有著巨大的想象空間。
在百度AI Day上,吳甜透露了百度在數(shù)字人方面的布局:百度研制了“劇本”驅(qū)動多模協(xié)同的超擬真數(shù)字人技術(shù),實現(xiàn)了語言、聲音、形象的協(xié)調(diào)一致。目前這套技術(shù)已經(jīng)支持超過10萬數(shù)字人主播,直播轉(zhuǎn)化率達31%,降低80%直播開播成本。
但也有一些從業(yè)者對數(shù)字人有不同的聲音。尤其是一些電商商家,嘗試數(shù)字人直播之后,發(fā)現(xiàn)真實的直播帶貨效果不盡如人意。一家美妝類的商家此前告訴界面新聞,其從去年開始嘗試數(shù)字人直播帶貨,但數(shù)字人回復(fù)用戶留言時不僅生硬,還會出現(xiàn)答非所問的情況,不僅沒有帶來更高的轉(zhuǎn)化率,還引發(fā)了更多消費者投訴。
在數(shù)字人服務(wù)商世優(yōu)科技CEO紀(jì)智輝看來,目前數(shù)字人直播帶貨并不好做,抖音快手等平臺的出發(fā)點依然是更好的內(nèi)容和體驗?!叭绻脩粼谄脚_上刷到10個短視頻有9個都是數(shù)字人,這會破壞平臺的內(nèi)容生態(tài),各個平臺都對數(shù)字人直播進行嚴(yán)格管控也是意料之中的事?!?/span>
不過,這些不同的聲音并沒有阻止百度積極布局數(shù)字人的腳步。根據(jù)百度此前公布的信息,百度已與羅永浩達成合作,聯(lián)手打造羅永浩的數(shù)字人形象用于直播帶貨,并將于5月23日晚8點在百度電商開啟首場直播。
羅永浩數(shù)字人首場直播帶貨的成績有待觀望。如果數(shù)據(jù)不錯,或許能改變一些商家對數(shù)字人直播帶貨的態(tài)度,但其能給百度帶來多大商業(yè)價值,仍然需要時間驗證。