在一個(gè)異類世界的城堡中,兩個(gè)部落的戰(zhàn)爭一觸即發(fā)。當(dāng)魔法棒啟動(dòng)的一刻,天崩地裂……
這并不是好萊塢大片中常見的場景,而是國產(chǎn)制作團(tuán)隊(duì)異類Outliers使用可靈AI生成的短片。一些網(wǎng)友看完短片后感嘆:《指環(huán)王》等好萊塢大片可以重拍一遍了。
在傳統(tǒng)影視劇制作中,劇中使用大量復(fù)雜的特效意味著高昂的成本。比如,《權(quán)力的游戲》前幾季單集制作成本達(dá)數(shù)百萬美元,到第八季,由于制作周期長、場景宏大、特效復(fù)雜等原因,成本大幅飆升至1500萬美元。
但隨著AIGC水平的大幅提升,這種影視劇的制作成本正在大幅下降。4月15日,可靈AI正式發(fā)布可靈2.0視頻生成模型及可圖2.0圖像生成模型,讓AI創(chuàng)作的視頻和圖片質(zhì)量再上一個(gè)臺(tái)階,畫面美學(xué)、和藝術(shù)表現(xiàn)風(fēng)格都更接近電影質(zhì)感,AI在影視創(chuàng)作行業(yè)的應(yīng)用也有了更大的想象空間。
可靈2.0發(fā)布后,馬斯克連夜關(guān)注可靈海外官方賬號(hào)。從之前評(píng)論可靈AI制作內(nèi)容時(shí)的贊嘆,到如今主動(dòng)關(guān)注,馬斯克對(duì)可靈AI的肯定足以證明其在AI娛樂產(chǎn)業(yè)的影響力。
快手高級(jí)副總裁、社區(qū)科學(xué)線負(fù)責(zé)人蓋坤在發(fā)布會(huì)現(xiàn)場表示,可靈希望讓每個(gè)人都能用AI講出好故事,實(shí)現(xiàn)更加精準(zhǔn)的復(fù)雜創(chuàng)意表達(dá)。
可以預(yù)見,在技術(shù)的快速更新迭代中,影視娛樂行業(yè)的變革即將開始。
視頻和圖片生成能力均有明顯提升
自去年6月發(fā)布以來,可靈AI已累計(jì)完成超20次迭代,效果持續(xù)領(lǐng)先。
從新發(fā)布的模型來看,可靈2.0模型在動(dòng)態(tài)質(zhì)量、語義響應(yīng)、畫面美學(xué)等維度,均實(shí)現(xiàn)了大幅的升級(jí)。
界面新聞以“恐龍朝著鏡頭沖過來,運(yùn)動(dòng)模糊,鏡頭抖動(dòng)”為提示詞,對(duì)比可靈2.0和可靈1.6生成的視頻發(fā)現(xiàn),新版模型響應(yīng)速度更快,畫面主體的動(dòng)作幅度更大,速度更流暢,復(fù)雜動(dòng)作也更加細(xì)膩、更自然、更合理,讓人有了身臨其境之感。
在圖生視頻上,可靈2.0模型的畫面更細(xì)膩,能夠更好地保持原圖畫風(fēng),畫面的美感度也有明顯提升。比如,以“油畫,孩子們在海邊奔跑,海浪拍打著海岸”為提示詞,新模型的中畫面角色在保持了油畫質(zhì)感的同時(shí),跑動(dòng)的動(dòng)態(tài)也更接近真實(shí)效果,呈現(xiàn)出超強(qiáng)的風(fēng)格感。
?
同時(shí),在本次2.0模型的迭代中,可靈AI還正式發(fā)布了AI視頻生成的全新交互理念Multi-modal Visual Language(MVL),讓用戶能夠結(jié)合圖像參考、視頻片段等多模態(tài)信息,將多維度復(fù)雜創(chuàng)意高效地傳達(dá)給AI。
發(fā)布會(huì)現(xiàn)場,蓋坤表示,AI在輔助創(chuàng)意表達(dá)上擁有巨大潛力,但當(dāng)前的行業(yè)發(fā)展現(xiàn)狀還遠(yuǎn)遠(yuǎn)無法滿足用戶需求,在AI生成內(nèi)容的穩(wěn)定性、以及用戶復(fù)雜創(chuàng)意的精確傳達(dá)上仍有“很多挑戰(zhàn)”。也因此,要真正實(shí)現(xiàn)“用AI講好每一個(gè)故事”的愿景,必須對(duì)基模型能力進(jìn)行全方位提升,定義人和AI交互的“全新語言”。
據(jù)介紹,MVL由TXT(Pure Text,語義骨架)和MMW(Multi-modal-document as a Word,多模態(tài)描述子)組成,能從視頻生成設(shè)定的基礎(chǔ)方向以及精細(xì)控制這兩個(gè)層面,精準(zhǔn)實(shí)現(xiàn)AI創(chuàng)作者們的創(chuàng)意表達(dá)。基于該理念,可靈AI還正式推出了多模態(tài)編輯功能。用戶可以非常直接地把自己的想法用圖像等方式表作為輸入,生成符合自己想法的創(chuàng)意視頻。除了圖片和視頻,也可以引入其它模態(tài)的信息,例如聲音、運(yùn)動(dòng)軌跡等,更好的幫助用戶實(shí)現(xiàn)創(chuàng)意意圖。此外,多模態(tài)編輯還支持在一段視頻的基礎(chǔ)之上,通過輸入圖片或文字,對(duì)生成的視頻內(nèi)容實(shí)現(xiàn)元素的增加、刪減、替換。
而在圖像生成方面,快手也展示了可圖2.0圖像生成模型的升級(jí)。包括大幅提升指令遵循能力、顯著增強(qiáng)電影美學(xué)表現(xiàn)力以及更多元的藝術(shù)風(fēng)格。在風(fēng)格化響應(yīng)上,可圖2.0可支持60多種風(fēng)格化的效果轉(zhuǎn)繪,模型出圖創(chuàng)意和想象力實(shí)現(xiàn)大幅躍升。
同時(shí),可圖2.0也上線了實(shí)用的圖像可控編輯功能——局部重繪和擴(kuò)圖,支持圖片的增加、修改和修復(fù)。比如,用戶上傳一張貓的照片,涂抹選定眼睛的位置并輸入提示詞“戴上很酷的墨鏡”,就可以生成一張貓戴墨鏡的圖片。
此外,可圖2.0還上線了全新的風(fēng)格轉(zhuǎn)繪功能,只需要上傳一張圖片加上風(fēng)格描述,就能一鍵切換圖片的藝術(shù)風(fēng)格,同時(shí)精準(zhǔn)保留原圖的語義內(nèi)容。
AI視頻領(lǐng)域的國產(chǎn)之光
相比于阿里、字節(jié)跳動(dòng)等互聯(lián)網(wǎng)大廠,快手在AI大模型領(lǐng)域的布局更為聚焦,核心在多模態(tài)大模型研發(fā)方面投入資源。在人才、算力等維度也會(huì)給予可靈AI更多的支持。
而這樣的聚焦策略也讓快手在視頻生成模型賽道快速突破到全球第一的身位。自去年6月發(fā)布以來,可靈AI已累計(jì)完成超20次迭代。無論在迭代速度還是模型能力上,可靈AI都處于全球領(lǐng)先水平。根據(jù)此前谷歌Veo2技術(shù)報(bào)告,可靈AI 1.5模型在測評(píng)中結(jié)果優(yōu)于Sora,在處理復(fù)雜任務(wù)時(shí)展現(xiàn)出強(qiáng)大能力。3月27日,全球知名AI基準(zhǔn)測試機(jī)構(gòu)Artificial Analysis發(fā)布了最新的全球視頻生成大模型榜單,快手可靈1.6pro(高品質(zhì)模式)以1000分的Arena ELO基準(zhǔn)測試評(píng)分登陸圖生視頻(Image to Video)賽道榜首。
據(jù)蓋坤介紹,此次發(fā)布的可靈大模型2.0及可圖大模型2.0兩款模型在團(tuán)隊(duì)內(nèi)部的多項(xiàng)勝負(fù)率評(píng)測中,均穩(wěn)居業(yè)內(nèi)第一。
在文生視頻領(lǐng)域,可靈2.0對(duì)比谷歌Veo2的勝負(fù)比為205%,對(duì)比Sora的勝負(fù)比達(dá)367%,在文字相關(guān)性、畫面質(zhì)量、動(dòng)態(tài)質(zhì)量等維度上顯著超越對(duì)手。在文生圖領(lǐng)域。可圖 2.0 對(duì) Midjourney V7 的勝負(fù)比達(dá)307%,刷新行業(yè)天花板。
作為全球首個(gè)用戶可用的DiT視頻生成模型,可靈AI的表現(xiàn)在海外也受到了諸多認(rèn)可,可謂是AI視頻領(lǐng)域的國產(chǎn)之光。在全球著名投資基金、咨詢公司a16z發(fā)布的2025年全球100生成式AI應(yīng)用排行榜中,可靈AI的表現(xiàn)也尤為亮眼,超越了Sora、Midjourney、Runway等海外知名產(chǎn)品。
截至目前,可靈AI全球用戶規(guī)模已突破2200萬,累計(jì)生成1.68億個(gè)視頻及3.44億張圖片素材。自去年6月上線至今的10個(gè)月時(shí)間里,可靈AI的月活用戶數(shù)量增長25倍。
可靈驅(qū)動(dòng)快手價(jià)值重估
技術(shù)能力的不斷進(jìn)化讓可靈的商用成為可能,技術(shù)也正在快速轉(zhuǎn)化成市場的勢能。
快手財(cái)報(bào)顯示,自商業(yè)化以來截至2025年2月,可靈AI的累計(jì)營業(yè)收入超1億元。在商業(yè)化上,可靈AI推出了面向C端(用戶)的會(huì)員收費(fèi)模式和面向B端(企業(yè))的API訂閱模式。
對(duì)普通用戶來說,他們對(duì)內(nèi)容多樣性的追求愈發(fā)強(qiáng)烈,同時(shí)渴望降低創(chuàng)作門檻,而視頻大模型技術(shù)恰是解決這一需求的關(guān)鍵突破口。借助視頻大模型,普通用戶通過一段簡單提示語或者一張圖片,即可生成高質(zhì)量的視頻內(nèi)容,這為快手上海量非專業(yè)創(chuàng)作者釋放創(chuàng)意潛能提供了可能。
在廣告營銷、專業(yè)創(chuàng)作、影視、娛樂創(chuàng)意等產(chǎn)業(yè)端,AIGC技術(shù)的迅猛發(fā)展降低內(nèi)容生產(chǎn)成本,也重構(gòu)了生產(chǎn)流程,獲得了諸多企業(yè)的認(rèn)可。
目前,可靈AI已與包括小米、亞馬遜云科技、Freepik、藍(lán)色光標(biāo)等在內(nèi)的數(shù)千家國內(nèi)外企業(yè)客戶建立了合作關(guān)系。蓋坤披露,來自世界各地的超1.5萬開發(fā)者,已將可靈的API應(yīng)用于不同的行業(yè)場景中,累計(jì)生成的圖像數(shù)量約1200萬個(gè),生成的視頻素材超過4000萬個(gè)。比如,今年年初,快手可靈 AI 聯(lián)合快手電商推出 “靈蛇奇遇” 主題活動(dòng),攜手周大福等品牌打造蛇年新春定制生肖聯(lián)名款產(chǎn)品,解鎖了“AI技術(shù)+實(shí)體化產(chǎn)品” 融合新范式。
從全行業(yè)來看,可靈AI是在影視娛樂產(chǎn)業(yè)專業(yè)創(chuàng)作中探索最深的模型。去年9月,快手還啟動(dòng)了“可靈 AI” 導(dǎo)演共創(chuàng)計(jì)劃,李少紅、賈樟柯、葉錦添等9位導(dǎo)演大咖借助可靈 AI 在物理世界模擬、概念創(chuàng)造組合等方面的能力生成畫面,探索新技術(shù)在影視創(chuàng)作和制作領(lǐng)域的邊界。
可以說,可靈正在成為AI時(shí)代視頻創(chuàng)作的新基礎(chǔ)設(shè)施。在可靈技術(shù)能力的支撐下,快手正站在AI技術(shù)與視頻大模型重塑產(chǎn)業(yè)格局的關(guān)鍵節(jié)點(diǎn),AI不僅是效率提升工具,更是驅(qū)動(dòng)平臺(tái)在流量增長的同時(shí),創(chuàng)造更多商業(yè)生態(tài)價(jià)值的核心引擎。
除了目前在C端和B端的探索之外,快手還在探索把可靈AI和現(xiàn)有業(yè)務(wù)結(jié)合,來獲得更多收益。在線上營銷業(yè)務(wù)中,快手一方面基于大模型對(duì)商品語義和用戶表征的深度理解,優(yōu)化模型預(yù)估能力,來提高了廣告投放效果;另一方面,快手也在通過AIGC提高客戶營銷素材生產(chǎn)效率。
可靈的驚艷表現(xiàn)讓市場重新認(rèn)識(shí)到快手是一家科技公司的定位從來沒有改變。過去幾年,快手在高速發(fā)展中積累了大量技術(shù)人才,在確定將視頻大模型作為重點(diǎn)方向后,快手迅速將算法團(tuán)隊(duì)與視頻理解領(lǐng)域的人才優(yōu)勢轉(zhuǎn)化為研發(fā)效能。
這些商業(yè)化應(yīng)用給快手業(yè)務(wù)帶來更多想象空間,也驅(qū)動(dòng)快手的價(jià)值獲得重估。
談及未來AI戰(zhàn)略的發(fā)展路徑,快手CEO程一笑在2024年第四季度財(cái)報(bào)電話會(huì)上透露,AI技術(shù)發(fā)展并逐步成熟的進(jìn)程中,市場必然會(huì)有冷熱周期的變化,對(duì)于快手來說,最好的選擇就是依托AI對(duì)現(xiàn)有業(yè)務(wù)進(jìn)行升級(jí),迅速形成研發(fā)投入和收益的正循環(huán),這樣才具有穿越市場周期的能力。
他表示,快手將在未來3年甚至更長時(shí)間進(jìn)行更大規(guī)模研發(fā)投入,希望能通過可靈AI改造升級(jí)現(xiàn)有業(yè)務(wù),創(chuàng)造AI視頻內(nèi)容生產(chǎn)的新賽道。
可以預(yù)見,通過可靈AI的賦能,快手將獲得全新的發(fā)展機(jī)遇,迎來新一輪增長。