在一個異類世界的城堡中,兩個部落的戰(zhàn)爭一觸即發(fā)。當魔法棒啟動的一刻,天崩地裂……
這并不是好萊塢大片中常見的場景,而是國產(chǎn)制作團隊異類Outliers使用可靈AI生成的短片。一些網(wǎng)友看完短片后感嘆:《指環(huán)王》等好萊塢大片可以重拍一遍了。
在傳統(tǒng)影視劇制作中,劇中使用大量復雜的特效意味著高昂的成本。比如,《權力的游戲》前幾季單集制作成本達數(shù)百萬美元,到第八季,由于制作周期長、場景宏大、特效復雜等原因,成本大幅飆升至1500萬美元。
但隨著AIGC水平的大幅提升,這種影視劇的制作成本正在大幅下降。4月15日,可靈AI正式發(fā)布可靈2.0視頻生成模型及可圖2.0圖像生成模型,讓AI創(chuàng)作的視頻和圖片質(zhì)量再上一個臺階,畫面美學、和藝術表現(xiàn)風格都更接近電影質(zhì)感,AI在影視創(chuàng)作行業(yè)的應用也有了更大的想象空間。
可靈2.0發(fā)布后,馬斯克連夜關注可靈海外官方賬號。從之前評論可靈AI制作內(nèi)容時的贊嘆,到如今主動關注,馬斯克對可靈AI的肯定足以證明其在AI娛樂產(chǎn)業(yè)的影響力。
快手高級副總裁、社區(qū)科學線負責人蓋坤在發(fā)布會現(xiàn)場表示,可靈希望讓每個人都能用AI講出好故事,實現(xiàn)更加精準的復雜創(chuàng)意表達。
可以預見,在技術的快速更新迭代中,影視娛樂行業(yè)的變革即將開始。
視頻和圖片生成能力均有明顯提升
自去年6月發(fā)布以來,可靈AI已累計完成超20次迭代,效果持續(xù)領先。
從新發(fā)布的模型來看,可靈2.0模型在動態(tài)質(zhì)量、語義響應、畫面美學等維度,均實現(xiàn)了大幅的升級。
界面新聞以“恐龍朝著鏡頭沖過來,運動模糊,鏡頭抖動”為提示詞,對比可靈2.0和可靈1.6生成的視頻發(fā)現(xiàn),新版模型響應速度更快,畫面主體的動作幅度更大,速度更流暢,復雜動作也更加細膩、更自然、更合理,讓人有了身臨其境之感。
在圖生視頻上,可靈2.0模型的畫面更細膩,能夠更好地保持原圖畫風,畫面的美感度也有明顯提升。比如,以“油畫,孩子們在海邊奔跑,海浪拍打著海岸”為提示詞,新模型的中畫面角色在保持了油畫質(zhì)感的同時,跑動的動態(tài)也更接近真實效果,呈現(xiàn)出超強的風格感。
?
同時,在本次2.0模型的迭代中,可靈AI還正式發(fā)布了AI視頻生成的全新交互理念Multi-modal Visual Language(MVL),讓用戶能夠結合圖像參考、視頻片段等多模態(tài)信息,將多維度復雜創(chuàng)意高效地傳達給AI。
發(fā)布會現(xiàn)場,蓋坤表示,AI在輔助創(chuàng)意表達上擁有巨大潛力,但當前的行業(yè)發(fā)展現(xiàn)狀還遠遠無法滿足用戶需求,在AI生成內(nèi)容的穩(wěn)定性、以及用戶復雜創(chuàng)意的精確傳達上仍有“很多挑戰(zhàn)”。也因此,要真正實現(xiàn)“用AI講好每一個故事”的愿景,必須對基模型能力進行全方位提升,定義人和AI交互的“全新語言”。
據(jù)介紹,MVL由TXT(Pure Text,語義骨架)和MMW(Multi-modal-document as a Word,多模態(tài)描述子)組成,能從視頻生成設定的基礎方向以及精細控制這兩個層面,精準實現(xiàn)AI創(chuàng)作者們的創(chuàng)意表達。基于該理念,可靈AI還正式推出了多模態(tài)編輯功能。用戶可以非常直接地把自己的想法用圖像等方式表作為輸入,生成符合自己想法的創(chuàng)意視頻。除了圖片和視頻,也可以引入其它模態(tài)的信息,例如聲音、運動軌跡等,更好的幫助用戶實現(xiàn)創(chuàng)意意圖。此外,多模態(tài)編輯還支持在一段視頻的基礎之上,通過輸入圖片或文字,對生成的視頻內(nèi)容實現(xiàn)元素的增加、刪減、替換。
而在圖像生成方面,快手也展示了可圖2.0圖像生成模型的升級。包括大幅提升指令遵循能力、顯著增強電影美學表現(xiàn)力以及更多元的藝術風格。在風格化響應上,可圖2.0可支持60多種風格化的效果轉繪,模型出圖創(chuàng)意和想象力實現(xiàn)大幅躍升。
同時,可圖2.0也上線了實用的圖像可控編輯功能——局部重繪和擴圖,支持圖片的增加、修改和修復。比如,用戶上傳一張貓的照片,涂抹選定眼睛的位置并輸入提示詞“戴上很酷的墨鏡”,就可以生成一張貓戴墨鏡的圖片。
此外,可圖2.0還上線了全新的風格轉繪功能,只需要上傳一張圖片加上風格描述,就能一鍵切換圖片的藝術風格,同時精準保留原圖的語義內(nèi)容。
AI視頻領域的國產(chǎn)之光
相比于阿里、字節(jié)跳動等互聯(lián)網(wǎng)大廠,快手在AI大模型領域的布局更為聚焦,核心在多模態(tài)大模型研發(fā)方面投入資源。在人才、算力等維度也會給予可靈AI更多的支持。
而這樣的聚焦策略也讓快手在視頻生成模型賽道快速突破到全球第一的身位。自去年6月發(fā)布以來,可靈AI已累計完成超20次迭代。無論在迭代速度還是模型能力上,可靈AI都處于全球領先水平。根據(jù)此前谷歌Veo2技術報告,可靈AI 1.5模型在測評中結果優(yōu)于Sora,在處理復雜任務時展現(xiàn)出強大能力。3月27日,全球知名AI基準測試機構Artificial Analysis發(fā)布了最新的全球視頻生成大模型榜單,快手可靈1.6pro(高品質(zhì)模式)以1000分的Arena ELO基準測試評分登陸圖生視頻(Image to Video)賽道榜首。
據(jù)蓋坤介紹,此次發(fā)布的可靈大模型2.0及可圖大模型2.0兩款模型在團隊內(nèi)部的多項勝負率評測中,均穩(wěn)居業(yè)內(nèi)第一。
在文生視頻領域,可靈2.0對比谷歌Veo2的勝負比為205%,對比Sora的勝負比達367%,在文字相關性、畫面質(zhì)量、動態(tài)質(zhì)量等維度上顯著超越對手。在文生圖領域??蓤D 2.0 對 Midjourney V7 的勝負比達307%,刷新行業(yè)天花板。
作為全球首個用戶可用的DiT視頻生成模型,可靈AI的表現(xiàn)在海外也受到了諸多認可,可謂是AI視頻領域的國產(chǎn)之光。在全球著名投資基金、咨詢公司a16z發(fā)布的2025年全球100生成式AI應用排行榜中,可靈AI的表現(xiàn)也尤為亮眼,超越了Sora、Midjourney、Runway等海外知名產(chǎn)品。
截至目前,可靈AI全球用戶規(guī)模已突破2200萬,累計生成1.68億個視頻及3.44億張圖片素材。自去年6月上線至今的10個月時間里,可靈AI的月活用戶數(shù)量增長25倍。
可靈驅動快手價值重估
技術能力的不斷進化讓可靈的商用成為可能,技術也正在快速轉化成市場的勢能。
快手財報顯示,自商業(yè)化以來截至2025年2月,可靈AI的累計營業(yè)收入超1億元。在商業(yè)化上,可靈AI推出了面向C端(用戶)的會員收費模式和面向B端(企業(yè))的API訂閱模式。
對普通用戶來說,他們對內(nèi)容多樣性的追求愈發(fā)強烈,同時渴望降低創(chuàng)作門檻,而視頻大模型技術恰是解決這一需求的關鍵突破口。借助視頻大模型,普通用戶通過一段簡單提示語或者一張圖片,即可生成高質(zhì)量的視頻內(nèi)容,這為快手上海量非專業(yè)創(chuàng)作者釋放創(chuàng)意潛能提供了可能。
在廣告營銷、專業(yè)創(chuàng)作、影視、娛樂創(chuàng)意等產(chǎn)業(yè)端,AIGC技術的迅猛發(fā)展降低內(nèi)容生產(chǎn)成本,也重構了生產(chǎn)流程,獲得了諸多企業(yè)的認可。
目前,可靈AI已與包括小米、亞馬遜云科技、Freepik、藍色光標等在內(nèi)的數(shù)千家國內(nèi)外企業(yè)客戶建立了合作關系。蓋坤披露,來自世界各地的超1.5萬開發(fā)者,已將可靈的API應用于不同的行業(yè)場景中,累計生成的圖像數(shù)量約1200萬個,生成的視頻素材超過4000萬個。比如,今年年初,快手可靈 AI 聯(lián)合快手電商推出 “靈蛇奇遇” 主題活動,攜手周大福等品牌打造蛇年新春定制生肖聯(lián)名款產(chǎn)品,解鎖了“AI技術+實體化產(chǎn)品” 融合新范式。
從全行業(yè)來看,可靈AI是在影視娛樂產(chǎn)業(yè)專業(yè)創(chuàng)作中探索最深的模型。去年9月,快手還啟動了“可靈 AI” 導演共創(chuàng)計劃,李少紅、賈樟柯、葉錦添等9位導演大咖借助可靈 AI 在物理世界模擬、概念創(chuàng)造組合等方面的能力生成畫面,探索新技術在影視創(chuàng)作和制作領域的邊界。
可以說,可靈正在成為AI時代視頻創(chuàng)作的新基礎設施。在可靈技術能力的支撐下,快手正站在AI技術與視頻大模型重塑產(chǎn)業(yè)格局的關鍵節(jié)點,AI不僅是效率提升工具,更是驅動平臺在流量增長的同時,創(chuàng)造更多商業(yè)生態(tài)價值的核心引擎。
除了目前在C端和B端的探索之外,快手還在探索把可靈AI和現(xiàn)有業(yè)務結合,來獲得更多收益。在線上營銷業(yè)務中,快手一方面基于大模型對商品語義和用戶表征的深度理解,優(yōu)化模型預估能力,來提高了廣告投放效果;另一方面,快手也在通過AIGC提高客戶營銷素材生產(chǎn)效率。
可靈的驚艷表現(xiàn)讓市場重新認識到快手是一家科技公司的定位從來沒有改變。過去幾年,快手在高速發(fā)展中積累了大量技術人才,在確定將視頻大模型作為重點方向后,快手迅速將算法團隊與視頻理解領域的人才優(yōu)勢轉化為研發(fā)效能。
這些商業(yè)化應用給快手業(yè)務帶來更多想象空間,也驅動快手的價值獲得重估。
談及未來AI戰(zhàn)略的發(fā)展路徑,快手CEO程一笑在2024年第四季度財報電話會上透露,AI技術發(fā)展并逐步成熟的進程中,市場必然會有冷熱周期的變化,對于快手來說,最好的選擇就是依托AI對現(xiàn)有業(yè)務進行升級,迅速形成研發(fā)投入和收益的正循環(huán),這樣才具有穿越市場周期的能力。
他表示,快手將在未來3年甚至更長時間進行更大規(guī)模研發(fā)投入,希望能通過可靈AI改造升級現(xiàn)有業(yè)務,創(chuàng)造AI視頻內(nèi)容生產(chǎn)的新賽道。
可以預見,通過可靈AI的賦能,快手將獲得全新的發(fā)展機遇,迎來新一輪增長。