界面新聞記者 | 伍洋宇
界面新聞編輯 | 劉方遠(yuǎn)
方漢曾經(jīng)不遠(yuǎn)千里飛往一座自己從未聽說過名字的小縣城,專程去“堵人”。作為昆侖萬維董事長兼CEO,這是他代表公司去競爭AI人才時(shí)必要的自覺。
他說自己從不會讓這些人來公司,都是自己“巴巴地”上門,找一家餐館或咖啡廳,一口氣跟人家聊上幾個(gè)小時(shí)。憑借這樣的方式,方漢成功為昆侖萬維吸引了一批技術(shù)人才,這些人構(gòu)成了Mureka和SkyReels的核心主創(chuàng),這是昆侖萬維繼續(xù)參與下一個(gè)時(shí)代的兩張最大入場券。
2020年,移動互聯(lián)網(wǎng)浪潮式微,昆侖萬維創(chuàng)始人周亞輝與方漢一起探討公司的第二增長曲線。在VR、元宇宙、Web3、AI這些方向之中,他們選擇了與互聯(lián)網(wǎng)最為相似的AI,因?yàn)樗鼘⑼瑯訉ζ胀ㄓ脩粲绊憳O大。
2023年4月,昆侖萬維正式發(fā)布大語言模型天工3.5,在“百模大戰(zhàn)”中占了一席之地。但很快,這家公司沒有選擇在文本模型上過度投入,轉(zhuǎn)而加速推進(jìn)音樂與視頻大模型的研發(fā)。
AI 2.0時(shí)代,昆侖萬維堅(jiān)信技術(shù)與產(chǎn)品的“雙輪驅(qū)動”效應(yīng)。因此在音樂和視頻的AIGC領(lǐng)域,這家公司不僅打造產(chǎn)品,也將底模能力掌握在自己手中,并且對模型的SOTA(State-of-the-Art)表現(xiàn)具有執(zhí)念。在方漢看來,SOTA是模型最好的營銷方式之一。
2024年4月,昆侖萬維發(fā)布第一代音樂生成模型Mureka V1,并于8月上線AI音樂創(chuàng)作平臺Mureka。今年3月,公司再度發(fā)布Mureka O1與Mureka V6,其中Mureka O1為首款加入MusiCoT(Chain of Thought)的音樂推理大模型,性能超越了其全球范圍內(nèi)最強(qiáng)勁的對手Suno。方漢透露,這次迭代是受到DeepSeek-R1的啟發(fā)。
另一邊,公司在2024年8上線集成視頻大模型與3D大模型的AI短劇平臺SkyReels,又于今年2月開源面向AI短劇創(chuàng)作的視頻生成模型SkyReels-V1。
音樂和視頻,是昆侖萬維篩選出來最好的AIGC內(nèi)容賽道?!叭澜缬?0億人可以消費(fèi)視頻,40億人能消費(fèi)音樂,但可能只有20億人能消費(fèi)漫畫,10億人能消費(fèi)小說?!狈綕h對界面新聞記者表示。
近日,昆侖萬維發(fā)布2024年財(cái)報(bào),公司實(shí)現(xiàn)營業(yè)總收入56.6億元,同比增長15.2%。其中AI業(yè)務(wù)年化收入1.4億美元,以AI音樂為例,其年化流水收入ARR達(dá)到約1200萬美金(截止2025年3月底,月流水收入約100萬美金);截至2月,SkyReels-V1在Hugging Face下載量接近3萬次,在Github點(diǎn)贊星數(shù)過千。
市值約370億元的“中廠”昆侖萬維,其長線命題是如何與大廠錯(cuò)位競爭。方漢認(rèn)為最樸素的邏輯還是扎進(jìn)一個(gè)細(xì)分行業(yè),掌握行業(yè)中的數(shù)據(jù)和行為習(xí)慣并執(zhí)行到最好,直到外面的廠商根本搞不定。
“任何一個(gè)大而美的公司,在早期一定是小而美的,否則大廠會毫不留情去碾壓你?!狈綕h以字節(jié)跳動、小紅書、B站為例,表示這些都是巨頭在早期沒有看懂未來會如何成長的“小而美”,等到巨頭察覺不對時(shí),已經(jīng)很難與其正面競爭。
“所以小而美只是一個(gè)前期的競爭策略,最后能不能泛化才是你鳳凰涅槃的關(guān)鍵因素?!狈綕h說。
以下為界面新聞對方漢的采訪實(shí)錄,略作編輯:
音樂和短劇大模型要做世界第一
界面新聞:你們2023年4月就發(fā)了天工3.5大模型,在國內(nèi)算挺早的,甚至比一些“六小虎”還早??雌饋砟銈兺耆梢杂脤?biāo)OpenAI那一套給自己積攢更多名氣,但后來沒有這么做,為什么?
方漢:邏輯很簡單,我們在一個(gè)領(lǐng)域一定要做到SOTA才愿意大力投入。
文本大模型領(lǐng)域說實(shí)話實(shí)在是競爭過于激烈。但是在音樂大模型領(lǐng)域,我們從2020年就開始做,投入時(shí)間更長,這個(gè)領(lǐng)域競爭也沒有那么激烈,只要我們?nèi)σ愿?,就能做到SOTA。
界面新聞:你們最近剛發(fā)的音樂推理大模型Mureka O1加入了CoT(思維鏈),這是受到DeepSeek的啟發(fā)嗎?
方漢:OpenAI o1出來之后,大家知道推理模型這個(gè)概念的大方向,但具體怎么做,所有人都在探索。我們自己出了一個(gè)文本推理模型Skywork R1,對思維鏈有了一定認(rèn)知,在DeepSeek R1出來之后認(rèn)知就更深了。
我們就在想,除了文本模型,在多模態(tài)生成上面R1的技術(shù)能不能有效。比如音樂大模型我們花了很多時(shí)間去探索和做實(shí)驗(yàn),看能不能跟美國的Suno做碾壓式的競爭。
我們當(dāng)然也走了很多彎路,但實(shí)驗(yàn)結(jié)果出來之后,我覺得我可以毫不謙虛地說,Mureka O1是目前世界上最好的音樂生成模型。
界面新聞:有CoT和沒有CoT的音樂模型,它們在推理生成時(shí)的區(qū)別是什么?
方漢:首先肯定是生成質(zhì)量有大幅提高,但我們是用時(shí)間換質(zhì)量,也就是推理時(shí)長肯定會增加。原來的音樂模型可能不到一分鐘就能生成一首曲子,現(xiàn)在時(shí)間可能要兩分鐘。但對于用戶來說,他肯定更希望后者。
CoT技術(shù)可以大幅提高音樂模型生成質(zhì)量,這個(gè)之前沒有人證明過,我們證明了這一點(diǎn)。
界面新聞:為了證明這件事你們主要做了哪些投入?
方漢:在文本大模型上,Open AI最早做o1的時(shí)候雇了一批博士解數(shù)學(xué)題,做編程,然后得到一批好的數(shù)據(jù)。其他公司也有類似的方法,或者找一個(gè)更好的大模型給它生成數(shù)據(jù)。但音樂大模型完全沒有這種數(shù)據(jù),所以我們還是花了一些成本和精力去做這樣一批好的CoT音樂數(shù)據(jù),才能讓整個(gè)訓(xùn)練成立。
打個(gè)比方,一個(gè)模型生成了十首曲子,1首好的、7首中等的、2首不好的,那我們就把這一首好的曲子挑出來,再讓人工去把前序整個(gè)生成過程所需要的信號標(biāo)注出來。
音樂創(chuàng)作跟解數(shù)學(xué)題不太一樣,生產(chǎn)數(shù)據(jù)是一個(gè)蠻困難的事情,我們也是花了很多精力才知道在生成過程中有哪些信號,可以讓模型更好生成更高質(zhì)量的數(shù)據(jù)。
界面新聞:你們2月以來發(fā)了特別多模型,包括世界模型,面向工業(yè)界的多模態(tài)推理模型,視頻生成模型等等。為什么要發(fā)這么多模型?
方漢:我們公司的使命是要實(shí)現(xiàn)通用人工智能,讓每個(gè)人更好地塑造和表達(dá)自我。
這是分成兩句話,第一句話叫實(shí)現(xiàn)通用人工智能,所謂的AGI既包括文本大模型,也包括理解物理世界的大模型。在這方面我們一直在做探索,是偏實(shí)驗(yàn)性的,它可能沒有短期的商業(yè)價(jià)值,但是長期來看,我們?nèi)匀徽J(rèn)為非常有價(jià)值。
第二句是讓每個(gè)人更好地塑造和表達(dá)自我,這屬于AIGC。在這個(gè)領(lǐng)域我們非常明確有兩個(gè)模型,一個(gè)是Mureka,做音樂生成,一個(gè)是SkyReels,做視頻生成,更準(zhǔn)確地說是做短劇生產(chǎn)。
把這些全拆開之后,你會發(fā)現(xiàn)我們的整個(gè)商業(yè)模式就很清晰了。我們既要探索通用人工智能,也會在音樂和短劇的AIGC領(lǐng)域全力去拿到世界第一。
界面新聞:你們?yōu)槭裁磿@么強(qiáng)調(diào)短劇這個(gè)領(lǐng)域?像“即夢”和“可靈”,它們不會把自己限制在這樣小的范圍里。
方漢:短劇是我們最看好的一個(gè)市場,它正在急劇增長中,視頻生成也比較簡單。
做通用視頻模型就是試圖全線(指短視頻、短劇、網(wǎng)劇、電視劇、電影等)通吃。但通吃的結(jié)果是你得讓所有人都滿意。也就是說你必須做得非常全,非常強(qiáng)大。
但如果我們只做一個(gè)垂類,而且拍攝要求比較低,我可以在更短時(shí)間內(nèi)讓你滿意。短劇一般都是豎屏,幾個(gè)人的對話,沒有大場景,專門做短劇模型必然是更快的。我們的短劇模型支持40多種人物表演的表情,300多種動作,通用模型這些數(shù)據(jù)是不如我的。并且我也認(rèn)為AI短劇模型最有可能最早商業(yè)化。
界面新聞:但大廠的通用視頻模型,它后期微調(diào)一下,可能很快就具備跟你們一樣的能力。
方漢:理論上是這樣,但是問題在于數(shù)據(jù)。就算它們來微調(diào),那也得跟我們一樣去把所有人物表演的數(shù)據(jù)標(biāo)注出來。你要是做的跟我一樣,我肯定是認(rèn)輸了,但我辛辛苦苦做了這么長時(shí)間,而且還在持續(xù)不斷迭代,你怎么能保證你一定比我好?
我們跟大廠的區(qū)別就是,它們所有的數(shù)據(jù)質(zhì)量都要特別高,我們只要把一個(gè)領(lǐng)域的數(shù)據(jù)做到最好。這個(gè)數(shù)據(jù)我們不會對外公開,你也很難去快速復(fù)制。
數(shù)據(jù)護(hù)城河在視頻生成領(lǐng)域仍然是存在的。
“早期一定是小而美,否則大廠會毫不留情碾壓你”
界面新聞:現(xiàn)在所有大廠都在全力投入AI,你們要怎么跟大廠錯(cuò)位競爭?
方漢:我覺得其實(shí)也比較簡單,就是深耕一個(gè)行業(yè),把這個(gè)行業(yè)的數(shù)據(jù)跟行為習(xí)慣全部做到最好,外面的廠商根本搞不定。
界面新聞:目前算力還會是一個(gè)瓶頸嗎?
方漢:現(xiàn)在云算力是越來越多,如果算力有問題,你支撐不起高昂的算力,只能證明你的商業(yè)模式和產(chǎn)品模式有問題。
界面新聞:除了數(shù)據(jù)和算力,人才方面要怎么去競爭?
方漢:首先是你的技術(shù)真的能夠達(dá)到排行榜上的SOTA(State-of-the-Art),你沒有SOTA的技術(shù)就拿不到最好的人。我們雖然是一家中型公司,但我們音樂大模型排第一,還有其他很多模型能夠在垂類領(lǐng)域拿到全球第一,這對人才是有吸引力的。而且在大公司并不是每個(gè)人都能當(dāng)頭的。
第二,我們相對來決策鏈條更短,就像創(chuàng)始人周亞輝也會直接跟技術(shù)溝通,技術(shù)得到的權(quán)限會更大。而且我們不會有大公司的部門競爭,這對很多人才來說也非常有吸引力。當(dāng)然根本上你也得有比大廠更有吸引力的薪酬。
界面新聞:有你特別費(fèi)勁才挖來的人嗎?
方漢:多了去了,我們曾經(jīng)為了挖人,飛到一個(gè)我之前都沒聽說過名字的小縣城去堵人家,或者在北京我上門去請人家吃飯。我們從來沒有讓人家到我們公司來面試,都是我巴巴地上門,找一個(gè)飯館、咖啡館,然后一口氣跟人家聊幾個(gè)小時(shí)。
因?yàn)槲艺f我們公司競爭力比大廠強(qiáng),那是不可能的,但是我一定保證我的誠意比大廠強(qiáng)。
界面新聞:都是為了哪些崗位去競爭?
方漢:包括Mureka大模型的幾個(gè)核心主創(chuàng),以及視頻模型的核心主創(chuàng),都是我們競爭成功的。
界面新聞:周亞輝在投資筆記里說,你們要在社交、游戲、影視、動漫、音樂這幾個(gè)領(lǐng)域做一個(gè)“小而大美”的企業(yè),為什么你們不會說想趁著AI帶來的變革去搏一個(gè)大而美的機(jī)會?
方漢:任何一個(gè)“大而美”的公司,在早期一定是“小而美”的,否則大廠會毫不留情去碾壓你。
字節(jié)就是非常好的例子,張一鳴最早做今日頭條的時(shí)候,所有人都看不明白這能長成多大。B站最早也是一幫二次元從A站分化出來。小紅書也是這樣,一開始只是分享購物筆記的地方。
為什么它們能長大?就是因?yàn)樵谠缙谒幌胱鲂《溃缓笤谧詈诵牡倪@批用戶里鞏固自己的地位,同時(shí)大廠沒有興趣跟你競爭。
但是你在做小而美的時(shí)候,就要想到它有沒有可能泛化到大而美。我認(rèn)為B站小紅書和字節(jié)都是泛化到了更大,等它泛化的時(shí)候,大廠已經(jīng)完全沒辦法跟它正面競爭。
所以小而美只是一個(gè)前期的競爭策略,最后能不能泛化才是你鳳凰涅槃的關(guān)鍵因素。
界面新聞:你覺得在AIGC時(shí)代成為一家平臺型公司,比上一個(gè)時(shí)代更難還是更簡單?
方漢:上一個(gè)移動互聯(lián)網(wǎng)時(shí)代更多是產(chǎn)品創(chuàng)新,通過燒大量的錢,迅速獲得海量的用戶,最后形成門檻。
但這個(gè)時(shí)代的技術(shù)競爭會更殘酷,也不完全是燒錢就能保持技術(shù)紅利的。因?yàn)橛脩舻闹艺\度還沒有那么高,必須是技術(shù)發(fā)展到瓶頸之后,大家才會靠產(chǎn)品使用習(xí)慣形成護(hù)城河。
所以準(zhǔn)確地說,肯定是這個(gè)時(shí)代成為一家平臺型公司更難。
“掙多少錢不重要,但能掙錢這件事情很重要”
界面新聞:今年大家好像開始更頻繁談?wù)揂I應(yīng)用公司的ARR(年度經(jīng)常性收入),動輒數(shù)百萬、數(shù)千萬美金,在你看來,AIGC產(chǎn)品的PMF(Product-Market-Fit)現(xiàn)在已經(jīng)如此明確了嗎?
方漢:很多創(chuàng)業(yè)者,包括一些投資人,可能都會給大家畫餅,說我的PMF多么好。但實(shí)際上要從市場側(cè)來看,第一,它服務(wù)的市場有多大?第二,市場會花多少錢在這些工具上?
拿音樂來舉例,在沒有AI音樂生成之前,在中國做一首曲子,從找人作曲、作詞,再找樂隊(duì)演奏,找工作室混音,最后給你一盤帶子,最低成本是10萬塊,一般來說在10萬到100萬元之間。
現(xiàn)在一首歌的推理成本可能就幾十塊錢,這導(dǎo)致創(chuàng)作成本和創(chuàng)作門檻都大幅下降,那么整個(gè)行業(yè)都愿意為這個(gè)東西付費(fèi)。
所以AIGC行業(yè)應(yīng)該這樣看待PMF——整個(gè)行業(yè)現(xiàn)在每年消耗多少錢,以及你能幫他省多少錢。我認(rèn)為音樂生成和圖像生成已經(jīng)到了完全可以商用的地步,但視頻生成說實(shí)話還差一點(diǎn),可能會稍晚1-2年。
界面新聞:Mureka可能長成一個(gè)多大的平臺?你之前說它可以是數(shù)字音樂工作站類似“剪映”一樣的平替,據(jù)說剪映和CapCut在2024年總收入接近百億人民幣,全球月活用戶有8億。
方漢:有一個(gè)比較簡單的對比方法,就是全世界圖像處理的軟件市場,以Adobe為例,可能是一個(gè)200億美金的市場規(guī)模。視頻處理的市場規(guī)??赡苁莻€(gè)四五百億美金,剪映如果有20億美金就吃到了5%的市場規(guī)模。
音樂創(chuàng)作現(xiàn)在是一個(gè)將近30億美金到40億美金的市場,在這中間吃個(gè)2%,就是一個(gè)5000萬美金到1億美金的市場,這是最低的。
但也不能簡單這么說,因?yàn)橐魳穭?chuàng)作的門檻太高了,導(dǎo)致了整個(gè)音樂工作站、音樂制作工具的市場沒有那么大。但是當(dāng)我們這些新的創(chuàng)作工具介入之后,以后創(chuàng)作音樂的用戶規(guī)模一定會擴(kuò)大。
樂觀估計(jì),AI音樂創(chuàng)作這個(gè)市場應(yīng)該是一個(gè)百億美金級別的市場。我們這種做工具的頭部廠商,我認(rèn)為它的上限是每年10億美金到20億美金收入。
界面新聞:對你們來說,Mureka和SkyReels這兩個(gè)平臺現(xiàn)階段就盈利這件事情重要嗎?還是說你允許它們現(xiàn)在不賺錢。
方漢:掙多少錢不重要,但能掙錢這件事情很重要。能掙錢證明用戶愿意為付錢,不然這個(gè)商業(yè)模式就不成立了。
但這里面也有一個(gè)技術(shù)紅利問題。就是當(dāng)你在這個(gè)領(lǐng)域技術(shù)指標(biāo)做到第一之后,會有大量自來水用戶。這批用戶對我們產(chǎn)品的改進(jìn)非常重要。
界面新聞:能掙錢這件事你們現(xiàn)在已經(jīng)驗(yàn)證了嗎?
方漢:肯定是驗(yàn)證了,我可以舉好多例子。用戶會把從我們這里做的音樂嵌到視頻里,或者直接把視頻發(fā)到平臺上去獲取廣告收入,這些例子會越來越多。
我只能說,AIGC領(lǐng)域的盈利模型好于文本大模型,ToB一定是比ToC更好,這個(gè)沒什么疑問。
界面新聞:拋開出海不談,國內(nèi)的ToB環(huán)境也是成熟的嗎?
方漢:我認(rèn)為也是成熟的?,F(xiàn)在全國每年花100億人民幣拍短劇,這個(gè)市場需求是擺在那兒的,你只要能給他們降低成本,他們一定愿意掏錢。
界面新聞:你對整個(gè)AI行業(yè)局勢有什么新的判斷?
方漢:應(yīng)該說具備生產(chǎn)力的應(yīng)用開始正式進(jìn)場了。以前的產(chǎn)品模式跟商業(yè)模式都不太接地氣,現(xiàn)在新的產(chǎn)品模式和商業(yè)模式都在不斷涌現(xiàn)。
本質(zhì)原因是模型真正到了一個(gè)可用階段,這確實(shí)是一個(gè)挺難的事。
界面新聞:年初Manus爆火,現(xiàn)在很多大廠也紛紛跟進(jìn)了,你對通用Agent這個(gè)產(chǎn)品形態(tài)有什么看法?
方漢:我們不評判友商。不過我認(rèn)為在大模型時(shí)代,模型本身的改進(jìn)會把所有外部套殼產(chǎn)品的改進(jìn)碾得粉碎。
這是我們觀察到的現(xiàn)象,倒不光是Agent這一個(gè)領(lǐng)域,整個(gè)領(lǐng)域都是這樣。當(dāng)時(shí)這么多人去做GPTs,OpenAI稍微改了一下,整個(gè)行業(yè)就廢了。
所以模型本身的迭代,會把之前套殼和外部做應(yīng)用的一些廠商都弄得非常之難受。我覺得還是要專注于模型本身能力的提高。
界面新聞:所以你認(rèn)為Agent這件事里,更有話語權(quán)的依舊是模型廠商。
方漢:肯定是模型廠商更有話語權(quán)。Agent是大方向,這個(gè)沒有問題,但它嚴(yán)重依賴于底模能力,底模能力不行,你能干的事就少很多。
所以你首先得有一個(gè)特別好的底模,其次你沒有任何能力阻止這些大模型廠商不干你這個(gè)生意。
界面新聞:你們會自己去做一款A(yù)gent嗎?
方漢:我們會做這方面的探索跟科研,但并不是我們的主賽道。Agent的整個(gè)架構(gòu)其實(shí)挺復(fù)雜的,Antropic出了MCP協(xié)議,谷歌出了A2A協(xié)議,Agent現(xiàn)在還處于互聯(lián)網(wǎng)早期做TCP、UDP協(xié)議的時(shí)期。
但是千變?nèi)f化,大家最后還是要拿Agent來干活。就算當(dāng)初互聯(lián)網(wǎng)在醫(yī)療、金融領(lǐng)域落地,還是需要大量的系統(tǒng)集成廠商去做行業(yè)軟件。
我們對于某些行業(yè)還是有自己的一套研究和積累,比如我們原來的PPT生成和PDF生成,是國內(nèi)最好的產(chǎn)品之一。所以我覺得我們做Office Agent,是有可能受到用戶歡迎的。
界面新聞:周亞輝在他2025年第一篇投資筆記里寫,他在2021年就草擬過昆侖萬維的使命,是在2030年實(shí)現(xiàn)AGI。當(dāng)時(shí)為什么會有這么一個(gè)使命的探討?
方漢:我們其實(shí)是從2020年開始給公司找第二曲線,當(dāng)時(shí)選擇非常多,有VR,元宇宙,web3,AI,我們最后選了AI。
我們認(rèn)為從用戶角度來說,AI是一個(gè)更像互聯(lián)網(wǎng)的產(chǎn)品,比如說對普通用戶的影響會極大。只不過有兩個(gè)選擇,到底是通用人工智能還是AIGC?
這兩件事當(dāng)時(shí)并沒有明確的分界,但因?yàn)槲覀円恢弊鰞?nèi)容,所以非常清楚AIGC能夠長得多大。至于AGI,這個(gè)應(yīng)該說是人人都有夢想,你總得有夢想。