界面新聞記者 | 肖芳
界面新聞編輯 | 文姝琪
多次因?yàn)?/span>熱點(diǎn)事件的處理引發(fā)爭議之后,抖音近日首次公開了算法原理。
據(jù)界面新聞了解,抖音安全與信任中心網(wǎng)站已上線試運(yùn)營,正向用戶、創(chuàng)作者、社會各界征集意見。該網(wǎng)站公開了抖音算法推薦系統(tǒng)的原理、用戶行為背后的算法推薦邏輯以及平臺人工治理識別各類風(fēng)險等內(nèi)容。
在此前舉辦的2025中國網(wǎng)絡(luò)媒體論壇上,抖音總裁韓尚佑解釋了公開算法推薦系統(tǒng)原理的原因。他表示,很多人對推薦算法技術(shù)存在誤解,認(rèn)為算法是給內(nèi)容打上對應(yīng)標(biāo)簽,再給用戶打上對應(yīng)的屬性,最后通過數(shù)據(jù)運(yùn)算,把對應(yīng)標(biāo)簽的內(nèi)容推薦給有對應(yīng)屬性的用戶。實(shí)際上,抖音的推薦系統(tǒng)已幾乎不依賴對內(nèi)容或者用戶打標(biāo)簽,而是通過一系列神經(jīng)網(wǎng)絡(luò)計算,直接預(yù)估每一個用戶對每一個內(nèi)容的目標(biāo)行為,并挑選出概率最大的一部分內(nèi)容,推薦給用戶。
抖音安全與信任中心網(wǎng)站也著重介紹了這部分內(nèi)容:當(dāng)用戶打開抖音時,抖音的推薦算法會給候選視頻打分,并把得分最高的視頻推送給用戶。用戶在觀看時可以對看到的視頻做出各種互動,這些互動體現(xiàn)了用戶對這個視頻的感興趣程度。比如,“看完了”就是一次反饋動作,“點(diǎn)贊”也是一次反饋動作。用戶對觀看的視頻的每一次反饋,都會對內(nèi)容流量產(chǎn)生影響。
抖音算法的核心邏輯就是通過預(yù)測用戶行為概率和用戶不同行為的價值權(quán)重來確定視頻推薦優(yōu)先級。
雖然推薦算法已并非新生事物,圍繞它的爭議卻從未間斷。這些爭議包括推薦算法帶來標(biāo)題黨、低質(zhì)量、甚至虛假內(nèi)容以及信息繭房的問題。但算法也有積極的一面,其提升了信息分發(fā)效率、促進(jìn)信息流動,不能因?yàn)?/span>存在問題就被一棒子打死。
今年以來,抖音和今日頭條陸續(xù)釋放算法和平臺治理的相關(guān)信息,試圖通過增加透明性來破解算法引發(fā)的種種爭議。
首次解釋抖音算法不追求平臺短期數(shù)據(jù)
從抖音公開的算法原理和算法特點(diǎn)來看,抖音的推薦算法與國內(nèi)外大部分內(nèi)容推薦平臺相似,包含召回、過濾、排序等環(huán)節(jié),重點(diǎn)是學(xué)習(xí)用戶行為。
抖音基于用戶行為的推薦方法包含多種技術(shù)模型,如協(xié)同過濾、雙塔召回、Wide&Deep模型等。算法可以在完全“不理解內(nèi)容”的情況下,找到興趣相似的用戶,把其他人感興趣的內(nèi)容推薦給該用戶。
其中,協(xié)同過濾推薦算法是最經(jīng)典的推薦算法。簡單來說,協(xié)同過濾就是協(xié)同用戶的行為,一起對海量的信息進(jìn)行過濾,從中更加快速篩選出用戶可能會產(chǎn)生行為(比如完播、點(diǎn)贊)的內(nèi)容。比如,用戶 A 觀看了內(nèi)容 X、Y、Z,用戶 B 觀看了內(nèi)容 X、Z、W,這意味著X 和 Z 之間就有較高的相似度,系統(tǒng)會根據(jù)用戶對已觀看或已評分內(nèi)容的偏好,為用戶推薦與這些內(nèi)容相似的其他內(nèi)容。其原理就是,找到和你興趣相似的用戶,把他們感興趣的內(nèi)容也推薦給你。
Wide&Deep模型是抖音推薦算法主力模型之一。Wide部分的主要作用是讓模型具有較強(qiáng)的“記憶能力”,模型可直接學(xué)習(xí)并利用歷史數(shù)據(jù)中物品或者特征的“共現(xiàn)頻率”;Deep部分的主要作用是讓模型具有“泛化能力”,能夠發(fā)掘稀疏甚至從未出現(xiàn)過的稀有特征與最終標(biāo)簽相關(guān)性。這個模型能夠解決協(xié)同過濾算法推薦結(jié)果頭部效應(yīng)比較明顯的問題。
算法能學(xué)習(xí)、預(yù)估用戶行為,但因其無法理解內(nèi)容語義,對內(nèi)容的理解存在不足,可能導(dǎo)致違法違規(guī)、不良內(nèi)容被推薦傳播。因此,算法在真實(shí)使用場景中,必須由平臺治理對其進(jìn)行約束和規(guī)范。抖音平臺治理體系包括異常感知、標(biāo)準(zhǔn)定義、機(jī)器識別、人工研判、風(fēng)險處置等過程。其中,人工主要負(fù)責(zé)“深度”,確保專業(yè)、敏感或疑難等問題盡可能精準(zhǔn)研判。
在很多用戶的認(rèn)知中,算法會推薦一些博眼球甚至擦邊的內(nèi)容來提升用戶使用時長和用戶留存率。在4月15日舉辦的抖音開放日上,抖音方面首次對這個問題進(jìn)行了解釋。
抖音算法工程師劉暢表示,抖音更關(guān)注用戶長期價值,而非追求平臺的短期數(shù)據(jù)。為此,抖音算法考慮了眾多目標(biāo),如完播、評論、點(diǎn)贊、對作者長期消費(fèi)、分享、跟拍等,力圖計算出更符合用戶長期價值的目標(biāo)。
他同時還對引發(fā)爭議較多的信息繭房問題進(jìn)行了回應(yīng):為引導(dǎo)算法打破信息繭房,抖音算法在多目標(biāo)建模體系下,設(shè)置了專門的探索維度。
一是對用戶在平臺上已經(jīng)表現(xiàn)出的興趣,盡可能推薦更多樣的內(nèi)容,通過多樣性打散、多興趣召回、扶持小眾(長尾)興趣等方法控制相似內(nèi)容出現(xiàn)的頻次。二是幫助用戶探索更多新興趣,采用隨機(jī)探索、基于用戶社交關(guān)系拓展興趣、搜索推薦聯(lián)動、“不感興趣”不再展現(xiàn)等多種方式,讓用戶的主動行為影響推薦系統(tǒng),使推薦更加個性化和多樣化。
從抖音對算法原理的一系列解釋來看,其想強(qiáng)調(diào)的是算法的核心是以數(shù)學(xué)計算學(xué)習(xí)人類行為,它將用戶對內(nèi)容的具體偏好抽象為高維空間中的數(shù)學(xué)映射關(guān)系,而算法本身是沒有偏好的。
這種解釋并沒有錯,但算法帶來的爭議并不是簡單的數(shù)學(xué)問題,而是夾雜著諸多社會熱點(diǎn)事件本身引發(fā)的爭議以及公眾情緒,這才是消除公眾誤解的關(guān)鍵和難點(diǎn)。
打破算法爭議,抖音仍需提升熱點(diǎn)事件處置的透明性
回溯去年以來抖音和今日頭條算法引發(fā)的爭議,每一次都和具體的熱點(diǎn)事件相關(guān)。
比如,在郭有才等網(wǎng)紅走紅過程中,一些網(wǎng)友的疑問在于,網(wǎng)紅的走紅是否由平臺算法強(qiáng)推出來的。在一些熱點(diǎn)新聞中,公眾關(guān)心的是算法推薦是否加劇了謠言的傳播、讓謠言處理的難度提升。
在和界面新聞記者談及抖音算法引發(fā)的爭議時,多位抖音用戶表示,相比于算法的數(shù)學(xué)原理,他們更關(guān)心的是平臺對熱點(diǎn)事件處置的透明性。
實(shí)際上,平臺對熱點(diǎn)事件處置的不透明加劇了公眾對算法的誤解。比如,在吳柳芳事件中,很多用戶認(rèn)為是平臺通過算法推薦吳柳芳的擦邊內(nèi)容,帶動其走紅,進(jìn)而質(zhì)疑平臺算法故意推薦擦邊內(nèi)容。而真實(shí)的情況是,在成為社會熱點(diǎn)事件之前,吳柳芳在抖音上的流量和粉絲量一直較少,平臺也并未對其進(jìn)行推薦。其流量的增長是在該熱點(diǎn)引發(fā)社會關(guān)注后,用戶主動搜索導(dǎo)致的。
去年12月以來,抖音集團(tuán)副總裁李亮開始在微博上活躍,多次解釋算法的相關(guān)問題,并對吳柳芳事件、抖音用戶把錢讀成米等熱點(diǎn)事件進(jìn)行了回應(yīng),增加與公眾的溝通。
但這還遠(yuǎn)遠(yuǎn)不夠。比如在張?zhí)m封號事件中,雖然李亮在微博上解釋封號的原因是當(dāng)事人推薦不實(shí)信息進(jìn)行商業(yè)炒作,但網(wǎng)友們仍然對判罰的尺度存在疑問,爭議依然發(fā)酵數(shù)日。
針對公眾關(guān)心且爭議比較大的問題,抖音也在抖音安全與信任中心網(wǎng)站上進(jìn)行了解釋。目前,網(wǎng)站解釋的問題包括“抖音為何突出收藏按鈕”“App會竊聽用戶談話嗎”“網(wǎng)紅是平臺強(qiáng)推出來的嗎”等。據(jù)界面新聞了解,抖音后續(xù)還將在該網(wǎng)站解釋更多爭議性問題。
一位抖音內(nèi)部人士告訴界面新聞,抖音內(nèi)部收集到了很多反饋信息,最終決定上線一個網(wǎng)站來和外界溝通,把已經(jīng)做的工作向外界傳遞出去。