界面新聞記者 | 肖芳
界面新聞編輯 | 文姝琪
多次因為熱點事件的處理引發(fā)爭議之后,抖音近日首次公開了算法原理。
據(jù)界面新聞了解,抖音安全與信任中心網(wǎng)站已上線試運營,正向用戶、創(chuàng)作者、社會各界征集意見。該網(wǎng)站公開了抖音算法推薦系統(tǒng)的原理、用戶行為背后的算法推薦邏輯以及平臺人工治理識別各類風險等內容。
在此前舉辦的2025中國網(wǎng)絡媒體論壇上,抖音總裁韓尚佑解釋了公開算法推薦系統(tǒng)原理的原因。他表示,很多人對推薦算法技術存在誤解,認為算法是給內容打上對應標簽,再給用戶打上對應的屬性,最后通過數(shù)據(jù)運算,把對應標簽的內容推薦給有對應屬性的用戶。實際上,抖音的推薦系統(tǒng)已幾乎不依賴對內容或者用戶打標簽,而是通過一系列神經(jīng)網(wǎng)絡計算,直接預估每一個用戶對每一個內容的目標行為,并挑選出概率最大的一部分內容,推薦給用戶。
抖音安全與信任中心網(wǎng)站也著重介紹了這部分內容:當用戶打開抖音時,抖音的推薦算法會給候選視頻打分,并把得分最高的視頻推送給用戶。用戶在觀看時可以對看到的視頻做出各種互動,這些互動體現(xiàn)了用戶對這個視頻的感興趣程度。比如,“看完了”就是一次反饋動作,“點贊”也是一次反饋動作。用戶對觀看的視頻的每一次反饋,都會對內容流量產(chǎn)生影響。
抖音算法的核心邏輯就是通過預測用戶行為概率和用戶不同行為的價值權重來確定視頻推薦優(yōu)先級。
雖然推薦算法已并非新生事物,圍繞它的爭議卻從未間斷。這些爭議包括推薦算法帶來標題黨、低質量、甚至虛假內容以及信息繭房的問題。但算法也有積極的一面,其提升了信息分發(fā)效率、促進信息流動,不能因為存在問題就被一棒子打死。
今年以來,抖音和今日頭條陸續(xù)釋放算法和平臺治理的相關信息,試圖通過增加透明性來破解算法引發(fā)的種種爭議。
首次解釋抖音算法不追求平臺短期數(shù)據(jù)
從抖音公開的算法原理和算法特點來看,抖音的推薦算法與國內外大部分內容推薦平臺相似,包含召回、過濾、排序等環(huán)節(jié),重點是學習用戶行為。
抖音基于用戶行為的推薦方法包含多種技術模型,如協(xié)同過濾、雙塔召回、Wide&Deep模型等。算法可以在完全“不理解內容”的情況下,找到興趣相似的用戶,把其他人感興趣的內容推薦給該用戶。
其中,協(xié)同過濾推薦算法是最經(jīng)典的推薦算法。簡單來說,協(xié)同過濾就是協(xié)同用戶的行為,一起對海量的信息進行過濾,從中更加快速篩選出用戶可能會產(chǎn)生行為(比如完播、點贊)的內容。比如,用戶 A 觀看了內容 X、Y、Z,用戶 B 觀看了內容 X、Z、W,這意味著X 和 Z 之間就有較高的相似度,系統(tǒng)會根據(jù)用戶對已觀看或已評分內容的偏好,為用戶推薦與這些內容相似的其他內容。其原理就是,找到和你興趣相似的用戶,把他們感興趣的內容也推薦給你。
Wide&Deep模型是抖音推薦算法主力模型之一。Wide部分的主要作用是讓模型具有較強的“記憶能力”,模型可直接學習并利用歷史數(shù)據(jù)中物品或者特征的“共現(xiàn)頻率”;Deep部分的主要作用是讓模型具有“泛化能力”,能夠發(fā)掘稀疏甚至從未出現(xiàn)過的稀有特征與最終標簽相關性。這個模型能夠解決協(xié)同過濾算法推薦結果頭部效應比較明顯的問題。
算法能學習、預估用戶行為,但因其無法理解內容語義,對內容的理解存在不足,可能導致違法違規(guī)、不良內容被推薦傳播。因此,算法在真實使用場景中,必須由平臺治理對其進行約束和規(guī)范。抖音平臺治理體系包括異常感知、標準定義、機器識別、人工研判、風險處置等過程。其中,人工主要負責“深度”,確保專業(yè)、敏感或疑難等問題盡可能精準研判。
在很多用戶的認知中,算法會推薦一些博眼球甚至擦邊的內容來提升用戶使用時長和用戶留存率。在4月15日舉辦的抖音開放日上,抖音方面首次對這個問題進行了解釋。
抖音算法工程師劉暢表示,抖音更關注用戶長期價值,而非追求平臺的短期數(shù)據(jù)。為此,抖音算法考慮了眾多目標,如完播、評論、點贊、對作者長期消費、分享、跟拍等,力圖計算出更符合用戶長期價值的目標。
他同時還對引發(fā)爭議較多的信息繭房問題進行了回應:為引導算法打破信息繭房,抖音算法在多目標建模體系下,設置了專門的探索維度。
一是對用戶在平臺上已經(jīng)表現(xiàn)出的興趣,盡可能推薦更多樣的內容,通過多樣性打散、多興趣召回、扶持小眾(長尾)興趣等方法控制相似內容出現(xiàn)的頻次。二是幫助用戶探索更多新興趣,采用隨機探索、基于用戶社交關系拓展興趣、搜索推薦聯(lián)動、“不感興趣”不再展現(xiàn)等多種方式,讓用戶的主動行為影響推薦系統(tǒng),使推薦更加個性化和多樣化。
從抖音對算法原理的一系列解釋來看,其想強調的是算法的核心是以數(shù)學計算學習人類行為,它將用戶對內容的具體偏好抽象為高維空間中的數(shù)學映射關系,而算法本身是沒有偏好的。
這種解釋并沒有錯,但算法帶來的爭議并不是簡單的數(shù)學問題,而是夾雜著諸多社會熱點事件本身引發(fā)的爭議以及公眾情緒,這才是消除公眾誤解的關鍵和難點。
打破算法爭議,抖音仍需提升熱點事件處置的透明性
回溯去年以來抖音和今日頭條算法引發(fā)的爭議,每一次都和具體的熱點事件相關。
比如,在郭有才等網(wǎng)紅走紅過程中,一些網(wǎng)友的疑問在于,網(wǎng)紅的走紅是否由平臺算法強推出來的。在一些熱點新聞中,公眾關心的是算法推薦是否加劇了謠言的傳播、讓謠言處理的難度提升。
在和界面新聞記者談及抖音算法引發(fā)的爭議時,多位抖音用戶表示,相比于算法的數(shù)學原理,他們更關心的是平臺對熱點事件處置的透明性。
實際上,平臺對熱點事件處置的不透明加劇了公眾對算法的誤解。比如,在吳柳芳事件中,很多用戶認為是平臺通過算法推薦吳柳芳的擦邊內容,帶動其走紅,進而質疑平臺算法故意推薦擦邊內容。而真實的情況是,在成為社會熱點事件之前,吳柳芳在抖音上的流量和粉絲量一直較少,平臺也并未對其進行推薦。其流量的增長是在該熱點引發(fā)社會關注后,用戶主動搜索導致的。
去年12月以來,抖音集團副總裁李亮開始在微博上活躍,多次解釋算法的相關問題,并對吳柳芳事件、抖音用戶把錢讀成米等熱點事件進行了回應,增加與公眾的溝通。
但這還遠遠不夠。比如在張?zhí)m封號事件中,雖然李亮在微博上解釋封號的原因是當事人推薦不實信息進行商業(yè)炒作,但網(wǎng)友們仍然對判罰的尺度存在疑問,爭議依然發(fā)酵數(shù)日。
針對公眾關心且爭議比較大的問題,抖音也在抖音安全與信任中心網(wǎng)站上進行了解釋。目前,網(wǎng)站解釋的問題包括“抖音為何突出收藏按鈕”“App會竊聽用戶談話嗎”“網(wǎng)紅是平臺強推出來的嗎”等。據(jù)界面新聞了解,抖音后續(xù)還將在該網(wǎng)站解釋更多爭議性問題。
一位抖音內部人士告訴界面新聞,抖音內部收集到了很多反饋信息,最終決定上線一個網(wǎng)站來和外界溝通,把已經(jīng)做的工作向外界傳遞出去。