當推薦遇到冷啟動

冷啟動問題，大家並不陌生。但是如何解決呢？加特徵，加樣本，加圖譜，加規則？十方在做資訊流廣告推薦時，主要透過加一些泛化特徵解決冷啟動問題，但是這樣並不一定是較好的方案，新廣告很大程度上，還是會被模型“低估”。如何解決冷啟動問題呢？

不得不面對的冷啟動！

冷啟動問題可以逃避嗎？當然不能，就拿廣告推薦來說，當一個客戶想投廣告，由於該廣告從未曝光過，召回模型可能都無法召回，更別說後面的粗排和精排模型是否會過濾掉，所以很難起量。《Alleviating Cold-Start Problems in Recommendation through Pseudo-Labelling over Knowledge Graph》這篇論文提出了基於GNN的知識圖譜方法解決冷啟動問題，該方法增加了偽標籤做資料增強。這種方法使用了歷史從未觀察到的user和item作為正樣本，補充到樣本中。透過在知識圖譜中為每個使用者選擇可能的正例，同時還進行了負取樣策略，從而抑制偏差。透過實驗證明該方法在各個場景下能顯著提高冷啟動user/item的推薦效能。

問題描述

我們有一個集合的使用者U和一個集合的item I，如果使用者u和item i有互動，yu，i = 1，我們知道大部分（u，i）都是沒有被觀測過的，這是個非常稀疏的互動矩陣（u， i） U * I。我們把觀測過的user item 對定義為 O = {（，）| ∈ U， ∈ I+ } 。同時我們還有個KG G = {（ℎ，，）|ℎ， ∈ E， ∈ R}，看過前幾篇關於 GNN的肯定很清楚，h表示head entity，t表示target entity，r就是h和t的關係。然後我們目標就是預估那些未被觀測到的yu，i。這篇論文用的GNN框架是KGNN-LS（“Knowledge-aware graph neural networks with label smoothness regularization for recommender systems”），不是本文重點，本文重點介紹透過3種方法解決冷啟動的樣本問題。

半監督學習偽標籤

我們的資料必須高度覆蓋未觀測資料，且不能把它們完全當成負樣本。為了緩解觀測到的（u，i）稀疏性問題，我們透過模型預測未觀察到的樣本（u，i）的label來增加正負標記資料。具體內容如下：