周濤專欄 | 工智慧的七宗罪（下）

我們前兩天在公眾號更新了周濤

《工智慧的七宗罪（上）》

，歷史偏差、表示偏差、測量偏差是人工智慧的前三宗罪，今天我們繼續來跟周濤一起探討“人工智慧七宗罪”之後四宗罪。

Sin 4

聚合偏差

如果有一些特殊的群體需要特別處理，而我們卻使用了通用模型，就會出現所謂的聚合偏差

（這裡的聚合是指把若干需要特別處理的群體資料聚合在一起進行學習而出現的偏差）。即便資料恰當地表示了這些特殊的群體，這樣的偏差依然會存在。

Frey等人［7］的研究顯示，黑幫少年有一些特殊的表情符號的使用習慣，而一些普通人看起來的髒話和挑釁的話，在說唱歌手看來是抒發感情的常見歌詞，如果不把這些群體單獨進行處理，他們就會被誤判——例如黑幫少年一些危險的訊號無法被發現，說唱歌手則都會被認為是好鬥、挑釁甚至反社會的。

▲即使勸人改邪歸正，依然滿口髒話，黑幫群體有其特有的語言特徵，不能用日常標準進行判斷

最近有越來越多的研究在質疑通用模型的適用性，“通用”本身已經成了一個疑似有罪的標籤。

Sin 5

學習偏差

機器學習模型對於目標函式是高度依賴的。除此之外，我們還有一些其他的指標來評價模型的優劣。這些指標往往也被放入到目標函式中，比如我們希望學習到的引數矩陣比較稀疏（引數少），就可以把引數矩陣的0階範數放入目標函式中，又如我們希望學習到的決策樹比較緊緻，就可以把決策樹的節點數放入目標函式中。

人工智慧死板的地方就在於，當我們確定了目標函式後，它會努力將最佳化目標函式這件事情做到極致，而在此過程中可能會大幅度損害模型其他方面的特性

（我們在設計目標函式的時候可能沒有注意到的特性）。

比如對推薦系統精確性的最佳化可能導致所推薦內容多樣性不足，從而讓使用者陷入資訊繭房［8］；又如對模型緊湊度的強調可能會導致表示不足的特徵進一步被削弱，因為緊湊的模型更容易聚焦於頻繁出現的特徵［9］；再如強調資料在計算過程中的隱私保護，也會導致表示不足的群體在模型中的影響力下降（因為這些群體更容易被反匿名化）［10］。

▲紀錄片《監視資本主義：智慧陷阱》片段

Sin 6

評價偏差

評價偏差是指用於評價演算法的資料集中某些群體表示不足，從而使得模型訓練的時候對這些群體“重視不夠”，導致模型在這類群體上表現不佳。

評價偏差和表示偏差有相似的地方，但前者來源於用於評價的資料，或者來源於用於訓練的資料。比如用於表情識別的基準資料集（常被學術界和產業界用來評價和驗證演算法）Adience和IJB-A中黑人女性佔比分別只有7。4%和4。4%，這就導致大量以這兩個資料集為基準來評價的演算法，在黑人女性表情識別方面的表現要低於它們在整個資料集上的表現［11］。

▲2016年美國電影《隱藏人物》劇照

Sin 7

實施偏差

如果模型真正擬解決的問題和這個模型被部署實施用來解決的問題之間存在不匹配，就會出現所謂的實施偏差。

如果模型被部署到一個完全自動化的系統，不需要把結果呈現給人並由人做出最終判斷（人有一定的糾偏能力），那麼就更要小心實施偏差帶來的傷害了。

譬如用來預測一個人未來有多大可能性會犯罪的系統曾被嘗試用來判斷一個犯罪分子的刑期。Collins［12］和Stevenson［13］都指出，這種推廣應用或者孤立應用會帶來非常大的風險，他們的分析顯示犯罪分子的刑期會變得與個人特性相關，而且會出現一些不合理的獲利或者損失。與之相應，一個公正的司法系統下，犯罪分子的刑期應該只和審判要素有關。

▲2016年中國電影《夏有喬木雅望天堂》劇照

我琢磨是不是有必要針對中國的裁判文書網開展研究，看看中國的審判是否也存在類似的問題！

參考文獻

［7］ W。 R。 Frey，D。 U。 Patton， M。 B。 Gaskell， K。 A。 McGregor， Artificial Intelligence andInclusion： Formerly Gang-Involved Youth as Domain Experts for AnalyzingUnstructured Twitter Data， Social Science Computer Review 38 （2020） 42-56。

［8］ T。 Zhou， Z。Kuscsik， J。-G。 Liu， M。 Medo， J。 Wakeling， Y。-C。 Zhang， Solving the apparentdiversity-accuracy dilemma of recommender systems， PNAS 107 （2010）4511-4515。

［9］ S。 Hooker，N。 Moorosi， G。 Clark， S。 Bengio， E。 Denton， Characterising Bias in CompressedModels， arXiv： 2010。03058。

［10］ E。Bagdasaryan， O。 Poursaeed， V。 Shmatikov， Differential privacy has disparateimpact on model accuracy， Advances in Neural Information Processing Systems 32（2019） 15479-15488。

［11］ J。Buolamwini， T。 Gebru， Gender shades： Intersectional accuracy disparities incommercial gender classification， In Proceedings of Conference on Fairness，Accountability and Transparency （pp。 77-91， 2018）。

［12］ E。 Collins，Punishing Risk， Geo。 L。 J。 107 （2018） 57。

［13］ M。Stevenson， Assessing risk assessment in action， Minn。 L。 Rev。 103（2018） 303。

周濤專欄 | 工智慧的七宗罪（下）

猜你喜歡

推薦文章