想知道你在網上的發言，被怎麼分析麼？

對資料應用感興趣的朋友們好~ 這次跟大家分享一下，我們日常在網上的留言評論，都會被怎麼分析利用，能產生哪些價值。這也正好對應了資料產品的一個子類——輿情資料產品。

首先統一下定義，我們在網上的各種留言評論包括彈幕，統統都可以歸為輿情資料的範疇，只不過在不同人眼中，有不同的應用價值。

輿情資料的應用可以粗略分為面子和裡子：

面子，主要是政府和企業，想及時知道大家的看法，尤其是有沒有罵的；以及如果有突發性事件，需要儘快的知道，最好能在初始階段就控制好源頭，不要讓事情鬧大了。

裡子，主要是企業，想知道消費者對他的品牌或者產品有什麼看法，好的壞的都可以，而且越具體越好。比如一款新車上市了，車企自我感覺良好，但消費者到底買不買帳？如果不買帳的話，到底是覺得哪兒有問題，告訴我們，我們好去改。

這種事情在前網際網路時代是怎麼搞定的呢？主要靠調研諮詢公司了。他們會擬定科學詳盡的問卷調研方案，然後透過電話或者直接出街拉人頭問問題，瞭解廣大使用者的心聲。

這種做法，肉眼可見的問題就是人工成本高，需要鋪不少人力去打電話或者訪談；同時，週期也比較長，一般都是以月為單位計數；再有，就是操作空間比較大，畢竟中間隔著好幾個人工環節，你懂的……

來到網際網路時代，我們有專門針對輿情的資料產品來解決。一共5步，就可以產品化自動化的給出答案。

這其中政府的事兒不好說，所以就只重點介紹下企業是怎麼利用輿情資料，瞭解消費者對自家品牌or產品的看法。

第一步就是構建一個圖譜，叫行業知識庫也行。這個圖譜其實並沒有很高階，一個初級的行業圖譜，一個Excel文件可以搞定了。它的作用很簡單，就是把那些非結構化的輿情資料，透過關鍵詞對映到標籤，轉化為結構化的、可以被統計分析的資料。

一般一個行業圖譜，都會有品牌、產品、細分市場和關注點這4類。

品牌顧名思義，就是一個行業裡大部分品牌的叫法，這些關鍵詞同時還能幫你框定一個行業的基本資料範圍。

細分市場你可以理解為是跟品牌進行交叉組合的一個維度or標籤。比如汽車行業裡，車型、產地、能源型別等都可以作為細分市場，它往往是每個行業獨有的一種劃分方式。比如寶馬跟車型進行交叉組合，就可以有寶馬的suv、寶馬的轎車等不同的細分領域了。

產品是比品牌更小的一個粒度，比如寶馬x5、奧迪a6，它的粒度已經細化到沒法再跟細分市場進行交叉組合了。

最後是關注點，就是一般消費者會從哪些角度來評價一個品牌or產品。它可以有層級關係，比如汽車的外觀，可以進一步下鑽到具體的顏色啊、大燈啊、前臉啊什麼的。

具象一些，就是上面這個Excel截圖示例了。最關鍵的就是第一列的關鍵詞，品牌、產品、細分市場和關注點這4大類標籤都是透過這些關鍵詞進行匹配的。

比如一句話是“奧迪a1在國內價格進一步走低”，那麼它就會被打上品牌=奧迪、產品=奧迪a1、關注點=價格、車型=小型車、能源型別=傳統能源、廠商屬性=進口等一系列標籤。

可以發現，這裡面有些標籤對映關係是顯性的，比如產品和關注點，字面上提到了哪些詞，就會被打上對應的標籤。

而另外一些標籤是隱性的，依靠的就是行業圖譜，而這個行業圖譜的結構基本都是依賴業務專家人工搭建，但關鍵詞那列會需要很多技術支援。比如同樣一個商品，官方有一種叫法，但消費者往往會賦予不同的暱稱，如果漏掉後者，就會遺漏很多輿情資料。

有了一個框架，我們就可以滿世界的去爬資料了。正如上文演示，我們透過關鍵詞去匹配資料，但也需要先把控一下資料的來源。

一般情況，企業都會比較重視兩微一抖，也就是微信、微博和抖音。微信指的是公眾號，這是一個很大的輿情資料來源；微博雖然大家日常很少發言了，但對於品牌宣傳來講，仍然是一個兵家必爭之地；抖音是新晉的廣告品宣投放重地，自然也不能放過。除此之外，一些行業垂直性的論壇貼吧，也經常有高質量、大密度的討論，自然也要蒐羅進來。

這些資料怎麼來？對一些小廠商來說，只能靠爬蟲了，而且還經常會被資料的擁有方透過各種反爬蟲手段遮蔽。所以這是個體力活，而且爬下來的資料量級很大，比如微博、公眾號、貼吧，很難做到全量的爬取，這就又要考驗儲存實力。所以你看，自己擁有這些資料，是多麼省時省力。

而且爬的時候也要挑，也有一定策略。比如微信公眾號吧，這裡面有大量的自媒體，文章的標題正文字身，就代表著作者的觀點，能量不小。比如前兩年的《騰訊沒有夢想》，著實讓騰訊的公關在夢裡都得好好想想。

同時，公眾號下面的精選評論，也都是網民的態度。那麼問題就來了，有些文章，人家標題就不會有汽車啊、奧迪啊這些詞，但正文裡滿滿的都是對品牌的品頭論足，這種文章你爬不爬？

還有些文章，標題黨，蹭熱門，但正文滿不是那麼回事兒，這種文章你爬不爬？還有些文章，本來是說賓士的，結果評論翻車跑偏了，大家都聊奧迪去了，作為奧迪的廠商爸爸，這些評論你要不要？

誒……想想就頭大是不是？

然而更頭大的還在後面，資料清洗。

行業圖譜階段，我們透過關鍵詞，儘量多的囊括一個行業的輿情資料，但裡面有很多噪音雜質，比如上面提到的標題黨啊、還有各種廣告水軍，不把它們給清理乾淨，你就很難聽到消費者真正的聲音。

像標題黨，我們可以透過正文去輔助判斷。交給機器學習就好了，只要文章字數夠多，判斷它是否這個行業的準確性就能足夠高；但一些評論資料就會犯難了，因為它字數少，資訊量小，這就需要用到上下文關係去判斷了。

一提到上下文語義識別，就很難了，機器目前真心沒法像人一樣讀懂很多句子的潛臺詞以及上下的關聯。這種例子不僅標題黨，一詞多義也是。

比如紅牛，它既是飲料、又是個F1車隊、還是個球隊的名稱，這個詞要是出現在一大段文字中還好辦，也是就來一句“紅牛不錯”，你說你咋整？

好在，技術在不斷的進步，而且大資料時代嘛，大家都追求用足夠多的“好資料”淹沒稀釋那些“髒資料”，不影響大面兒上的結論就還好……

進一步，非常需要用情感模型來識別消費者的評價是好是壞。而且我們的目標更高階一些，不僅僅要識別出消費者對品牌or產品的看法，還要具體到對品牌or產品的某個關注點的看法，這對情感模型也是一件頗有難度的事兒。

比如“賓士的外觀比較大氣穩重，要是價格也能像外觀一樣就好了”，這句話裡既有品牌詞（賓士）、也有關注點詞（外觀、價格）、還有表達情感正負向的詞（大氣穩重）。我們人類是比較好識別出來，這句話是誇賓士的外觀，但對它的定價略有微詞。

可對機器就比較犯難了，首先機器需要能識別出，“大氣穩重”這個褒義詞跟“外觀”是一對兒，而不是修飾“價格”的；其次，機器還需要能理解“要是xxx也能像xxx一樣就好了”這種句式，稍有不慎就會把“價格”跟“好”湊成一對，那不就擰了麼？

最後我們來到了資料呈現階段，很多資料產品往往就砸在這兒。一開始就說了，廠商需要的就是清晰地告訴他們，消費者對品牌or產品的具體評價，那我們就按照品牌or產品來組織資料，並且將情感正負向與關注點交叉，讓評價能夠更具體。

進一步，當點選上圖中的任何一個色塊時，都可以彈出對應這個關注點的情感傾向的具體言論，讓廠商爸爸們不僅知其然、還能知其所以然。

除了條形佔比圖的呈現以外，廠商爸爸們還很喜歡上面這種散點圖，它是由對應分析方法畫出來的。這個圖其實就是把二維列聯表格式的資料進行視覺化處理，原始資料其實就是這麼一個Excel表格。

表格中的數字，表示同時提到某個品牌和某個關注點的資料量。

比如大家在討論寶馬的時候，經常會提及操控性和動力；在提及賓士的時候常常把舒適性和外觀掛在嘴邊。反應在圖形上，就是寶馬距離操控性和動力兩個點會更近一些，賓士距離舒適性和外觀兩個點會更近一些。

但這種圖也有它的問題，就是直觀有餘但量化不足。不過客戶往往就喜歡這種直觀可解釋性強的東西，你要是真給他整一個深度神經網路，還真不見得他會買單。

當然，上述的5個步驟都還有較大的提升空間，比如會在網上發表評論的使用者，是不是本身就比較有偏？他們的聲音能否真正的代表廣大消費者的看法？以及，目前的機器學習對評論資料理解的準確性能否更進一步，像個人一樣去理解句子？

最後再叨叨一句輿情資料產品這個行業：其實上面的分析講解已經可以看到，這是一個相對重資產、體力活、且遊走在灰色邊緣的事兒，很大網際網路大廠看不上這塊小肉，這反倒給了很多第三方小公司一些生存空間。

不過他們有沒有不同的行業專家幫忙搭建各個行業的圖譜？能不能順利爬到足夠覆蓋率的輿情資料？爬回來之後呼叫那些開源的NLP能力介面能否分析的精準？最後的產品化打磨能否到位？這些點，都會影響最終的商業售賣。

（ID：pmcaffcom）

作者

PMCAFF

；編輯 | 魚丸湯圓

瓜分6666元現金紅包！領取8%+理財券，每日限額3000份！

想知道你在網上的發言，被怎麼分析麼？

猜你喜歡

推薦文章