選單

想知道你在網上的發言,被怎麼分析麼?

對資料應用感興趣的朋友們好~ 這次跟大家分享一下,我們日常在網上的留言評論,都會被怎麼分析利用,能產生哪些價值。這也正好對應了資料產品的一個子類——輿情資料產品。

首先統一下定義,我們在網上的各種留言評論包括彈幕,統統都可以歸為輿情資料的範疇,只不過在不同人眼中,有不同的應用價值。

想知道你在網上的發言,被怎麼分析麼?

輿情資料的應用可以粗略分為面子和裡子:

面子,主要是政府和企業,想及時知道大家的看法,尤其是有沒有罵的;以及如果有突發性事件,需要儘快的知道,最好能在初始階段就控制好源頭,不要讓事情鬧大了。

裡子,主要是企業,想知道消費者對他的品牌或者產品有什麼看法,好的壞的都可以,而且越具體越好。比如一款新車上市了,車企自我感覺良好,但消費者到底買不買帳?如果不買帳的話,到底是覺得哪兒有問題,告訴我們,我們好去改。

想知道你在網上的發言,被怎麼分析麼?

這種事情在前網際網路時代是怎麼搞定的呢?主要靠調研諮詢公司了。他們會擬定科學詳盡的問卷調研方案,然後透過電話或者直接出街拉人頭問問題,瞭解廣大使用者的心聲。

這種做法,肉眼可見的問題就是人工成本高,需要鋪不少人力去打電話或者訪談;同時,週期也比較長,一般都是以月為單位計數;再有,就是操作空間比較大,畢竟中間隔著好幾個人工環節,你懂的……

想知道你在網上的發言,被怎麼分析麼?

來到網際網路時代,我們有專門針對輿情的資料產品來解決。一共5步,就可以產品化自動化的給出答案。

這其中政府的事兒不好說,所以就只重點介紹下企業是怎麼利用輿情資料,瞭解消費者對自家品牌or產品的看法。

想知道你在網上的發言,被怎麼分析麼?

第一步就是構建一個圖譜,叫行業知識庫也行。這個圖譜其實並沒有很高階,一個初級的行業圖譜,一個Excel文件可以搞定了。它的作用很簡單,就是把那些非結構化的輿情資料,透過關鍵詞對映到標籤,轉化為結構化的、可以被統計分析的資料。

一般一個行業圖譜,都會有品牌、產品、細分市場和關注點這4類。

品牌顧名思義,就是一個行業裡大部分品牌的叫法,這些關鍵詞同時還能幫你框定一個行業的基本資料範圍。

細分市場你可以理解為是跟品牌進行交叉組合的一個維度or標籤。比如汽車行業裡,車型、產地、能源型別等都可以作為細分市場,它往往是每個行業獨有的一種劃分方式。比如寶馬跟車型進行交叉組合,就可以有寶馬的suv、寶馬的轎車等不同的細分領域了。

產品是比品牌更小的一個粒度,比如寶馬x5、奧迪a6,它的粒度已經細化到沒法再跟細分市場進行交叉組合了。

最後是關注點,就是一般消費者會從哪些角度來評價一個品牌or產品。它可以有層級關係,比如汽車的外觀,可以進一步下鑽到具體的顏色啊、大燈啊、前臉啊什麼的。

想知道你在網上的發言,被怎麼分析麼?

具象一些,就是上面這個Excel截圖示例了。最關鍵的就是第一列的關鍵詞,品牌、產品、細分市場和關注點這4大類標籤都是透過這些關鍵詞進行匹配的。

比如一句話是“奧迪a1在國內價格進一步走低”,那麼它就會被打上品牌=奧迪、產品=奧迪a1、關注點=價格、車型=小型車、能源型別=傳統能源、廠商屬性=進口等一系列標籤。

可以發現,這裡面有些標籤對映關係是顯性的,比如產品和關注點,字面上提到了哪些詞,就會被打上對應的標籤。

而另外一些標籤是隱性的,依靠的就是行業圖譜,而這個行業圖譜的結構基本都是依賴業務專家人工搭建,但關鍵詞那列會需要很多技術支援。比如同樣一個商品,官方有一種叫法,但消費者往往會賦予不同的暱稱,如果漏掉後者,就會遺漏很多輿情資料。

想知道你在網上的發言,被怎麼分析麼?

有了一個框架,我們就可以滿世界的去爬資料了。正如上文演示,我們透過關鍵詞去匹配資料,但也需要先把控一下資料的來源。

一般情況,企業都會比較重視兩微一抖,也就是微信、微博和抖音。微信指的是公眾號,這是一個很大的輿情資料來源;微博雖然大家日常很少發言了,但對於品牌宣傳來講,仍然是一個兵家必爭之地;抖音是新晉的廣告品宣投放重地,自然也不能放過。除此之外,一些行業垂直性的論壇貼吧,也經常有高質量、大密度的討論,自然也要蒐羅進來。

這些資料怎麼來?對一些小廠商來說,只能靠爬蟲了,而且還經常會被資料的擁有方透過各種反爬蟲手段遮蔽。所以這是個體力活,而且爬下來的資料量級很大,比如微博、公眾號、貼吧,很難做到全量的爬取,這就又要考驗儲存實力。所以你看,自己擁有這些資料,是多麼省時省力。

而且爬的時候也要挑,也有一定策略。比如微信公眾號吧,這裡面有大量的自媒體,文章的標題正文字身,就代表著作者的觀點,能量不小。比如前兩年的《騰訊沒有夢想》,著實讓騰訊的公關在夢裡都得好好想想。

同時,公眾號下面的精選評論,也都是網民的態度。那麼問題就來了,有些文章,人家標題就不會有汽車啊、奧迪啊這些詞,但正文裡滿滿的都是對品牌的品頭論足,這種文章你爬不爬?

還有些文章,標題黨,蹭熱門,但正文滿不是那麼回事兒,這種文章你爬不爬?還有些文章,本來是說賓士的,結果評論翻車跑偏了,大家都聊奧迪去了,作為奧迪的廠商爸爸,這些評論你要不要?

誒……想想就頭大是不是?

想知道你在網上的發言,被怎麼分析麼?

然而更頭大的還在後面,資料清洗。

行業圖譜階段,我們透過關鍵詞,儘量多的囊括一個行業的輿情資料,但裡面有很多噪音雜質,比如上面提到的標題黨啊、還有各種廣告水軍,不把它們給清理乾淨,你就很難聽到消費者真正的聲音。

像標題黨,我們可以透過正文去輔助判斷。交給機器學習就好了,只要文章字數夠多,判斷它是否這個行業的準確性就能足夠高;但一些評論資料就會犯難了,因為它字數少,資訊量小,這就需要用到上下文關係去判斷了。

一提到上下文語義識別,就很難了,機器目前真心沒法像人一樣讀懂很多句子的潛臺詞以及上下的關聯。這種例子不僅標題黨,一詞多義也是。

比如紅牛,它既是飲料、又是個F1車隊、還是個球隊的名稱,這個詞要是出現在一大段文字中還好辦,也是就來一句“紅牛不錯”,你說你咋整?

好在,技術在不斷的進步,而且大資料時代嘛,大家都追求用足夠多的“好資料”淹沒稀釋那些“髒資料”,不影響大面兒上的結論就還好……

想知道你在網上的發言,被怎麼分析麼?

進一步,非常需要用情感模型來識別消費者的評價是好是壞。而且我們的目標更高階一些,不僅僅要識別出消費者對品牌or產品的看法,還要具體到對品牌or產品的某個關注點的看法,這對情感模型也是一件頗有難度的事兒。

比如“賓士的外觀比較大氣穩重,要是價格也能像外觀一樣就好了”,這句話裡既有品牌詞(賓士)、也有關注點詞(外觀、價格)、還有表達情感正負向的詞(大氣穩重)。我們人類是比較好識別出來,這句話是誇賓士的外觀,但對它的定價略有微詞。

可對機器就比較犯難了,首先機器需要能識別出,“大氣穩重”這個褒義詞跟“外觀”是一對兒,而不是修飾“價格”的;其次,機器還需要能理解“要是xxx也能像xxx一樣就好了”這種句式,稍有不慎就會把“價格”跟“好”湊成一對,那不就擰了麼?

想知道你在網上的發言,被怎麼分析麼?

最後我們來到了資料呈現階段,很多資料產品往往就砸在這兒。一開始就說了,廠商需要的就是清晰地告訴他們,消費者對品牌or產品的具體評價,那我們就按照品牌or產品來組織資料,並且將情感正負向與關注點交叉,讓評價能夠更具體。

進一步,當點選上圖中的任何一個色塊時,都可以彈出對應這個關注點的情感傾向的具體言論,讓廠商爸爸們不僅知其然、還能知其所以然。

想知道你在網上的發言,被怎麼分析麼?

除了條形佔比圖的呈現以外,廠商爸爸們還很喜歡上面這種散點圖,它是由對應分析方法畫出來的。這個圖其實就是把二維列聯表格式的資料進行視覺化處理,原始資料其實就是這麼一個Excel表格。

想知道你在網上的發言,被怎麼分析麼?

表格中的數字,表示同時提到某個品牌和某個關注點的資料量。

比如大家在討論寶馬的時候,經常會提及操控性和動力;在提及賓士的時候常常把舒適性和外觀掛在嘴邊。反應在圖形上,就是寶馬距離操控性和動力兩個點會更近一些,賓士距離舒適性和外觀兩個點會更近一些。

但這種圖也有它的問題,就是直觀有餘但量化不足。不過客戶往往就喜歡這種直觀可解釋性強的東西,你要是真給他整一個深度神經網路,還真不見得他會買單。

想知道你在網上的發言,被怎麼分析麼?

當然,上述的5個步驟都還有較大的提升空間,比如會在網上發表評論的使用者,是不是本身就比較有偏?他們的聲音能否真正的代表廣大消費者的看法?以及,目前的機器學習對評論資料理解的準確性能否更進一步,像個人一樣去理解句子?

最後再叨叨一句輿情資料產品這個行業:其實上面的分析講解已經可以看到,這是一個相對重資產、體力活、且遊走在灰色邊緣的事兒,很大網際網路大廠看不上這塊小肉,這反倒給了很多第三方小公司一些生存空間。

不過他們有沒有不同的行業專家幫忙搭建各個行業的圖譜?能不能順利爬到足夠覆蓋率的輿情資料?爬回來之後呼叫那些開源的NLP能力介面能否分析的精準?最後的產品化打磨能否到位?這些點,都會影響最終的商業售賣。

(ID:pmcaffcom)

作者

|

PMCAFF

;編輯 | 魚丸湯圓

瓜分6666元現金紅包!領取8%+理財券,每日限額3000份!