選單

用Python分析一下這個橫行霸道的美食

大家好,歡迎來到 Crossin的程式設計教室 !

秋風起,蟹腳癢。又到了某樣“橫行霸道”的美食上餐桌的時節,那就是!

用Python分析一下這個橫行霸道的美食

大閘蟹

那麼,大閘蟹又有哪些特點,都有哪些大閘蟹品牌值得關注呢?

今天,就跟隨著本文一看究竟吧!

目錄:

1。 聊聊大閘蟹

2。 資料採集

2。1。 頁面分析

2。2。 採集程式

3。 資料清洗

4。 資料統計

4。1。 商品價格分佈

4。2。 評論數分佈

4。3。 店鋪商品數分佈

4。4。 好評率分佈

5。 其他

1。 聊聊大閘蟹

螃蟹一般根據生活水域的不同而分為

河蟹

海蟹

,比如大閘蟹就是河蟹額一種,帝王蟹那種超大的就是海蟹的一類。

大閘蟹都有哪些營養價值呢?

大閘蟹營養豐富,據《本草綱目》記載:螃蟹具有舒筋益氣、理胃消食、通經絡、散諸熱、散瘀血之功效。蟹肉味鹹性寒,有清熱、化瘀、滋陰之功,可治療跌打損傷、筋傷骨折、過敏性皮炎。蟹殼煅灰,調以蜂蜜,外敷可治黃蜂蜇傷或其他無名腫毒。蟹肉也是兒童天然滋補品,經常食用可以補充優質蛋白和各種微量元素。

——百科

美味的大閘蟹!

用Python分析一下這個橫行霸道的美食

膏多的大閘蟹

一般我們看網上的大閘蟹商品,出現較多的字眼就是鮮活、公母以及兩(重量單位),那麼這都是什麼含義呢?

所謂

鮮活

,其實就是指你網購且到你手上的大閘蟹是活的狀態,畢竟到手的是死蟹再烹飪誰知道會出現啥異常問題。

用Python分析一下這個橫行霸道的美食

鮮活度判斷-(來自:知乎張美麗)

所謂

公母

,其實就是大閘蟹的性別雌雄,公蟹的肚臍是尖尖的,而母蟹的肚臍是圓的(畢竟要放卵)。一般建議是農曆八九月裡可以挑母蟹,農曆九月過後(也就是國慶節後)優先選公蟹。

用Python分析一下這個橫行霸道的美食

公母判斷

所謂

,就是重量單位指大閘蟹的體重,。當然了,基本上越大越肥美了!!不過,越大價格也越貴~~

用Python分析一下這個橫行霸道的美食

大閘蟹大小對比-(來自:知乎張美麗)

特別注意,在吃大閘蟹的時候,有四個部位不能吃,這些部位主要是有些很多寄生蟲和細菌啥的。

用Python分析一下這個橫行霸道的美食

不要吃的四個部位

大閘蟹的簡單介紹就到這了,接下來我們看看電商平臺上的大閘蟹吧!

2。 資料採集

本次採集的是京東商城裡帶有 中秋節標籤的 大閘蟹商品資訊,採集過程如下:

2。1。 頁面分析

頁面

透過進行下滑操作,我們發現單純從頁面來看預設展示30個商品資訊,下滑會載入另外30個,此時的網頁地址不變;當我們翻頁時,發現網頁地址發生變化,其中page從1變成了3。於是,我們猜測其實每個頁面是兩頁page,於是嘗試手動修改page發現確實如此。最後,我們獲得網頁地址規律如下:

當然,大家也可以將上面的地址變成

基礎地址+引數

的形式,其中可變引數為和,方便進行其他商品的資料採集,這裡我就不展開了。

我們透過請求這個網頁地址,可以獲取需要的商品資訊如下:

用Python分析一下這個橫行霸道的美食

商品資訊

不過,實際操作中我們發現請求到的網頁資料中其他資訊都包含但是唯獨

不包含評價數資訊

,而評價數的資訊需要點進去具體的商品頁面進行採集。好在我們進到商品頁面發現評價資訊是以資料形式存在,比較好解析,而且介面非常明確,可以直接透過這一個引數即可進行請求獲取。

2。2。 採集程式

經過對頁面的分析以及一些嘗試,我們最終確定了採集方法。

引入需要的庫

採集頁面資訊

頁面資料採集需要傳入的引數只是頁碼即可

採集評論資料

採集評論資料只需要傳商品id即可,這裡需要注意的是這個介面貌似有訪問時間限制或頻次限制(

我這邊採集完是用的代理ip

解析頁面其他資訊

頁面顯示一共41頁,所以這裡我手動設定的是82頁,解析操作採用的是

最終,我們得到的資料如下:

資料預覽

3。 資料清洗

開啟存在本地的資料檔案,發現裡面存在大閘蟹的一些衍生品,比如蟹八件、蟹膏等等,這些商品資料是需要刪除的;此外,像欄位裡存在非字元,欄位裡有和等字眼也需要替換處理;最後就是爬取過程中採集的資料可能存在重複,需要按照去重等等。

資料資訊

無關資料清理

發現在商品名稱中,都用到

以及

字眼,我們可以根據這個資訊進行無關資料清理

一下子清理了好多!!

特殊字元處理

無關資料清理

重複資料刪除

又清理了不少!!

資料型別轉換

我們發現,在各欄位資料型別中,評論數居然還是數字型別,那就轉化一下吧。

資料清洗完畢,我們開始做簡單的統計分析展示吧!

4。 資料統計

以下,我們將從商品價格分佈、評論數分佈、店鋪商品數分佈和好評率進行統計展示,同時我們也可以將根據商品名稱進行解析出公母以及重量相關資料再做探索!

4。1。 商品價格分佈

價格直方圖

可以看到,大部分價格在1000以內,超過600/1546件商品價格在300以內。

用Python分析一下這個橫行霸道的美食

價格箱線圖

我們按照,,,,,分類看看,可以發現區間的商品佔比最多!!

用Python分析一下這個橫行霸道的美食

價格分佈

商品最貴的幾件

可以看到最貴的大閘蟹基本都是重量級的,來自誠蟹一品,不過銷量應該一般,畢竟評論數少。不過是真的大

公的都有7兩多

母的都是5-6兩

,而常規賣的基本都是4兩左右價格400左右!!

最貴大閘蟹

4。2。 評論數分佈

大部分的商品評論數,有個商品的評論數

超過10萬

。不過,我們基本可以認定像這種1評論數的商品基本都是買的最多的!

評論數分佈

買的人最多的基本都是的組合裝,價格在之間,屬於

大眾消費品

吧!

評論數也就是銷量

這些商品基本也是你在京東搜尋的時候出現在綜合推薦前幾位的吧!

用Python分析一下這個橫行霸道的美食

綜合推薦前幾

4。3。 店鋪商品數分佈

誠蟹一品旗艦店

是商品數最多的,高達79款,不過整體銷量一般,感覺看前面他們家高達6000塊以上的禮品盒,大概只做高階吧!

相比之下,

姑蘇漁歌京東自營旗艦店

的商品數量多且銷量也多。

用Python分析一下這個橫行霸道的美食

店鋪商品最多

我們再看看

銷量高的店鋪

都有哪些!

可以看到,三家自營店:京東自營旗艦店、京東自營旗艦店、京東自營旗艦店銷量遙遙領先!

用Python分析一下這個橫行霸道的美食

銷量高的店鋪

4。4。 好評率分佈

只看評價數超過的商品共,有一半商品好評率都在以上,相對來說整體都不錯,買就買銷量多且好評率高的吧,就是比較穩!

用Python分析一下這個橫行霸道的美食

好評率分佈

關於按照商品名稱中的大閘蟹重量來進行深度探索,大家可以自行試試哦!

5。 其他

其實,如果你想更深一步瞭解不同商品的 使用者評價,可以參考 中對評價資訊的部分,這部分做迴圈然後就可獲取全部的評論資料,然後再進行對應資料分析。

關於京東大閘蟹,透過商品名稱我們可以得到以下熱詞雲圖:

基本都是、和等關鍵字咯。。。

用Python分析一下這個橫行霸道的美食

看來大家還是普遍都更喜歡母蟹啊!

以上,就是本次全部內容。要是喜歡,就請我吃個大閘蟹唄!

用Python分析一下這個橫行霸道的美食

請我