選單

用資料品鑑咖啡,407杯咖啡資料教你如何區分咖啡等級和風味

編譯:睡不著的Iris

嚐遍世界各地不同的咖啡,我好奇風味差異如何影響咖啡評級。儘管知道

咖啡等級會影響口感

,但我依舊喜歡一些等級較低的咖啡。

看了下兩個咖啡評級資料庫,撇去地區差異,我始終搞不明白風味能起到什麼樣的作用。

因此,我選取

Sweet Maria‘s

資料庫進行分析。雖然資料庫裡有每杯咖啡的風味評級,但我首先提取了咖啡的Q級分。接著,我提取了

所有豆子的風味評級資料

,最終得到一個比原先稍大的資料庫,其中有

407杯咖啡

的資料。

杯測評分(修正Q分)

如表格所示,Sweet Maria’s與SCA的杯測標準略有出入。奇怪的是,相比其他指標,

甜度、一致性、乾淨度

3個指標在SCA標準中,一開始分數看似挺好,但隨後遞減。反觀Sweet Maria’s評分指標,發現它對咖啡有更深入的洞察。

用資料品鑑咖啡,407杯咖啡資料教你如何區分咖啡等級和風味

資料

構建任何資料庫,我們都需要花費時間做資料清洗和資料檢查。此處,我用Q級分畫了一張雷達圖,我用原先程式碼生成了一張擴充套件的輔助指標評分圖。對於咖啡風味資料,為了便於提數,我做了一定的修正。

用資料品鑑咖啡,407杯咖啡資料教你如何區分咖啡等級和風味

用資料品鑑咖啡,407杯咖啡資料教你如何區分咖啡等級和風味

經過SweetMaria’s授權使用,其他圖均出自本文作者

我將資料整合在一張包含生產地、加工型別型別等元資料的大表中。我對資料做了多次梳理、稽核,並抽樣驗證演算法是否執行良好。

用資料品鑑咖啡,407杯咖啡資料教你如何區分咖啡等級和風味

資料準備完畢,我開始分析。

分析:風味分佈

12種風味指標加總後求平均,發現堅果和花香味比較少有,最常見的是糖果、可可和醇厚風味。

用資料品鑑咖啡,407杯咖啡資料教你如何區分咖啡等級和風味

分析:相關性

相關性用於描述兩個變數之間的相似程度。相關性高不代表一個變數對另一個變數有什麼影響,當發生變化時,兩個變數變化趨勢相同。我認為一些評級變數最開始具有很高的相關性,因為它們是從不同角度表示咖啡口感。相關性可以是正向(趨勢相同)的或負向(趨勢相反)。0則表示兩個變數沒有相關性。

顯然,杯測分數(Q分、評級,不管怎樣稱呼)的各項指標之間的相關性比風味指標更高。有趣的是,焦糖、可可、堅果和鄉村風味與杯測分數成反比。這幾種風味與其他風味的相關性不高,表現為微弱的負相關。莓果與水果具有很高的相關性,看起來是合理的。

用資料品鑑咖啡,407杯咖啡資料教你如何區分咖啡等級和風味

我們透過一張更大的表直觀展示各屬性之間最高的相關性。負數表示為最高相關性的絕對值,但為負相關值或逆相關值(成反比)

顯而易見,杯測分數與花香味指標最相關,許多風味指標都與明亮度杯測指標具有較高的相關性。但奇怪的是僅有27%的咖啡有花香味(要麼一點都沒有)。

用資料品鑑咖啡,407杯咖啡資料教你如何區分咖啡等級和風味

對相關性矩陣按地區進行分解,看看每個指標與總得分(杯測分)的關係。不同地區的咖啡,水果、柑橘和莓果風味差異最大。令人詫異的是,我一直以為非洲咖啡豆果香味會更濃,但水果對非洲咖啡豆的貢獻分並不大。

用資料品鑑咖啡,407杯咖啡資料教你如何區分咖啡等級和風味

咖啡豆的風味部分也依賴於採用不同的工藝處理咖啡果實。我喜歡幹法加工的咖啡豆,富有果香味,這從風味得分也可以看出來。但焦糖味卻相反。我本以為焦糖與糖果味會相似,最後發現兩者之間沒有多少關聯性。

另外,北美洲、混合拼配地區以外的地區,堅果/可可風味之間沒有多少關係,但它們與總體得分呈現很強的負相關性。

用資料品鑑咖啡,407杯咖啡資料教你如何區分咖啡等級和風味

堅果、可可都與幹法加工逆相關,但受蜜處理、溼法加工的負向影響較弱。總體而言,非洲咖啡豆味道越豐富,整體杯測得分越高。杯測糾正與幹法、其他加工方法負相關。這表明幹法、其他加工方法總體得分低,但是實際上豆子很棒,因為杯測標準裡沒有代表加工工藝的量化指標。

分析:主成分分析(PCA)

主成分分析法(PCA)是將一組變數對映至新的維度空間,原始變數在新空間用新維度表示。簡單資料集在不失真的情況下實現了降維,這樣,每個Q級分(Sweet Maria’s評分)不需要使用所有的評分項,僅用11個維度表示即可。或許你只需要用到三個或主要成分。

讓我們看看所有變數,不出所料,杯測總分是第一主成分,是最主要的影響變數。然而,在鑑別咖啡豆時,風味成分最主要的變數。

用資料品鑑咖啡,407杯咖啡資料教你如何區分咖啡等級和風味

在沒有杯測總分的情況下進行同樣的分析,杯測師就在產生了一定的影響,但是,風味仍舊是最具影響力的獨立成分。

用資料品鑑咖啡,407杯咖啡資料教你如何區分咖啡等級和風味

進一步研究杯測、風味會對咖啡產生何種影響,我們計算了每個主成分的累積百分比值。

用資料品鑑咖啡,407杯咖啡資料教你如何區分咖啡等級和風味

單獨比較風味和杯測評級,風味指標依賴更多的主成分變數,使用到13個成分中的8個成分可達到90%的變化性,杯測評級只需4個指標。這表明風味指標更適合單獨鑑別咖啡豆。

用資料品鑑咖啡,407杯咖啡資料教你如何區分咖啡等級和風味

用資料品鑑咖啡,407杯咖啡資料教你如何區分咖啡等級和風味

我們可以計算每個指標對各主成分影響的累積絕對值及其對資料的貢獻度。杯測師糾正影響最大,風味和複雜度影響相對小。所有的風味指標,莓果、柑橘、水果和可可對鑑別咖啡豆最有影響,糖果累積影響最小。

用資料品鑑咖啡,407杯咖啡資料教你如何區分咖啡等級和風味

使用包含大部分資料變數的2 個主成分繪製成散點圖。杯測評級圖資料分佈比較集中,風味圖資料分佈比較分散。

用資料品鑑咖啡,407杯咖啡資料教你如何區分咖啡等級和風味

評級資料相對集中,風味資料的分佈比較有趣。觀察干法加工、溼法加工、非洲地區咖啡豆資料最分散。

此項工作,仔細對比咖啡評級(杯測評級)和風味評級的差異。我發現,評測咖啡產區或加工工藝時,風味等級比咖啡評級更具代表性。咖啡評級應該與風味指標相互獨立,而且Sweet Maria’s杯測方法對特定風味不會出現嚴重偏差。風味偏差最大的是花香味,但它沒有其他杯測引數那麼強的相關性。