選單

資源在資料分析中的作用

在學校學習資料分析時,你並沒有聽到太多關於資源——時間、金錢和技術——在分析發展中的作用。在與高階教師或導師交談時,這種對話通常”在走廊裡”。但是,可用資源在確定對給定問題和資料集可以做些什麼方面確實發揮著重要作用。人們很容易認為情況是二元的——要麼你有足夠的資源進行”正確的”分析,要麼你根本不做分析。但在現實世界中,這兩個終點之間有相當多的灰色陰影。在資料分析中,有許多情況下,最佳方法不可行,但進行某種分析仍然很重要。因此,資料分析員掌握的一個關鍵技能是能夠調和相互矛盾的想法,同時仍然產生有用的東西。

資源在資料分析中的作用

所有分析都必須處理對時間和技術的限制,這往往決定了可以做些什麼的計劃。例如,所使用的統計模型的複雜性可能受到分析員可用的計算能力、購買更多計算能力的能力以及運行復雜的馬爾科夫鏈蒙特卡洛模擬的時間的限制。明天需要的分析將不同於下週需要的分析。然而,兩者之間唯一不同的是有時間做這項工作。

時間、資金和技術等關鍵資源對資料分析最終完成方式有不同的影響:

時間。時間通常是最大的限制因素,顯然與金錢有關。然而,即使資金充裕,如果沒有錢,它也不能買更多的時間。複雜的分析通常涉及許多單獨的部分,複雜的資料必須經過驗證、檢查和審問,才能對結果充滿信心。所有這些都需要時間,而時間的減少導致做這些事情的減少。同樣,如果一個人不能將其全部納入他們的日程安排,則某些分析可能需要多人的時間。如果目前沒有多個人員,這將更改所完成的分析的性質。技術。我廣泛使用”技術”一詞來指計算資源和統計”資源”。有些模型可能比其他模型更最佳化,但資料集的特性(如其大小)可能會阻止它們被應用。更好的分析可以用更多的計算能力來完成,但是對可用計算能力的限制將決定哪些模型適合,以及完成了多少額外的工作。技術限制也可能與接受分析的受眾有關。根據受眾的複雜程度,可以調整用於分析的技術。

近似

也許統計人員在工具箱中用於處理資源限制的最古老的工具是近似。通常,寫下問題的確切或理想解決方案是很簡單的,但計算負擔使得計算該解決方案變得困難。例如,許多 Bayesian 計算需要計算複雜的高維積分,這些積分在數字計算機發明之前是不可能的。對於複雜的非線性解決方案,經典的技巧是使用線性近似,並可能將其與關於無同位素常態的假設相結合。

在大多數計算難以處理的情況下,統計人員要麼採用(無同化)近似,用(有時是可疑的)假設來代替困難的計算,要麼選擇不同的方法。一個關鍵點是,現實世界資源限制的嚴酷現實迫使採用不同的方法分析資料。雖然使用次優方法可能不滿意,但根本不分析資料可能同樣令人不滿意。

隨著上個世紀計算能力的增長,我們一直在慢慢用計算取代那些舊的假設。如果我們能用強大的計算機計算一個限制較少的解決方案,就沒有必要使用無節制的常態。這方面的一個簡單的例子是雙樣本排列測試,它與標準 t 測試一樣強大,但沒有任何分佈假設。當然,問題在於,這些舊假設很難消亡,即使在今天,當一個公式就在眼前時,編寫一個解決方案的編碼也非常麻煩。

更便宜的分層建模

我自己工作的一個例子涉及空氣汙染和健康時間系列資料的分層建模。在21世紀初,我們正在研究美國死亡率和空氣汙染的國家資料。我們每天有關於美國100個主要城市的死亡率和汙染(以及許多其他共伐物)的資料,時間跨度約為14年。為了有效地利用這一龐大的資料集,目標是採用分層模型來估計空氣汙染和死亡率之間的”全國性”關聯,以及借用跨城市力量的城市特定估計值。這是一種熟悉的方法,在較小的資料集中效果很好。”正確”的方法是,對每個城市使用Posson可能性(模擬死亡率計數資料),然後對攔截和空氣汙染斜坡產生正常的隨機效應。

但在當時,我們沒有一臺計算機可以實際計算模型的估計值(或者在我們的情況下,後分布)。因此,”正確”模型不是一個選項。我們最終所做的是使用一個正常近似的泊松可能性,我們擁有相當大的樣本,這允許一個正常-正常兩階段模型,可以計算,而不必載入所有資料到記憶體(在最簡單的情況下,它可以做封閉的形式)。時至今天,這是模擬空氣汙染和健康的多站點時間系列資料的標準方法,因為它快速、便宜、易於理解。

信用

歸根結底,這些資源限制會影響分析的可信度。在值得信賴的分析中,分析結果往往得到許多事實和細節的支援,而這些事實和細節並沒有被提出來。這些其他分析已經完成,但分析師已經決定(可能基於對資料的某種敘述),它們沒有達到陳述的閾值。也就是說,如果有人要求這些細節,他們是現成的。有了更大的資源,所有可以做的事情的總和都更大,因此,我們希望,剩下的事情是正交的,以什麼做了。

然而,由於資源較少,至少有兩個後果。首先,使用資料可以做的事情可能更少。減少對資料的檢查、對模型假設的檢查、收斂檢查、模型驗證等。這增加了撤消物的數量,並使得它們更有可能對最終(呈現)結果產生影響。其次,某些型別的分析可能需要比現有時間或計算能力更大的時間或計算能力。為了提出任何分析,我們可能需要採用近似或”更便宜”的方法。這些方法不一定不正確,但它們可能會產生更嘈雜或不理想的結果。也就是說,參與分析的所有其他各方,如受眾或贊助人,可能更喜歡做任何分析,無論其最佳性如何,而不是沒有分析。有時問題本身仍然是模糊的或有點粗糙,所以沒關係,如果它的分析是同樣”快速和骯髒”。然而,鑑於現有資源,分析師必須劃清合理分析與不合理分析之間的界限。

雖然資源限制會損害分析的可信度,但有時使用近似值來處理資源限制會產生好處。在上述有關空氣汙染和死亡率建模的示例中,我們使用的近似值使模型非常快速地與資料相適應。在這種情況下,計算成本低的好處使分析員能夠迴圈使用許多不同的模型,以檢查發現對各種混淆因素的穩健性,並進行重要的敏感性分析。如果每個模型需要數天時間計算,您可能只是滿足於一個模型適合。換句話說,資源約束可能會產生一種分析,雖然這種分析近似,但實際上比最佳分析更值得信賴。

資源在資料分析中的作用

分析師的工作

資料分析員的工作是管理可供分析的資源,並根據現有限制提供最佳分析。資源的可用性可能不僅僅取決於分析師,但工作是確認可用資源,確定資源是否足以完成合理的分析,如果沒有,則向能夠提供資源的人提出更多要求。由於對可用資源與所需資源的理解不匹配,許多資料分析誤入歧途。

優秀的資料分析員可以最大限度地減少嚴重不匹配的可能性,並會持續評估未來分析的資源需求。如果預期結果與分析現實之間似乎存在很大差異,則分析人員必須與相關其他人(贊助人或主題專家)溝通,以獲取更多資源或修改資料分析計劃。談判額外的資源或修改後的分析計劃要求分析師與有關各方保持良好關係。