選單

亞馬遜雲科技推出五項資料庫和分析服務功能,提高PB級資料處理能力

幾項針對Amazon DocumentDB(與MongoDB相容)、Amazon OpenSearch Service和Amazon Athena的新功能讓客戶能夠更輕鬆地大規模執行高效能資料庫和分析工作負載。

2022-12-12 10:40

12月12日訊息,亞馬遜雲科技在2022 re:Invent全球大會上宣佈推出五項涵蓋資料庫和分析產品組合的全新功能,讓客戶能夠更快、更輕鬆地管理和分析PB級資料。幾項針對Amazon DocumentDB(與MongoDB相容)、Amazon OpenSearch Service和Amazon Athena的新功能讓客戶能夠更輕鬆地大規模執行高效能資料庫和分析工作負載。此外,亞馬遜雲科技還發布了Amazon Glue的一項新功能,可以跨資料湖和資料管道自動管理資料質量。最後,Amazon Redshift現在支援跨多個亞馬遜雲科技可用區(AZ)的高可用配置。此次釋出讓客戶能夠擁有適合其資料工作負載的恰當工具,實現大規模運營並提高可用性,從而幫助客戶充分利用其在亞馬遜雲科技上的資料。

亞馬遜雲科技推出五項資料庫和分析服務功能,提高PB級資料處理能力

“資料天生就是動態的,需要端到端的資料戰略來充分發揮其潛力。資料戰略應該能夠根據客戶的需求進行擴充套件,適應所有型別的用例,兼顧現在和未來。”

亞馬遜雲科技資料庫、分析和機器學習副總裁 Swami Sivasubramanian

表示,“為了幫助客戶充分利用不斷增長的、海量而多樣化的資料,我們一直致力於提供最廣泛和最深入的資料庫和分析服務。在此基礎上,我們今天推出的新功能可以讓客戶更方便地查詢、管理資料和擴

大資料

規模,更快地做出資料驅動的決策。”

當前,組織建立和儲存的資料達到PB級甚至EB 級,資料來源日益多樣化,這其中包括數字媒體、線上交易和各種聯網裝置。為了最大限度地發揮這些資料的價值,客戶需要端到端的資料戰略,為所有資料工作負載和應用提供合適的工具,並能在資料體量增大、流速提升時仍能規模化、可靠地執行。為了支援客戶設計自己的端到端資料戰略,亞馬遜雲科技提供了業界最全面的資料服務和解決方案,其中包括針對客戶最重要的用例而最佳化的全託管資料庫,例如用於關係資料庫的Amazon Aurora和用於文件資料庫的Amazon DocumentDB;還包括可以幫助客戶從資料中獲得有價值的洞察的多種分析服務,諸如面向搜尋和分析工作負載(如實時應用監控、日誌分析和網站搜尋)的Amazon OpenSearch Service、面向互動式分析的Amazon Athena 、面向資料整合的Amazon Glue 和麵向資料倉庫的Amazon Redshift。此次釋出在這些服務的基礎上提供高階功能。

1)Amazon DocumentDB Elastic Clusters以每秒數百萬次寫入的效能為PB級應用提供支援。

數以萬計的客戶使用 Amazon DocumentDB執行文件工作負載,因為它速度快、可擴充套件、高度可用而且完全託管。雖然每個 Amazon DocumentDB節點最多可擴充套件到64TB資料並支援每秒數百萬次讀取請求,但有一部分客戶的工作負載要求極高,需要超越這些限制的擴充套件能力,以支援每秒數百萬次寫入並存儲PB級資料。以往,這些客戶必須在多個Amazon DocumentDB節點間手動分拆資料、管理容量。Amazon DocumentDB Elastic Clusters允許客戶在幾分鐘內擴充套件,打破單個數據庫節點的限制,以支援每秒數百萬次的讀寫並存儲高達2 PB的資料。隨著工作負載需求不斷增加,Amazon DocumentDB Elastic Clusters可以利用分散式儲存系統自動將大型資料集劃分到多個節點。客戶不再需要編寫自定義程式碼分拆資料集和跨節點手動管理容量。底層基礎設施自動管理,客戶可以根據需要輕鬆擴充套件容量,無需配置、擴充套件或管理資料庫叢集。

2)Amazon OpenSearch Serverless自動擴充套件搜尋和分析工作負載。

數以萬計的客戶使用Amazon OpenSearch Service支援網站搜尋和實時應用監控等用例,這其中許多工作負載由於經常出現間歇性使用高峰使得提前規劃容量非常困難。Amazon OpenSearch Serverless可以自動置備、配置和擴充套件OpenSearch基礎設施,即使對不可預測和間歇性的工作負載,也可以提供快速資料注入的能力以及毫秒級的查詢響應。藉助 Amazon OpenSearch Serverless,資料注入和搜尋資源可以獨立擴充套件,兩種操作併發執行而不會影響效能。使用 Amazon OpenSearch Serverless的客戶可以獲得無伺服器帶來的優勢(如自動配置、按需擴充套件和按使用付費定價等),還可以獲得Amazon OpenSearch Service的功能(如內建的資料視覺化)用以理解日誌資料、識別異常、檢視搜尋相關性排名。

3)Amazon Athena for Apache Spark將互動式分析的啟動時間縮短到1秒以內。

客戶使用無伺服器互動式查詢服務Amazon Athena。它使用標準SQL介面在Amazon Simple Storage Service(Amazon S3)查詢資料,是查詢PB級資料最方便、最快的方式之一。很多客戶在使用Apache Spark時也希望有同樣的易用性(Apache Spark是一種開源處理框架,用於支援Java、Scala、Python和R等流行語言框架的大資料工作負載)。開發人員雖然很喜歡Apache Spark的快速查詢速度和易用性,但他們不想在每次執行查詢時都花時間搭建、管理和擴充套件Apache Spark基礎設施。現在,使用Amazon Athena for Apache Spark,客戶已無需自己置備、配置和擴充套件資源。互動式Apache Spark應用的啟動時間不到1秒,執行速度比跑在亞馬遜雲科技最佳化版Spark runtime上的開源方案更快。由於Amazon Athena與其他亞馬遜雲科技服務的整合,客戶可以從多個來源查詢資料,將運算串連在一起進行復雜分析,並且將結果視覺化。Amazon Athena for Apache Spark會根據應用需求自動確定所需的資源,並且按需擴充套件,因此客戶只需為他們執行的查詢付費。

4)Amazon Glue Data Quality自動監控和管理資料的時效性、準確性和完整性。

成千上萬客戶使用Amazon Glue快速、輕鬆且經濟高效地構建和管理現代資料管道。組織需要監控其資料湖和資料管道中資訊的資料質量(衡量資料的時效性、準確性和完整性),在確保資料的高質量之後再將其用於分析或機器學習應用。但資料質量管理是一個耗時且複雜的過程,需要資料工程師花費數天時間收集資料的詳細統計數字,根據這些統計數字資訊手動識別資料質量規則,並將其應用於數千個數據集和資料管道。在這些規則被付諸實施之後,資料工程師還必須持續監控資料中的錯誤或變化並對規則進行相應的調整。Amazon Glue Data Quality可以自動測量、監控和管理Amazon S3資料湖和Amazon Glue資料管道的資料質量,將資料分析和規則識別的時間從幾天縮短到幾小時。Amazon Glue Data Quality可以計算客戶資料集的統計數字(如最小值、最大值、直方圖和相關性),使用統計數字自動地推薦規則,確保資料的時效性、準確性和完整性。客戶可以安排Amazon Glue Data Quality在資料發生變化時定期執行,自動分析資料並提出質量規則的更改建議以確保相關性。一旦出現質量問題,資料工程師無需編寫程式碼即可配置使用者提醒或終止資料管道。

5)Amazon Redshift現已支援多可用區部署。

數以萬計的亞馬遜雲科技客戶每天使用Amazon Redshift處理總計達EB級的資料。為了支援這些客戶的關鍵任務工作負載,Amazon Redshift提供了很多增加可用性和可靠性的功能,例如自動備份以及在幾分鐘內將叢集重新在另一個可用區拉起的能力。當前,許多資料庫使用主備複製模式來保證高可用性,單資料庫為線上流量提供服務,備用副本從線上版本複製資料以備不時之需。在這些功能的基礎上,Amazon Redshift現在提供新的高可用配置功能以實現快速恢復,同時最大限度地降低資料丟失風險。藉助Amazon Redshift多可用區功能,客戶可以跨多個可用區部署叢集,並且使用所有資源處理讀寫查詢,取消低利用率的備用副本,最大限度地提高性價比。客戶仍然可以像管理單個Amazon Redshift資料倉庫那樣,在一個端點管理多可用區資料倉庫,無需更改應用即可保持業務連續性。

riskCanvas

是Genpact提供的一種軟體即服務(SaaS)產品,是一種金融犯罪合規解決方案。它利用前沿的大資料、自動化和機器學習技術幫助客戶保障合規,提高效率,實現自動化。“riskCanvas 的實體中心監控產品包含了對交易監測、外部資源、監測列表篩選和負面新聞的分析並自動評估風險,僅在客戶的真實風險超過預定義閾值時提醒高風險客戶,從而大大減少了滿足合規要求的工作量。這需要大量的、多樣化的分析處理,通常會遇到峰值和不可預測的資料負

載。”

riskCanvas 首席技術官兼Genpact金融犯罪技術副總裁Ryan Skousen

表示,“我們很高興可以使用Amazon OpenSearch Serverless。它可以自動擴充套件,滿足我們工作負載的資料注入和分析處理需求,並可以隨著需求的減少而縮減規模,大幅降低成本,所有這一切都不需要重新設計或維護。”

美國金融業監管局(FINRA)

是美國一個面向公眾開展業務的證券公司監管機構,負責監管股票、債券和期權交易。“FINRA在Amazon Athena上開發應用,使分析師和業務合作伙伴能夠安全地查詢每天更新的數TB金融交易資料。”

FINRA 高階主管Ratnakar Korem

表示,“我們很高興看到Amazon Athena for Apache Spark的釋出。它將把我們在使用Amazon Athena過程中非常滿意的分析速度和易用性體驗帶到我們的按需分析和批處理分析。這種無伺服器功能將使FINRA能夠對大資料進行分析,不需要花精力明確定義計算資源和調整Apache Spark效能。這最終有助於監管使用者和資料分析師快速響應不斷變化的市場動態,節省時間和成本。”

美國聯合航空公司

經營著龐大的國內和國際航線網路,橫跨美國和所有六大洲的大小城市。“聯合航空公司正在為客戶和員工構建數百個資料和分析驅動的工具,管理和維護資料質量對我們的運營至關重要。”

聯合航空公司資料工程總監Sarang Bapat

表示,“我們很高興使用Amazon Glue Data Quality。它將使我們能夠在幾分鐘內自動識別和分析資料質量問題並採取行動,幫助我們做出明智、及時和準確的決策,並且節省大量花在手動定位和修復各種資料問題上的時間。”

楊森製藥(Janssen Pharmaceuticals)

是強生公司的子公司,致力於研究和生產藥品,重點關注患者和醫療保健行業不斷變化的需求。“楊森製藥使用Amazon Redshift實現關鍵的洞察,賦能資料科學家、資料管理員、業務使用者和外部利益相關者做出重要的業務決策。”

強生旗下楊森製藥資訊科技總監Shyam Mohapatra

表示,“Amazon Redshift的多可用區功能可以確保我們的資料倉庫隨時可用,確保我們可以及時做出重要業務決策。”

炒股開戶享福利,入金抽188元紅包,100%中獎!

開啟App看更多精彩內容