CDP 私有云基礎 7.1.7 有哪些新變化？

隨著CDP 私有云（PvC） Base 7。1。7 的釋出，您可以期待新功能、增強的安全性和更好的平臺效能，以幫助您的企業更快地獲得洞察力和價值。我們瞭解將您的資料平臺遷移到最新版本可能是一項複雜的任務，在 Cloudera，我們努力為所有客戶簡化此過程。

我們很高興在此版本中分享這一點，我們使我們的 CDH 6。x 客戶能夠原地升級到 CDP PvC Base，而無需建立新叢集。這完成了我們為傳統平臺上的所有客戶進行就地升級的願景，使 CDH 5/6 和 HDP 2/3 客戶能夠使用他們現有的硬體升級到 CDP PvC Base，而無需額外安裝叢集。就地升級可能是許多大型複雜環境的最合適途徑，但我們有許多替代途徑可讓您的過渡滿足您的需求。我們建議閱讀從舊發行版到 CDP 的四個升級和遷移路徑，以獲得對其他選項的很好的總結。

有關 CDP PvC Base 7。1。7 中包含的內容的詳細列表，請檢視釋出摘要。此版本的一些亮點包括：

Cloudera Manager 增強功能

可提高效率並

增強

平臺安全性。該平臺透過升級到 20 多個嵌入式的第三方lib庫，大幅減少了現在開放的 CVE 的數量，從而提供更強的安全性和企業合規性。

增強的分析功能

，使用Hive on Tez 和 Impala 提供更快的 SQL 查詢和 ETL，改進 Spark 以支援 Spark 3。1 和 NVidia RAPIDS 庫，以及 HBase的效能改進。

Apache Ozone 增強功能

提供完整的高可用性，為客戶提供企業級物件儲存以及與 Hadoop 相容檔案系統和 S3 API 的相容性。

SDX 增強功能

可改進平臺和資料治理，包括以下顯著功能：

Impala 行級過濾

用於在從表中讀取時設定行的訪問策略。這有助於簡化 Impala 查詢併為每個表提供行級安全性。我們稍後將在本部落格中擴充套件此功能。

Atlas / Kafka 整合，

為 Kafa 生產者/消費者提供元資料收集，以便消費者可以在 Atlas UI 中管理、治理和監控 Kafka 元資料和元資料血緣。

現在支援其他資料庫、作業系統和開發環境以實現

更好的整合和相容性

，包括對 RHEL8 的支援。

升級增強功能

為 CDH 版本 6。1。x、6。2。x 和 6。3。x 提供就地升級，以及記錄回滾程式以幫助客戶遷移到 CDP PvC Base，如部落格介紹中所述。

以上列表只是我們希望引起您注意的 CDP PvC Base 7。1。7 版本的主要亮點。有關包含的所有功能的詳細資訊，請在此處檢視官方釋出摘要。

我們將使用本部落格的其餘部分來說明此版本中的三個功能如何改進平臺 - Impala 行過濾、Atlas / Kafka 整合和 Ranger 審計過濾器和策略。

深入探討 1：Impala 行過濾

由於 Apache Ranger 和 Apache Impala 的整合，我們現在能夠將 Ranger Row Level Filtering 引入 Impala。除了列過濾和列掩碼的功能支援之外，這意味著可以指定策略，根據使用者的 id、角色、組或透過自定義表示式限制對錶中行和列的訪問；行過濾有效地添加了一個自動的“WHERE”子句。此功能對於需要儲存和處理敏感或受監管資訊的任何客戶都非常有用，而以前的過濾只能透過一組複雜的檢視和許可權來實現。

例如，您可能希望根據特定區域組的成員資格限制銷售資料，以限制市場敏感資料的整體可見性。在下面的示例中，我們已將 SELECT 授予多個銷售組的成員。

圖 1：銷售組 SELECT 訪問

在此之上，我們可以指定一個行級過濾器，對於 sales_east、sales_west 和 sales_central 組的成員，它將應用基於區域列的謂詞。

圖 2：每個銷售組的行級過濾設定

現在，當這個查詢在 Impala 中執行時，使用者 scott（他是 sales_leadership 的成員；參見圖 1 中的訪問策略）可以看到所有行，但使用者 test1（他是 sales_west 的成員；參見行過濾）圖 2）中的策略僅限於區域等於“West”的行。

圖 3：作為 ‘scott’ 執行的查詢返回所有區域詳細資訊

圖 4：作為“test1”執行的查詢僅返回西部地區詳細資訊

由於 Ranger 將過濾傳遞給 Impala 的查詢引擎本身，我們甚至可以利用效能增強，例如列統計、字典過濾和分割槽修剪。因此，透過使用行過濾提高了某些查詢的效能。

由於行級過濾器可以使用任何有效的 WHERE 子句組成，因此可以使用更多基於 SQL 表示式的謂詞，包括引用其他表。下面的示例顯示瞭如何使用基於實際使用者 ID 組成的過濾器來引用名為 user_lookups 的表。

圖 5：包含 SQL 表示式的行級過濾器

深入探討 2：Atlas / Kafka 整合

Atlas – Kafka 整合由 Atlas Hook 提供，它從 Kafka 收集元資料並將其儲存在 Atlas 中。一旦元資料在 Atlas 中，管理員現在可以使用 Atlas UI 全面管理、治理和監控 Kafka 元資料和資料血緣。這不需要對消費者或生產者進行更改。所有的審計都是在 Brokers 上進行的。

開啟 Atlas Hook 需要在 Kafka 叢集或資料上下文叢集上部署 Atlas 服務。安裝完成後，請轉到 Cloudera Manager 中的 Kafka 服務，然後選擇 Enable Auditing to Atlas 選項。這將向 Atlas 公開新建立的 Kafka 主題。對於現有主題，我們提供了一個名為 Kafka Import 的匯入工具，可幫助手動將現有元資料匯入 Atlas。

圖 6：Kafka 叢集中的 Atlas Hook 配置

圖 7：Kafka ATlas Hook 饋送至 Atlas 實體和血統

Kafka主題atlas審計僅支援使用2。5及以上版本kafka的消費者。

圖 8：基於 Kafka Atlas Hook 元資料的資料沿襲

生產者和消費者的譜系是從使用血緣選項卡中的 Atlas 掛鉤收集的元資料中顯示的。

深入探討 3：Ranger 審計過濾器和策略

Ranger 的進一步改進包括為 HDFS 超級使用者新增審計事件以及定義審計過濾器以減少審計日誌中潛在噪音量的方法。因此，可以更輕鬆地找到相關審計資料，並且減少了審計資料所需的儲存量。

CDP Private Cloud Base 7。1。7 的新部署將包括一組預設的稽核策略，可以透過單擊服務旁邊的“編輯”按鈕（例如“cm_hdfs”、“cm_hbase”）透過 Ranger UI 檢視。

圖 9：預設稽核過濾器

預設過濾器排除 hdfs 使用者的某些內部操作以及“getfileinfo”事件。這些操作是標準的 HDFS 內部操作，通常不會引起審計興趣，但您可以根據需要重新啟用審計。使用 UI，我們可以建立自己的策略，如下所示：

圖 10：HDFS 活動的自定義審計過濾器示例

在這個例子中，我們建立了過濾器來忽略某些已知的“託管”和/或暫存位置中的 HDFS 活動，並忽略來自服務（如 Hive 或 Impala）的 HDFS 活動，這些服務本身被配置為稽核對 Ranger 自己的實際 SQL 查詢。

總而言之，CDP Private Cloud Base 7。1。7 提供了改進的平臺和分析功能，透過 SDX 提供更好的安全性和加密、更快的 SQL 查詢和 ETL 與 Tez 和 Impala 上的 Hive，改進的 Spark 支援 Spark 3。1 和 NVidia RAPIDS API、HBase效能改進和企業級橫向擴充套件物件儲存與 Apache Ozone。有多種過渡到 CDP 私有云基礎的途徑，使轉變變得前所未有的容易。要規劃您的遷移，請參閱CDP 升級和遷移路徑瞭解更多資訊，或聯絡您的 Cloudera 客戶團隊討論最佳方法。

其他資源

CDP 私有云基礎 7。1。7 釋出總結

7。1。7 執行時的新增功能

Cloudera Manager 7。4。4 的新增功能

CDH 6 升級概述

旅程顧問工具

知識中心

原文作者：Vineeth Varughese