FAQ系列之SDX

對於 CDP私有云基礎，是否有關於客戶應如何配置構成 SDX（Ranger、Atlas、Hive Metastore）的各種元件的參考架構或方法？

CDP私有云基礎使用的基礎叢集不同於 CDP 公有云中 PaaS 風格的 SDX 叢集。從那裡，私有云控制計劃從控制體驗服務的基礎叢集中的 CM 部署。

為什麼我要匿名化資料？

資料匿名化可幫助組織透過加密或刪除可能會洩露敏感資訊的資訊來保護資料隱私。資料匿名化支援跨邊界傳輸資訊，例如組織內的兩個部門之間或兩個組織之間，同時降低意外洩露的風險。根據共享資料的原因，匿名化可能以這樣一種方式進行，即仍然保持分析洞察力（例如出生年份的分佈、識別符號格式的有效性）。

在個人方面，GDPR 或 CCPA 等資料隱私法規定，儲存的個人資料必須匿名化或假名化（替換）。在醫療資料的上下文中，匿名資料是指資訊接收者無法再識別出患者的資料。

如何匿名化我的資料集？

動態掩碼策略。

為什麼我需要基於資源的訪問控制？

Ranger 策略可以應用於特定資源 → 這些可以是資料庫、表或列。這些是最直接、最精細的訪問控制粒度樣式。

這些策略可以應用於組、角色或個人使用者。

為什麼我需要基於角色的訪問控制？

基於角色的訪問控制（RBAC）簡化了為終端使用者提供對資源（資料、應用程式、儲存、計算）的訪問，具體取決於他們在組織內履行的角色（功能）。使用者只能訪問履行其工作職責所需的資源。

RBAC 將要維護的安全配置檔案數量從每個員工一個減少到每個角色一個。這反過來又減少了 IT 的管理負擔，並最大限度地提高了組織的運營效率。此外，藉助 RBAC，公司可以更輕鬆地滿足隱私和保密方面的法律法規要求，因為 IT 部門和高管能夠管理資料的訪問和使用方式。這對於管理大量敏感資訊的醫療保健和金融機構尤其重要。

如何設定基於角色的授權？

連線到企業的 LDAP 以同步使用者、組和角色，然後透過Ranger進行基於角色的授權。

為什麼我需要基於屬性的授權？

使用 RBAC（見上文），使用者可以或不能訪問基於角色的資源；使用基於屬性的訪問控制，可以動態考慮屬性組合。這些屬性與提供或拒絕訪問的使用者、資源和環境有關。

ABAC（也稱為基於標籤的訪問控制）支援細粒度訪問控制，並允許在訪問控制決策時考慮更多變數。任何可用的屬性都可以單獨使用或與另一個屬性結合使用，以定義正確的過濾器來控制對資源的訪問，從而賦予該方法極大的靈活性。ABAC 更復雜，因為它還可以定義可以訪問資料等資源的形式（原始形式、編輯、匿名等）。

ABAC 相對於 RBAC 的一個好處是它如何減少組織需要維護的檢視數量。使用 RBAC，必須為每個資料組合建立和維護一個檢視。使用 ABAC，單個檢視將滿足所有要求，因為它在查詢之後和呈現之前應用。

在將分類/標籤新增到 Atlas 之前，我可以在 Ranger 中設定我的標籤策略嗎？

是的。 https：//cwiki。apache。org/confluence/display/RANGER/Tag+Based+Policies

如果您在 Ranger 中沒有看到標籤，則您可能存在許可權問題。

為什麼我在 Atlas 中建立的所有標籤都沒有顯示在 Ranger 中？

Ranger 不是標籤儲存庫。透過標籤同步過程，Atlas 將告訴 Ranger 與特定資料資產相關聯的標籤。Ranger 只知道這些標籤。

為什麼使用者要從歷史記錄中完全清除/消除血緣？

客戶可能有書面的資料銷燬政策來刪除超過特定日期的資料。這樣做是為了防止傳票和使公司承擔不必要的責任。有些純粹是為了降低儲存成本。（例如：布依格電信、美世）

客戶可以使用 Atlas API 為他們的外部自定義程式碼建立一個血緣嗎？

是的。我們不一定支援 hook/bridge/coonectors，但它是 atlas api 的一部分。

Ranger政策或Ranger-atlas標籤同步的擴充套件限制是什麼？

我們在 Atlas/Ranger 中沒有遇到過這些情況。Ranger 在策略規則中支援正則表示式，可以將許多規則合併為少數規則。

我們所知道的最大規模的 Atlas 是什麼，它的規模是多少？

我們知道一個叢集有 1。1 億個實體。我們有許多客戶部署，有 10 萬多個表和幾百萬列。

HDP3 的 Atlas 和 CDP 的 Atlas 之間的 API/客戶端相容性規則是什麼？

標準規則。舊的 Atlas 客戶端可以與新的 Atlas 伺服器通訊。較新的 Atlas 客戶端可以與較舊的 Atlas 伺服器通訊，除了新增到較新版本中的新引入的 api。

業務術語匯入：我們是否有示例檔案顯示如何填寫“相關術語”？

匯入業務術語時，您不能在同一輸入檔案中交叉引用術語。您只能引用已存在於 Atlas 詞彙表中的術語。因此，要實現您想要做的事情，您必須分兩步匯入內容：首先匯入一批基本的詞彙表和術語。然後匯入任何引用現有專案的術語。

我的客戶希望 atlas 監控非 Hadoop 應用程式。最好的方法是什麼？

1。實現你自己的Hook

2。使用rest api來建立物件

Cloudera 為 Atlas 提供支援。客戶可以使用功能並圍繞它構建邏輯。客戶應該知道 Cloudera 不支援他們圍繞 Atlas 構建的一些東西。具體來說：

支援本地匯入Hive 資料。

支援透過api 匯入非Hive 資料。不支援為使用 API 而開發的程式碼。

支援建立自定義實體型別。不支援圍繞這些自定義實體型別的語義和管理這些語義的程式碼。

注意：Cloudera 不支援外掛本身。

https：//community。cloudera。com/t5/Community-Articles/Customizing-Atlas-Part3-Lineage-beyond-Hadoop-including/ta-p/249318

設定 Atlas 災難恢復的正確方法是什麼？

目前唯一支援的機制是使用 Cloudera Replication Manager。這種方法需要複製資料和元資料——你不能只複製元資料。

Atlas 是否具有高可用性（HA）？

Atlas 的主要服務和 api 是一種無狀態服務，在支援 HA 和自動恢復的系統中具有後備儲存：HBase、Kafka 和 Solr。它可以配置為具有自動重定向的主動-被動 HA 支援。

CDP 7。1 的資料湖叢集目前僅在“輕型”模型中可用，該模型沒有以 HA 方式啟用底層系統。

Atlas 有 REST API 嗎？

是的。https：//atlas。apache。org/api/v2/index。html。CDP 版本可能有一些新的 API，可能會出現在 CDP 版本（和 Apache 主版本）中，但尚未反映在 Apache 文件連結中。

在沒有啟用 kerberos 的情況下，CDP 叢集是否支援 Ranger？

否。［2020-10-13］沒有強身份驗證（Kerberos）的審計和授權無法提供真正的安全性。審計和訪問檢查可以使用欺騙身份並繞過 Ranger 的身份驗證機制。

我知道審計日誌是並行寫入 Solr 和 HDFS 的，而 HDFS 用於長時間儲存。如果 Solr 崩潰並且沒有執行幾個小時或幾天會發生什麼？稍後可以從 HDFS 索引丟失的資料以使其在 Solr 中可用嗎？

每個元件都在本地假離線稽核日誌，然後直到目標接收器再次啟動。僅受可用磁碟空間的限制。

Ranger 策略可以應用於 SMM 管理的 Kafka 主題嗎？

Kafka、SMM（以及最近的 Schema Registry）與 Ranger 整合。SMM 利用為 Kafka 設定的 Ranger 策略（使用者可以使用為 Kafka 設定的 READ/DESCRIBE 策略為同一使用者觀察主題）。

Ranger 使用者同步測試過的最舊版本的 Active Directory 是什麼？

AD 2008

Ranger 可以使用 MySQL 作為後端嗎？

是，適用於 CDP私有云基礎部署。

Ranger的架構效能瓶頸在哪裡？

Ranger 外掛經過最佳化，可以快速響應，無需外部 rpc 即可做出決策。從建立策略到傳播和啟用策略之間存在一些延遲（約 30 秒）。這是可以的，因為政策不打算頻繁更改。因此，資源規則、標籤和沿襲用於基於標籤的訪問控制儲存在記憶體中以最佳化速度。用於評估策略條件的 Javascript 執行可以以微秒為單位進行測量。這些由標籤同步操作定期更新。

什麼樣的 solr 被用作 Ranger 審計後端？

On Prem：預設情況下，CM 為範圍審計後端部署一個單節點 solr 例項。這可以配置為在叢集中使用多節點分散式 solr。

哪些元件支援 Ranger 列掩碼？

Hive 和Impala支援並且已經在CDP 中支援列掩碼功能。

Ranger有哪些角色？

管理員、使用者和審計員

使用者 - 可以被委派為 db/table、dir 或安全區域的管理員。

審計員 - 檢視審計日誌

管理員 - 建立區域，匯入/匯出 + 審計員 + 使用者