選單

AI技術的發展提高促進資料工程師的崛起

AI 在所有行業/地區的引入正在創造軟體開發人員十年前從未夢想過的規模的新功能。但這種發展不僅僅是技術問題。AI 和雲基礎設施的結合正在觸發一個令人著迷的人事變動,您無法忽視;它正在改變某些工程師的角色,並創造了一個全新的要求,需要一個全新的工程專業。

讓我們回顧一下迄今為止的演變。在雲時代之前,事情就更簡單了:工程師們應該管理生產過程,並擔心軟體本身的規模。它在當時是有意義的,因為沒有框架能夠使軟體邏輯與計算資源分離。軟體與預先定義的離散硬體計算資源緊密相連。但如今,在雲和彈性計算資源的時代,我們將工程師分成更專業化、更獨特的團隊,以構建利用這些彈性計算平臺的軟體解決方案、產品和服務:

後端工程師- 通常負責構建軟體背後的邏輯。有時,根據具體應用,該團隊的一部分將包括演算法專家。這將發生在專案中, 其中構建邏輯 – 特別是建築邏輯, 可以縮放 – 需要的不僅僅是 “工程” 或簡單的 “如果這話, 那麼” 邏輯。這種專業知識的需求是基於軟體日益複雜的複雜性和需求,以及可用於支援它的計算馬力的急劇增加而自然演變的。前端工程師- 構建頂級應用層和使用者介面。構建一個引人入勝、邏輯合理且適應性強的人機介面確實需要相當的技能,並且是開發過程的一個重要方面。儘管如此,我相信這個領域仍然等待著巨大的中斷和正規化的改變,因為瀏覽器介面的侷限性為簡化、高效的應用程式開發和生產製造了重大障礙。

DevOps 工程師- 負責將軟體 applet(程式碼容器)縮放到彈性雲上進行部署,以便輕鬆滿足儘可能多的使用者的需求,並優雅地處理所需的負載。DevOps 工程師不太瞭解或不需要了解他們需要支援的軟體的實際邏輯。

AI技術的發展提高促進資料工程師的崛起

所以。。。有什麼變化?

AI 挑戰我們剛剛討論過的角色的組織結構,這種變化是由一個核心因素推動的:資料在開發引擎中的關鍵 cog 的作用。

機器學習及其更”大腦”的表親深度學習都是利用神經網路等演算法的學科,而神經網路又被大量資料來源滋養,以建立和完善核心應用的邏輯。當然,在深度學習中,這種方法在試圖模仿人腦如何從它透過經驗和感官收集的資料中學習方面走得更遠。實際上,這兩種技術最終都創造了自己的邏輯路徑來完成給定的任務,並在此,取代後端工程師的工作,因為我們知道它。

那麼,誰管理這個新流程呢?簡單的答案是,我們轉向資料科學家,其工作是選擇正確的初始演算法,然後訓練,測試和調諧(和調整,調整和調諧…),他們最佳化演算法,做他們的工作,最終”吐出”軟體的核心應用邏輯。他或她的培訓工作或實驗將結合某個模型(或神經網路)與特定的資料集和一組執行引數。

要是它那麼容易就好了:事實上,這不是我們故事的結尾。

組織已經意識到,僅僅僱傭一些優秀的資料科學家是不夠的。我們發現,我們又缺少了一個謎題:有人專門關注這些資料科學家演算法需要咀嚼的原材料的選擇、最佳化和管理,然後擴充套件實驗過程以測試所需的潛在配置。這稱為構建資料管道,這不是在過程後期插入到部署中啟動並執行的系統的任務。相關、可用、可出售的資料管道需要從第一天開始開發。

這不是一個簡單的任務:與人腦不同,機器/深度學習演算法在資料使用前需要大量的幫助來標記或分類資料。也有很多演算法配置引數需要調整。儘管所有尖端的發展,這些仍然是非常簡單的模型建立,只解決具體問題 – 不真正”思考”自己或表現出真正的人式判斷時,面對意想不到的。有人需要幫助演算法”解決”邊緣案例和資料偏差。沒有它,軟體無法像人腦”自動”那樣適應離群值和意外情況。

這也是為什麼它也是一個硬體問題;為了有效地建立機器/深度學習解決方案,組織現在需要利用大量專門的硬體來最佳化任務(目前其中絕大多數由 GPU 處理)。有些人開始將這一紀律稱為ML-Ops。從一開始,利用組織的雲/彈性計算資源已經成為開發過程中的問題,而不是僅在部署期間需要解決的問題。

AI技術的發展提高促進資料工程師的崛起

所有這些都是尋找所有者的挑戰,智慧組織正在檢視其組織圖,以發現此任務的所有者不一定存在。這當然不是後端工程師的工作,因為它不是關於開發應用程式邏輯。事實上,這不是傳統的 DevOps 工程師的責任,他們傳統上不參與基礎軟體邏輯或使用案例,也不參與基礎資料來源或連線所有內容所需的管道。此外,與傳統的 DevOps 不同(核心任務是在需要的儘可能多的情況下複製核心軟體 Applet 並保持高可用性),這裡的核心任務是複製大型培訓作業,同時同時執行多個、持續、不同的培訓和實驗作業,以便實現高效和及時的開發過程。

因此,在引入資料科學家之後,我們終於到達了人工智慧開發核心的組織變革的第二階段:輸入資料工程師。

這個新興的工程師類別(通常稱為資料工程師,有時在行業試圖確定一個術語時有其他名稱)的任務是構建資料管道和擴充套件機制,以利用人工智慧工作負載的彈性計算資源。他們的工作是向資料科學家提供基於雲或預設的資料和基礎設施,以便他們的演算法能夠有效地訪問和執行他們的實驗,以構建最終的部署模型。

因此,資料工程師需要處理一方面是資料管理(以前稱為 DBA), 另一方面是處理類似 DevOps 的任務,這些任務需要配置特定的硬體來擴充套件軟體,以及為每個軟體應用程式安排許多不同(但相關的)任務。

認識到這一需要的組織現在正迅速採取行動,透過將資料工程師引入流程來重組其 AI 團隊;這一調整使他們在競爭中具有明顯的優勢,而競爭仍在苦苦掙扎——失敗——迫使他們的資料科學團隊在其現有的 IT 或研發組織結構中有效運作。