選單

雲集技術學社|雲運維有哪些注意事項?

9月28日,信服雲託管雲運維專家Jason在信服雲《雲集技術學社》系列直播課上進行了《雲運維概況與注意事項》的分享,詳細介紹了在雲化大趨勢背景下雲運維分工、職責和核心點。以下是他的分享內容摘要,想要了解更多可以關注“深信服科技”公眾號觀看回放。

看點一 雲的演進為運維帶來了哪些挑戰?

隨著資訊科技的不斷髮展,雲演進經歷了硬體化、虛擬化、超融合和雲四個歷程。資料中心也從傳統資料中心、虛擬化資料中心、軟體定義資料中心到雲化資料中心。企業對資訊系統的需求定位也在不斷變化,資訊系統從成本驅動、成本和效率驅動、管理驅動、管理和效率驅動最後到業務創新驅動。

隨著企業業務規模不斷擴大,資訊系統基礎架構也從超融合、多資源池軟體定義資料中心、私有云、同架構混合雲再到現在的多雲中臺。資訊系統和雲服務複雜化的趨勢越來越明顯,平臺的安全和運維可靠性成為了雲計算的關注重點之一,對雲安全和雲運維的要求在不斷提高。

雲集技術學社|雲運維有哪些注意事項?

雲的演進給運維帶來了多重挑戰:

一是管理複雜。節點數量成千上萬,儲存、計算、網路、PaaS、SaaS各種型別業務複雜。如何管理這麼多的資源、平臺和業務對運維而言是一項挑戰。

二是自動化要求高。在如此大的業務規模和服務場景下,自動化程度是運維效率的關鍵。

三是穩定性要求高。雲作為一個服務主體,直接承載不同使用者業務,對穩定性要求極高。

四是變更頻繁。雲作為客戶服務載體,需要經常根據使用者所需開發雲產品或新功能,由此帶來頻繁的升級事項。

五是排查問題難度增加。複雜的技術棧、複雜的業務場景,對於問題排查要求增加。

看點二 雲化趨勢下運維工作如何分層?職責邊界是什麼?

關於雲運維,信服雲對整個運維體系做了梳理,將運維分成了IDC、雲平臺、雲資源、應用層四個層級,每一個層級都會有對應的運維人員進行維護。

應用層包括應用系統和Guest OS的運維;雲資源層級運維包括日常響應和專家服務。對於信服雲而言,雲資源層級是使用者服務目錄的保障。日常響應包含了PaaS、SaaS等多項服務,專家服務包含了安全服務、DBA服務、遷移服務等。

雲平臺層級運維包括持續運維、IT裝置安裝部署、IT裝置運維三部分內容;IDC運維主要是基礎設施的維護,包括對供配電系統、空調與製冷系統、製冷自控系統、動環監控系統等多方面的維護,日常會對機房進行定期巡檢。一般來說,T3及以上的機房都有非常完整的服務保障。

雲集技術學社|雲運維有哪些注意事項?

看點三 如何擺脫“救火式運維”的困境?

業界對運維人員一直有個戲稱是“背鍋俠”,這個戲稱也反映了目前運維人員面臨的“救火式運維”困境。“救火式運維”困境即當事件已經發生並造成業務影響時,運維人員才能發現和著手處理。如何化被動為主動,突破困境?讓主動運維、持續運維成為常態,就需要詳細拆解雲運維核心體系,釐清運維重點,尋求技術突破,跳出運維管理怪圈。

站在管理的角度,運維的核心主要是人員、流程、技術、資料四個方面。人員是運維操作的執行者,流程是運維操作的既定範圍與邊界,技術是運維的武器,資料能夠更好地賦能運維。

在人員層面,任何公司做好運維的第一步是擁有一個負責運維職責的團隊。運維體系組織構成主要有技術支援中心、專家支撐中心、平臺運維中心和職能組。以平臺運維中心為例,人員組成有IDC物理環境維護、基礎設施維護、網路運維工程師、平臺運維工程師和工具開發組。這些人員保障著雲平臺的日常執行。

在流程層面,隨著雲時代場景下的系統規模不斷擴大、目錄日趨複雜、運維管理的無序工作狀態日益加劇,這對運維管理水平也提出了更高的挑戰。運維管理流程建設完備程度成為了運維效率的重要決定因素。運維流程管理設計遵循國際ITIL標準,整體流程從設計、 轉換、 運營等角度出發,對日常運維工作中的目錄管理、可用性管理、容量管理、變更管理等等進行規範和定義。

在技術層面,包括CMDB、監控指標項及模型、告警平臺這幾類運維工具和運維自動化、持續運維等技術。他們推動著運維的發展,幫助運維人員從簡單重複的運維問題中解放出來,讓運維人員能夠更快處理重要問題。

在資料層面,資料是運維很關鍵的部分。它包含的不只是運營的工單流程或者是事件告警,還包含了知識庫、平臺所有的監控資料。很多公司或者說很多運營人員並不是很重視資料,實際上,資料在發現問題、解決問題和最佳化方案的時候起了非常大的作用。

看點四 雲運維的實際過程中有哪些注意事項?

本次直播課上,Jason根據信服雲深耕雲計算多年的經驗,給出了四點建議:

(1)傳統運維的自動化轉型

企業數字化轉型的前提是企業需要有IT基礎資訊化建設以及IT基礎資訊的保障。在雲化的大趨勢下,中小企業更應該專注自身發展和數字化轉型。在運維層面,可以透過服務化採購,託管式雲服務的方式將平臺運維交由雲服務商來做。大型企業則應加強投入,組建高質量運維團隊,建立完備流程、分工職責,利用技術和工具實行主動運維,向自動化演進。

(2)落地和執行

在落地的執行階段,應以人員為根本,流程為基線,CMDB、監控、告警為三大基石,堅定不移走自動化戰略。同時給予更多資源讓運維有發展的空間。

(3)資料安全

企業要敬畏生產環境,流程設計一定要規避低階錯誤,而且要保證資料的一致性,資料的防篡改等。

(4)擁抱風險

任何產品都會存在問題,擁抱風險。企業可以跨部門、跨體系建立一條快速解決通道以及自動化高效修復作業程式,保障運維安全。

以上就是本次直播的主要內容,還想學習雲計算的更多“門道”嗎?敬請鎖定“深信服科技”公眾號或者官網,雲集技術學社還將邀請更多的專家,分享他們對雲計算技術的理解和實踐經驗。