崩了,崩了,又雙叒崩了!臉書(facebook)這幾天,真是屋漏偏逢連夜雨,
就在前天,才剛遭遇一場信譽危機:
它被前 Facebook 產品經理 Frances Haugen 公開被錘,說臉書透過演算法,放大網路上的仇恨言論,傳播虛假謠言,將公司利益凌駕於安全利益之上。
現在,又來一場危機:美國時間 4 日中午,臉書忽然宕機,大家怎麼重新整理臉書頁面,就是出不來。
而這一宕,就是 6 個小時,重新整理了自 2008 年以來最長的宕機時長。
公司內網也崩了。尷尬的同事們坐在辦公室,安心摸魚不能工作。
宕機,可能很多人還不太懂具體什麼意思。你可以把它簡單理解為宕機。
實際上,它家的所有產品,包括圖片社交服務 Instagram 以及即時通訊軟體 WhatsApp,Messenger 都崩了。由於自家產品,在這時沒一個能用,臉書的首席技術官 Mike Schroepfer 此時只能跑到它家對頭:推特(Twitter),對廣大使用者進行道歉。
翻譯:我們在經歷網路問題,團隊力求儘快解除故障、儘快恢復正常
作為全球最大的社交軟體,臉書擁有 29 億月活,什麼概念?微信的月活是 12 億。無處發洩的臉書使用者,此時也大量湧入競爭對手推特,推特成最大贏家。
這次的宕機,經過 6 個小時的搶修,下午才開始恢復部分運營。
到底啥原因呢?
臉書當天釋出了博文對事故進行解釋,說是由於骨幹路由器的一個配置改變導致的。
但,這麼大的事故,不會是臉書為了轉移公眾對醜聞的關注而製造的吧?
想想好像也不至於,這次宕機損失,直接造成扎克伯格的個人財富在一夜之間蒸發 70 億美元,臉書股價也暴跌 5%。這麼傷兵傷財的,
話說回來,好像大型科技公司的宕機事故,這幾年,就沒停過。
去年12月份,由於自動儲存配額管理系統發生故障,一大批的包括 YouTube、Gmail 在內的
谷歌服務,掛了,
無法使用。
這是他們在半年內的第三次大規模宕機了。今年 3 月,由於配置更改,
微軟 office 365 服務也掛了
,
這離上一次比較嚴重的宕機,也就半年。今年 6 月的這次,規模更大,多家受牽連。由於雲計算提供商 Fastly 的實時內容交付網路(CDN)出現問題,
導致亞馬遜、eBay、Reddit、Target ,及多家媒體網站 CNN、New York Times
出現長達一個小時的癱瘓。
這些是這一兩年全球科技公司的宕機事故,而我們熟知的一些國內網際網路企業,也頻頻宕機。
像大家都知的 B 站,就在今年 7 月份發生大規模宕機,還牽連 A 站,豆瓣,晉江一起下水。
今年 8 月份,騰訊影片也崩了。
同月,支付寶在七夕節,因為大量使用者參加七夕紅包活動,頁面也掛了。
仔細想想,這些知名的網際網路公司,不管是國內的 B 站、知乎、支付寶;還是國外的谷歌,微軟,特斯拉,
就沒哪個沒崩過。
有句話說得好,沒有崩過的網際網路企業,不足以稱之為網際網路企業”。
這些網站和軟體都是跟生活工作息息相關,一旦宕機,十分影響日常生活。
為啥老宕機呢?可以完全避免不?
其實看上面的梳理也知道,發生宕機的原因非常多,軟體、硬體都有可能。
很多原因我們不能把控,實際上,就跟我們無法完美把握未來一樣,
宕機,無法避免。
假設現在有一個月可用率高達 99。95% 的伺服器,在連續工作 5 年後,完全不發生宕機的機率,降到了(99。95%)^60=97%,或者說,5 年內,至少發生一次宕機的機率只有 3%。
雖然機率看起來還挺低,
但在大型的公司中,伺服器往往幾萬臺甚至上百萬,
比如騰訊雲,此前就公佈它的全網伺服器數量突破 100 萬臺。
這樣的機率再乘以幾百方次方,那麼發生宕機的機率基本上就是 100% 了。
想要在漫長的時間長河中,一個都不出錯,基本不可能。
這就好像,人在河邊走,哪能不溼鞋。
所以,我們也要理性看待這些宕機事故。
不過,以上都是聽天由命下的演算法,
但是我們人本身,不有主觀能動性嘛
,做好我們該做的,還是能降低下機率的,比如:多排查,多維護。
但如果人員安排不合理,也可以拉高宕機機率。
2013 年,Facebook 資料中心運維主管 Delfina Eberly 就曾透露,每個 Facebook 資料中心的運維工作人員管理了至少
20,000 臺
伺服器,有的甚至要管理高達 26,000 多個的系統。
一個人面對這麼多系統,臉書工程師的壓力山大啊,很容易漏掉一些漏洞。
Facebook 資料中心運維主管 Delfina Eberly另外,還有些人為操作,
可將機率直接拉滿。
在“流量至上”的網際網路,一些“系統崩潰”造成的所謂的“宕機”,不排除是
人為製造來吸引公眾眼球的辦法。
天災,我們無力抵抗,
但,盡人事,聽天命,這宕機宕得,至少無愧於心。