選單

從宇宙大尺度結構到胎心監測,從手機訊息推送到物聯網大資料處理 – 跨界是創新的主要源泉 | 陶建輝

從宇宙大尺度結構到胎心監測,從手機訊息推送到物聯網大資料處理 – 跨界是創新的主要源泉 | 陶建輝

關注風雲之聲

提升思維層次

導讀

對於天體物理專業出身的我而言,非常樂意協助中國天文學界,儘自己最大的努力來給全球天文研究機構提供一個開源的、高效的天文大資料處理平臺。如果實現,這將是我個人最大的榮耀。

早幾天,應邀在亞信做了一場“技術創新之路“的分享,面對200多位亞信的產品和研發同學,我介紹了自己從和信、快樂媽咪到現在的濤思資料的創業歷程,對三個貌似完全不同的公司的技術創新做了剖析。從來都沒有無源之水,跨界是創新的主要源泉,這是我的核心觀點。今天週末,我將自己的創新經歷寫出來,與眾多的研發同學和創業者分享,希望能給大家一點啟發。

從宇宙大尺度結構到胎心監測

熟悉我的人都知道,我在中國科大學的是天體物理,後去美國印第安納大學,前後唸了近

5

年的天體物理,方向是宇宙大尺度結構,試圖用類星體的觀測資料來回答宇宙學的一個基本問題,宇宙是否具有各向同性,是否是有中心的。但當年為了早日過上美國夢的生活,我沒有唸完

PhD

,而是在

1997

年初就加入了芝加哥的

Motorola

,放棄做科學家的夢想,做軟體工程師了。從此以後,與相對論、量子場論、黑洞、宇宙大爆炸這些話題告別,自己再也沒有想到所學的天體物理方面的知識能在工作中直接派上用場。

然而人生處處都是意想不到

2013

年我創辦快樂媽咪,專注母嬰智慧硬體。我們的第一款產品是胎心監測,透過超聲波的多普勒效應,用智慧手機來測算胎兒的心跳。

從記錄的胎兒心跳資料來看,可以很清晰地看到心跳是一個週期性的訊號。最初,我認為這是一簡單的事情,寫個程式就很容易計算心跳週期。但沒想到,我們研發同學花了一個多月時間,計算出的心率就是不準。而且深圳的廠商告訴我,全中國只有

5

個人知道如何計算胎心的演算法,很有技術挑戰。於是小夥伴們建議我,趕快找清華的老師來解決。

我聽了之後哈哈大笑說:“如果這個問題要靠清華老師解決,這公司就不要開了。”

網上搜了幾篇胎心監測的技術文章,看完後,我心裡很清楚,認為可以用我學天體物理時所學的相關函式方法來解決這個問題。相關函式是一種通用的數字訊號的處理方法,被天體物理學界用來分析宇宙大尺度結構,包括類星體空間分佈,只是分析的是空間域的週期,是三維的。胎心是一個時間域的分析,而且是一維的,簡單很多。

意識到可以用相關函式處理後,我馬上動手寫程式,先用快速傅立葉變換對胎心訊號做濾波,然後透過滑動視窗計算相關函式,從相關函式計算出的最大值對應的滑動視窗大小定出週期,

600

多行程式,就這樣簡單。一週後,我給小夥伴們展示可以準確而且快速地在

iPhone

上計算出胎心的時候,大家都很興奮。而且與市場上其他產品做對比測試顯示,我的程式計算的數字更快、更準,並與賣

20

多萬

RMB

的惠普專業胎心儀計算出的結果完全一致。

從宇宙大尺度結構到胎心監測,從手機訊息推送到物聯網大資料處理 – 跨界是創新的主要源泉 | 陶建輝

快樂媽咪胎語儀

後來,我回到科大天體物理中心,給我的導師褚耀泉老師及其他同學談起這個演算法,大家既震驚又開心,多普勒效應、相關函式的方法居然用來測胎兒胎心。我自己也感慨,五年的天體物理的專業學習,居然沒有白費。

可見,天體物理的研究方法貌似不近人間煙火,但其實與我們日常生活又是密切相關的。

世界上很多問題,看似複雜,但在抽象之後,本質上都是一樣的

。不僅宇宙大尺度結構空間週期的計算、胎心的計算,而且手環記錄的步數、跑步機上心率的計算,都是可以用相關函式演算法來解決的。

從手機訊息推送到物聯網大資料處理

2016

年初,快樂媽咪被收購。之後,我先是休息了幾個月,但閒不住,就開始看各種專案,想嘗試做天使投資,但看的最多的是與智慧硬體、物聯網相關的專案。看完後,我發現大家對物聯網大資料處理的方法是極其的複雜,把

Kafka, Redis, HBase, Spark, MongoDB

等眾多的開源軟體堆砌在一起來處理資料,不僅研發成本高,而且部署複雜、維護成本很高。從一個受過多年物理專業訓練的人看來,萬事複雜的時候,一定要分析問題的本質,分析出本質後,解決方法往往很簡單。經典力學的牛頓三大定律、電動力學的麥克斯韋方程、量子力學的波動方程,無一不是如此。

於是,我嘗試分析物聯網大資料,進而發現,這些感測器、機器、裝置採集的資料很有特點,仔細分析各種場景,總結出十大特點。

1:

資料是時序的,一定帶有時間戳;

2

:資料是結構化的;

3

:資料來源是唯一的;

4

:資料極少有更新或刪除操作;

5

:資料是有保留期限的;

6

:相對網際網路應用,寫多讀少;

7

:流量平穩,可以預測;

8

:資料的查詢分析一定是基於時間段和地理區域的;

9

:除儲存查詢外,還往往需要各種統計和實時計算操作;

10

:資料量巨大。

那麼基於這些特點如何更加高效的處理呢?我自己沒有大資料處理或資料庫的研發背景,一下想不到好方法。但

2016

10

月的一天,我突然意識到,任何一個感測器或裝置產生的資料實際上是一個數據流,這個流送到雲端伺服器的時候,實際上對資料的處理是類似一個訊息佇列的處理。我一下就興奮起來,因為這意味著可以照搬我

2008

年的和信的體系架構設計,輕車熟路,只是解決的具體問題不一樣。

2007

年底,基於各種因素,我判斷移動網際網路的春天已經到來。移動網際網路起來後,一定要有一個統一的實時訊息推送平臺,將各種應用的通知發到手機。因為對網路防火牆打洞技術有深入的研究,我找到了一條高效的省電、省流量的推送方法,因此,

2008

年初我就辭掉芝加哥

Motorola

的工作,回到北京,創辦了和信。和信除提供推送服務外,還想給所有的移動使用者提供免費簡訊、彩信服務。

我自己動手開發了核心的推送模組,但除推送模組之外,還需要一個很重要的模組,那就是需要將所有未下發的訊息進行儲存。解決辦法很簡單,為每臺手機建一個

inbox,

而且用訊息佇列的方式,先進先出,每下發一條訊息,等收到手機迴應後,再下發下一條。後來由於使用者不斷增長,我們就開發了一個全分散式的、高可靠的、有持久化儲存的訊息佇列。

當意識到感測器、裝置的資料本質上是一個流,可以用類似訊息佇列的方法來處理的時候,我真是興奮不已,而且馬上就想明白了物聯網場景下的資料模型,需要對每個感測器或裝置單獨建表。

於是,一個數據採集點一張表的創新想法就這麼出來了。

很多人曾問我,你怎麼想到一個採集點一張表的模型,我說,做和信的時候,就是一臺手機一個訊息佇列,這個想法對我而言是太自然的事情了。

現在物聯網資料的處理,與我當年的訊息佇列模組相比,儲存架構上,只是一個結構化與非結構化的區別。結構化的目的是為了更高效的做各種計算和查詢。而實際應用中,還需要對多個裝置之間的資料進行高效聚合,我馬上又想到可以用資料分析中的維度表、事實表的模型來解決。

因此接下來,我很快就提出了超級表的概念。

從宇宙大尺度結構到胎心監測,從手機訊息推送到物聯網大資料處理 – 跨界是創新的主要源泉 | 陶建輝

TDengine的GitHub頁面

技術解決方法想明白後,真是腦洞大開,對於物聯網大資料,我們根本不需要複雜的

Kafka

Redis

HBase

Spark

Flink

等軟體的組合,完全可以用一套極為簡單的方法來處理。想到萬物互聯的時代正在到來,如果能提供一個極為高效而且簡單易用的物聯網大資料處理工具給全球開發者使用,那是一個很值得驕傲、而且有巨大商業價值的事情,我便在

49

歲的時候,下定決心進行第三次創業,因此有了現在的濤思資料,有了現在開源的

TDengine

“不識廬山真面目,只緣身在此山中

很多人質疑過我,你不是一個從

Oracle, DB2

核心團隊出來的人,怎麼能做資料庫?但細挖我的歷史,明白訊息佇列與時序資料之間的相似之處後,我想就不會奇怪了。而且正是由於我是跨界過來的,更容易想到創新甚至是顛覆式的方法來處理物聯網的大資料問題。

我見過也面試過國內很多做資料庫核心開發的,基本上就是在開原始碼的基礎上,做點修修補補、或者是包一層殼,來做自主可控的產品,這裡面很難看到顛覆性的創新。我不會選擇這樣的方式來研發產品,更不會用它來做創業的方向。找不到真正的創新,我還不如退休過休閒的日子。

“橫看成嶺側成峰,遠近高低各不同。不識廬山真面目,只緣身在此山中

,當任何一個問題從不同角度看時,會是完全不一樣的。在一個行業呆的過久的人往往難有創新,因為眼光已經固定。同樣是物聯網資料的處理,與業內人士相比,我這個曾學過流體力學、天體物理、計算機等專業,還在高分子物理實驗室泡過幾年,在美國做過手機軟體、核心網路裝置研發,更是在訊息推送、智慧硬體上創業過的老兵,看待的角度和發現的問題,自然不一樣,甚至是截然不同。

因此,創新對我而言便是一件很自然的事情。

TDengine

已經開發了四年時間,而且從

2019

7

月開源之後,特別是去年

8

月叢集版開源之後,獲得了開發者社群的巨大反響,每天

GitHub

上克隆的使用者數都是好幾百,每天上線的執行例項數都在

100

以上,幾乎成了物聯網行業資料處理的事實標準。每天看到這些數字時,我都是很激動,覺得自己貢獻的五萬多行程式碼沒有白寫。

但更讓我激動的是,

TDengine

有可能在我曾熱愛的天體物理領域發揮作用。

現在全世界,包括中國,甚至中國科大,都在建巡天望遠鏡。這些望遠鏡每天記錄數百億顆星星的亮度、光譜等資訊,根據長時間的觀測,來找到有異常變化的星星,然後對其做專門的觀測。這樣產生的資料量極其巨大,而且誕生了天文學新的分支,時域天文學。其實,這些觀測的資料,就是標準的時序資料,完全可以用

TDengine

來高效處理。對於天體物理專業出身的我而言,非常樂意協助中國天文學界,儘自己最大的努力來給全球天文研究機構提供一個開源的、高效的天文大資料處理平臺。

如果實現,這將是我個人最大的榮耀。

從宇宙大尺度結構到胎心監測,從手機訊息推送到物聯網大資料處理 – 跨界是創新的主要源泉 | 陶建輝

1993年天體物理碩士論文目錄

仔細研究,你會發現,無論是巡天望遠鏡產生的資料、地震波的資料,還是發電機組的資料、智慧電錶的資料、車聯網的資料,亦或是新零售的資料、

IT

運維的資料,甚至是股票交易的資料,一定的抽象之後,本質上都是一樣的。大家都是希望基於這些資料做預測,做實時預警,連分析演算法都沒有什麼區別。

世界本來就是簡單的,沒有那麼複雜。