選單

指標統計:基於流計算Oceanus(Flink) 實現實時UVPV統計

導語 | 最近梳理了一下如何用Flink來實現實時的UV、PV指標的統計,並和公司內微視部門的同事交流。然後針對該場景做了簡化,並發現使用Flink SQL來實現這些指標的統計會更加便捷。

一、解決方案描述

(一)概述

本方案結合本地自建Kafka叢集、騰訊雲流計算Oceanus(Flink)、雲資料庫Redis對部落格、購物等網站UV、PV指標進行實時視覺化分析。分析指標包含網站的獨立訪客數量(UV)、產品的點選量(PV)、轉化率(轉化率=成交次數/點選量)等。

相關概念介紹

UV(Unique Visitor):獨立訪客數量。訪問您網站的一臺客戶端為一個訪客,如使用者對同一頁面訪問了5次,那麼該頁面的UV只加1,因為UV統計的是去重後的使用者數而不是訪問次數。

PV(Page View):點選量或頁面瀏覽量。如使用者對同一頁面訪問了5次,那麼該頁面的PV會加5。

指標統計:基於流計算Oceanus(Flink) 實現實時UVPV統計

(二)方案架構及優勢

根據以上實時指標統計場景,設計瞭如下架構圖:

涉及產品列表:

本地資料中心(IDC)的自建Kafka叢集

私有網路VPC

專線接入/雲聯網/VPN連線/對等連線

流計算Oceanus (Flink)

雲資料庫Redis

二、前置準備

購買所需的騰訊雲資源,並打通網路。自建的Kafka叢集需根據叢集所在區域需採用VPN連線、專線連線或對等連線的方式來實現網路互通互聯。

(一)建立私有網路VPC

私有網路(VPC)是一塊在騰訊雲上自定義的邏輯隔離網路空間,在構建Oceanus叢集、Redis元件等服務時選擇的網路建議選擇同一個VPC,網路才能互通。否則需要使用對等連線、NA閘道器、VPN等方式打通網路。私有網路建立步驟請參考

幫助文件

(https://cloud。tencent。com/document/product/215/36515)

(二)建立Oceanus叢集

流計算Oceanus是大資料產品生態體系的實時化分析利器,是基於Apache Flink構建的具備一站開發、無縫連線、亞秒延時、低廉成本、安全穩定等特點的企業級實時大資料分析平臺。流計算Oceanus以實現企業資料價值最大化為目標,加速企業實時化數字化的建設程序。

在Oceanus控制檯的【叢集管理->【新建叢集】頁面建立叢集,選擇地域、可用區、VPC、日誌、儲存,設定初始密碼等。VPC及子網使用剛剛建立好的網路。建立完後Flink的叢集如下:

(三)建立Redis叢集

Redis控制檯

的【新建例項】頁面建立叢集,選擇與其他元件同一地域,同區域的同一私有網路VPC,這裡還選擇同一子網。

Redis控制檯:https://console。cloud。tencent。com/redis#/

(四)配置自建Kafka叢集

修改自建Kafka叢集配置

自建Kafka叢集連線時bootstrap-servers引數常常使用hostname而不是ip來連線。但用自建Kafka叢集連線騰訊雲上的Oceanus叢集為全託管叢集,Oceanus叢集的節點上無法解析自建叢集的hostname與ip的對映關係,所以需要改監聽器地址由hostname為ip地址連線的形式。

將config/server。properties配置檔案中advertised。listeners引數配置為ip地址。示例:

修改後重啟Kafka叢集。

注意:

若在雲上使用到自建的zookeeper地址,也需要將zk配置中的hostname修改ip地址形式。

模擬傳送資料到topic

本案例使用topic為topic為uvpv-demo。

Kafka客戶端

進入自建Kafka叢集節點,啟動Kafka客戶端,模擬傳送資料。

使用指令碼傳送

指令碼一:Java程式碼參考:

https://cloud。tencent。com/document/product/597/54834

(五)打通自建IDC叢集到騰訊雲網絡通訊

自建Kafka叢集聯通騰訊雲網絡,可透過以下前3種方式打通自建IDC到騰訊雲的網路通訊。

專線接入

https://cloud。tencent。com/document/product/216適用於本地資料中心IDC與騰訊雲網絡打通。

雲聯網

https://cloud。tencent。com/document/product/877適用於本地資料中心IDC與騰訊雲網絡打通,也可用於雲上不同地域間私有網路VPC打通。

VPN連線

https://cloud。tencent。com/document/product/554適用於本地資料中心IDC與騰訊雲網絡打通。

對等連線+NAT閘道器

對等連線:

https://cloud。tencent。com/document/product/553

NAT閘道器:

https://cloud。tencent。com/document/product/552適合雲上不同地域間私有網路VPC打通,不適合本地IDC到騰訊雲網絡。

本方案中使用了VPN連線的方式,實現本地IDC和雲上網路的通訊。參考連結:

建立VPC到IDC的連線

(路由表)

(https://cloud。tencent。com/document/product/554/52854)

根據方案繪製了下面的網路架構圖:

三、方案實現

(一)業務目標

利用流計算Oceanus實現網站UV、PV、轉化率指標的實時統計,這裡只列取以下3種統計指標:

網站的獨立訪客數量UV。Oceanus處理後在Redis中透過set型別儲存獨立訪客數量,同時也達到了對同一訪客的資料去重的目的。

網站商品頁面的點選量PV。Oceanus處理後在Redis中使用list型別儲存頁面點選量。

轉化率(轉化率=成交次數/點選量)。Oceanus處理後在Redis中用String儲存即可。

(二)源資料格式

Kafka topic:uvpv-demo(瀏覽記錄)

指標統計:基於流計算Oceanus(Flink) 實現實時UVPV統計

Kafka內部採用json格式儲存,資料格式如下:

(三)編寫Flink SQL作業

示例中實現了UV、PV和轉化率3個指標的獲取邏輯,並寫入Sink端。

定義Source

定義Sink

業務邏輯

(四)結果驗證

通常情況,會透過Web網站來展示統計到的UV、PV指標,這裡為了簡單直接在Redis控制檯(https://console。cloud。tencent。com/redis#/)登入進行查詢:

userids: 儲存UV

pagevisits: 儲存PV

conversion_rate: 儲存轉化率,即購買商品次數/總頁面點選量。

四、總結

透過自建Kafka叢集採集資料,在流計算Oceanus (Flink) 中實時進行欄位累加、視窗聚合等操作,將加工後的資料儲存在雲資料庫Redis,統計到實時重新整理的UV、PV等指標。這個方案在Kafka json格式設計時為了簡便易懂做了簡化處理,將瀏覽記錄和產品購買記錄都放在了同一個topic中,重點透過打通自建IDC和騰訊雲產品間的網路來展現整個方案。針對超大規模的UV去重,微視的同事採用了Redis hyperloglog方式來實現UV統計。相比直接使用set型別方式有極小的記憶體空間佔用的優點,詳情見連結:

https://cloud。tencent。com/developer/article/1889162

流計算 Oceanus 限量秒殺專享活動火爆進行中↓↓