山東聯通大數據平臺——整合資源、數據共享
項目背景
山東聯通大數據項目為新建大數據平臺,初步完成大數據支撐平臺搭建,并進行B域數據整合。同時,具備對B域各類數據源的采集、分析、處理能力,具備數據聚合和數據標準化能力,具備數據服務和數據管控能力,增強對外服務及支撐水平。山東聯通通過構建大數據平臺,實現資源整合優化、節省整體投資、統一數據采集及數據加工、統一數據共享及服務、提高企業運營效率、最大化釋放數據價值,最終實現“ 一點存儲、統一管控、多點應用、體現價值”的目標。
需求分析
通過本次山東聯通大數據平臺建設,初步完成大數據支撐平臺搭建,具備對B域各類數據源的采集、分析、處理能力;具備的數據聚合和數據標準化能力,具備數據服務和數據管控能力,增強對外服務及支撐水平。具體體現在以下幾點需求的實現上:
大數據平臺搭建:構建分布式計算與存儲平臺,包括數據采集、數據轉換、數據裝載、實時數據處理模塊、準實時數據處理模塊以及批量處理模塊;
數據整合:核心BSS數據匯總,整合現網系統中BCV、市分數據池、前置機、數據集市以及cBSS系統數據至大數據平臺;
接口整合:統一省內、集團數據傳遞接口。省內接口整合,包括BSS與經分、網格、客服等系統間的接口整合;集團接口整合,包括BSS對集團B-BSS、ECS、總部CRM、總部PRM以及經分對總部經分的統一接口整合;
平臺應用及管理功能:計算能力、數據能力對內部各系統實現共享,結合大數據平臺存儲量大、處理能力強的特點,完善經分客戶畫像;建立數據質量監控平臺,通過對采集層數據、處理層數據及關鍵指標等有效監控,實現數據質量閉環管理。
系統架構
本次系統利用BDI統一ETL平臺,進行數據的抽取和統一清洗和加工,BDI經過清洗后的數據統一載入到由GBase 8a MPP構建的MPP分布式數據庫平臺內,MPP作為各種數據的收集和整合中心,保存從各種業務平臺收集的數據,并提供給6個廠家,和17個地市作為大數據供給者,這些廠家和地市在MPP數據庫上執行各自的業務。擴容前MPP的日增數據量為1.6T,數據量是60TB,8個節點,3臺加載機。經過1次系統擴容,目前為20個節點,3臺加載機,擴容后數據總量為150TB。
在 BDI統一ETL平臺之下,包含具有云化ETL能力的Hadoop平臺,此Hadoop平臺存儲所有接口數據文件,BDI每兩小時掃描一次數據文件是否到位,如到位從HDFS中取出數據到GBase 8a MPP加載機,同時BDI執行加載機上的加載腳本,進行入庫操作,通過此方式實現BDI的Hadoop平臺和MPP平臺之間的能力接口。
價值體現
高擴展:通過GBase 8a MPP的擴展能力,構建分布式計算與存儲平臺,集成和整合了B域的各類數據源,為廠商和地市應用提供了強大的可擴展的數據共享平臺;
高集成:通過BDI統一ETL平臺和GBase 8a MPP數據庫能力集成,同時實現MPP數據庫與Hadoop的處理能力的混搭,實現了從數據采集、數據轉換、數據裝載、數據處理的一系列的共享的集合;
高并行:通過GBase 8a MPP數據庫的列式存儲,智能索引等專門為大數據處理實現的存儲機制,以及GBase 8a MPP加載機高效并行的加載能力,實現了各類接口數據對MPP共享數據平臺的準實時的數據入庫能力;
高混搭:通過基于Hadoop + MPP的分布式計算架構的混搭,使平臺的計算能力、數據存儲能力得到可擴展的顯著提升,實現了各類海量數據的無丟失共享,結合大數據平臺存儲量大、處理能力強的特點,完善經分客戶畫像。