北京移動(dòng)2020年國(guó)產(chǎn)分析型數(shù)據(jù)庫(kù)擴(kuò)容項(xiàng)目
北京移動(dòng)2020年國(guó)產(chǎn)分析型數(shù)據(jù)庫(kù)擴(kuò)容項(xiàng)目
項(xiàng)目背景
北京公司經(jīng)營(yíng)分析系統(tǒng)自2004年正式開(kāi)始全面建設(shè)和整合,經(jīng)分系統(tǒng)集中支撐了各部門(mén)、各分公司的管理分析需求;2020年建設(shè)新數(shù)據(jù)中心,擴(kuò)容GBase 8a MPP數(shù)據(jù)庫(kù)集群,對(duì)經(jīng)分架構(gòu)體系進(jìn)行優(yōu)化設(shè)計(jì),實(shí)現(xiàn)投資降本增效、應(yīng)用百花齊放和體系優(yōu)化提升的目標(biāo)。
解決方案
北京移動(dòng)數(shù)據(jù)中心系統(tǒng)采用PC Server+Linux+本地磁盤(pán)的部署模式,近百個(gè)(一經(jīng)主數(shù)據(jù)倉(cāng)庫(kù))+數(shù)十個(gè)(一經(jīng)專(zhuān)用庫(kù))+十余個(gè)(自助分析平臺(tái))節(jié)點(diǎn)規(guī)模,系統(tǒng)整體采用多種分布式存儲(chǔ)處理平臺(tái)的混搭架構(gòu),Hadoop的Map/Reduce、Hive處理海量的非結(jié)構(gòu)/半結(jié)構(gòu)化數(shù)據(jù)的批處理場(chǎng)景;GBase 8a MPP Cluster數(shù)據(jù)庫(kù)處理結(jié)構(gòu)化的海量數(shù)據(jù)(包括批處理和準(zhǔn)實(shí)時(shí)的交互處理)(本方案在應(yīng)用展示層采用MySQL數(shù)據(jù)庫(kù)配合GBase 8a MPP Cluster數(shù)據(jù)庫(kù)完成部分與應(yīng)用的交互處理;流式數(shù)據(jù)處理框架Streams、MQ、VlotDB實(shí)現(xiàn)流處理及復(fù)雜數(shù)據(jù)處理,支撐實(shí)時(shí)營(yíng)銷(xiāo)場(chǎng)景。MPP與Hadoop之間的數(shù)據(jù)傳輸速度,每小時(shí)的傳輸速度最快可以達(dá)到30T左右。
北京移動(dòng)數(shù)據(jù)中心系統(tǒng)架構(gòu)圖
GBase 8a MPP Cluster數(shù)據(jù)庫(kù)在系統(tǒng)中作為整個(gè)企業(yè)數(shù)據(jù)中心的主數(shù)據(jù)倉(cāng)庫(kù),擔(dān)負(fù)處理數(shù)據(jù)的深度加工和BOM域之間的數(shù)據(jù)融合,即承擔(dān)了整個(gè)數(shù)據(jù)供應(yīng)鏈中最復(fù)雜的數(shù)據(jù)加工處理過(guò)程,具體功能詳見(jiàn)下圖。
整個(gè)系統(tǒng)中GBase 8a MPP Cluster數(shù)據(jù)來(lái)源主要是上游數(shù)據(jù)如boss和crm系統(tǒng)將數(shù)據(jù)傳到接口機(jī),此時(shí)的數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)數(shù)據(jù)的批處理由Hadoop進(jìn)行處理,然后加載到MPP中再次進(jìn)行加工使用;結(jié)構(gòu)化數(shù)據(jù)處理直接加載到MPP數(shù)據(jù)庫(kù)完成。
應(yīng)用效果
擴(kuò)展系統(tǒng)數(shù)據(jù)處理范圍:全面融合運(yùn)營(yíng)商的B域/O域/M域數(shù)據(jù),為全價(jià)值鏈分析打下了數(shù)據(jù)基礎(chǔ),實(shí)現(xiàn)了從產(chǎn)品、客戶、資源、渠道、基建等多角度挖掘分析;
滿足系統(tǒng)更長(zhǎng)周期數(shù)據(jù)可擴(kuò)展性存儲(chǔ),管理和處理:支持長(zhǎng)周期的海量數(shù)據(jù)的存儲(chǔ)管理,滿足了企業(yè)數(shù)據(jù)中心支撐“大數(shù)據(jù)”的本質(zhì)訴求。
提高系統(tǒng)數(shù)據(jù)入庫(kù)時(shí)間:整體裸數(shù)據(jù)文件入庫(kù)速度最高可達(dá)20TB/小時(shí),比原DB2數(shù)據(jù)庫(kù)性能提高100倍以上。
數(shù)據(jù)庫(kù)操作性能提升:一般統(tǒng)計(jì)查詢類(lèi)操作性能提升1倍以上,更新類(lèi)操作性能提升30%-50%。
提升系統(tǒng)存儲(chǔ)空間利用率:數(shù)據(jù)容量進(jìn)一步降至未壓縮前的1/4,極大提高了整個(gè)系統(tǒng)的數(shù)據(jù)生命周期。
降低系統(tǒng)建設(shè)軟硬件成本:普通X86架構(gòu)下的PC Server+源Linux操作系統(tǒng)部署方式,降低了系統(tǒng)的軟硬件投入成本。