GBase新聞
GBASE金融應用指南1 | 分布式分析型數據庫概述
GBASE南大通用二十年專注數據庫研發,主導產品GBase數據庫經歷20年持續發展迭代,已形成了覆蓋不同業務場景的成熟數據庫產品體系。其中,2011年發布的GBase 8a MPP Cluster大規模分布式數據庫集群,經過十余年持續升級完善,始終與國際同類主流水平保持同步,已在金融、電信、政務、能源、交通等各行業規模部署,完成眾多行業高端客戶核心系統的建設和改造升級案例,切實滿足了各數據密集型行業海量高價值數據分析、挖掘、備份、即席查詢等業務需求。
為幫助金融機構做好分布式分析型數據庫產品的選型,推廣在金融行業部署應用分布式分析型數據庫的成功經驗,GBASE南大通用在北京金融科技產業聯盟的指導下編寫《南大通用GBase 8a金融應用指南》?!吨改稀飞钊虢榻B了分布式分析型數據庫從選型規劃、開發設計規范、數據安全高可用,直至運維優化的部署全過程,并介紹了GBase 8a MPP Cluster在國家政策性銀行和國有大行的代表性部署案例。
GBASE南大通用將陸續推出系列文章,分享解讀《指南》內容,希望能夠對廣大金融用戶的數據庫選型提供借鑒幫助,助力科技金融的高效實施和高質量發展。
本篇是系列文章的第1期,將從分布式分析型數據庫的特點分類,及金融行業應用場景兩方面展開論述。
分布式分析型數據庫概述
1、分布式分析型數據庫的特點及分類
隨著數字經濟的發展,數據要素已經成為了和土地、人力、資本、技術并列的生產要素,數據資產價值會隨著數據量而提高,各行業對于數據的存儲和應用產生了很多新的需求,傳統的數據倉庫模型和技術面臨著諸多挑戰。
挑戰1:分析系統中數據規模龐大且變化的速度快、增量大,且數據有持久性存儲需求。要求數據倉庫有存儲大量歷史數據能力和在線擴展能力。
挑戰2:分析系統中業務變化愈發頻繁,有智能化發展趨勢,能滿足即席查詢和數據價值發現的需求。要求數據倉庫存儲的數據全面、粒度要細,支持數據挖掘和機器學習。
挑戰3:針對分析業務的不確定,數倉的Schema on write提前建模,前期耗費時間長,后期通用性弱。要求數據倉庫能存儲所有原始數據,延遲建模。
挑戰4:數據倉庫中存儲所有原始數據并延遲建模,會產生數據來源廣,結構化、非結構化數據混雜,數據使用人員多等情況。要求數據倉庫能有效治理各類數據,避免數據沼澤、數據泥團,數據庫要有完善的安全機制保護數據完整和數據安全。
挑戰5:對分析結果的實時性要求越來越高,要求數據倉庫能有實時數據、流式數據接入的方案。
挑戰6:分析系統的運行承載企業各項分析業務,運行的穩定性要有保障,即業務的連續性和數據的完整性要有保障。要求有備份方案、雙活的解決方案來保障數據的完整和業務的連續。
分布式分析型數據庫從20世紀末至今,經過近30年的發展應用,現階段開始向云原生數據倉庫演進??梢暂^好的解決以上挑戰和要求,滿足數據倉庫未來向湖倉一體架構演進的趨勢。
使用分布式分析型數據庫搭建數據倉庫具有標準易用的SQL語言、契合于各行各業常見分析需求的數據模型,滿足多樣化數據挖掘分析需求,易于將需要的數據按照方便分析的模型集成到數據倉庫中,獲取數據和分析結果方便快捷等優點。
南大通用大規模分布式并行數據庫集群系統GBase 8a MPP Cluster從發布至今有十余年的行業規?;瘧茫o貼市場需求,具有虛擬集群、多租戶、在線快速擴展、在線節點替換、高可用性、高安全性等金融行業關注的基礎功能特性和雙活集群、流式數據集成、機器學習算法集成、異構計算引擎統一調度全數據統一管理等高級功能。
2、分布式分析型數據庫金融行業應用場景
金融行業業務復雜多樣,大數據分析應用場景涵蓋批處理、交互式查詢、數據挖掘、湖倉一體和實時數倉。GBase 8a MPP Cluster在各應用場景中的適用情況如下圖所示。
GBase 8a MPP Cluster應用場景占比
批處理場景:
處理的數據量大、業務邏輯較復雜、資源占用大,數據處理分析的時效性一般為T+1,任務并發數在100以下。GBase 8a MPP Cluster的列存儲引擎和優化器、豐富的OLAP函數、復雜SQL執行優化、高性能數據導入等非常適用于此類場景。
交互式查詢場景:
查詢響應時間要求較高,能夠實現人機之間交互。GBase 8a MPP Cluster的智能索引、壓縮、支持高并發查詢等可提供高性能的即席查詢支撐,提供的數據加密、脫敏、權限管理等的數據安全機制為交互式查詢場景保駕護航。
數據挖掘場景:
使用統計學、機器學習和數據庫系統等交叉技術,來查看和發現大型數據集中隱藏的一些模式。GBase 8a MPP Cluster提供的機器學習算法可以對用戶數據進行深層次的分析和挖掘,將用戶數據轉化為用戶價值。
湖倉一體場景:
湖倉一體是一種新型的開放式架構,打通了數據倉庫和數據湖,融合數據倉庫的高性能及管理能力與數據湖的靈活性。底層支持多種數據類型并存,實現數據間的相互共享,上層通過統一封裝的接口進行訪問,可同時支持實時查詢和分析,為企業進行數據治理帶來了更多的便利性。GBase 8a MPP Cluster提供與Hadoop平臺的多種融合方案:通過異構引擎融合實現統一訪問接口、統一數據視圖、統一計算調度;通過雙向的HDFS數據導出加載實現數據在數據湖和數據倉庫中高速流轉。
實時數倉場景:
實時數倉要求數據實時入庫,不同于離線數倉響應時間需求的T+1,實時數倉響應時間實時性要求高(分鐘級乃至秒級),常應用于實時 OLAP 分析、實時數據看板、實時業務監控、實時數據接口服務等。GBase 8a MPP Cluster采用微批數據加載、kafka消息流實時入庫等方式,能滿足小時級、分鐘級、秒級的數據入庫和數據分析。