GBase新聞
場景為王! GBASE南大通用的向量數據庫研發之道
近期,向量數據庫領域風起云涌,一系列重大事件接連發生,引起了業界的廣泛關注。先是某科技巨頭宣布推出全新的向量數據庫產品,這款基于全導航圖技術的黑馬,在權威評測榜單ANN-Benchmarks上大放異彩,一舉包攬6項數據集評測的桂冠;緊接著,又傳出某知名電商平臺通過引入向量數據庫技術,成功提升了推薦系統的準確性和用戶滿意度。這些事件無疑將向量數據庫推向了聚光燈下,成為了數據庫領域的新寵。
那么,用戶面對不斷推出的向量數據庫產品,以及他們眼花繚亂的性能優勢廣告時,如何選擇適合自己業務需求的解決方案?近日,GBASE南大通用產品經理白軍奎接受了國內專業數據庫及架構技術社區ITPUB的特別采訪,道出了GBASE向量數據庫背后的“黑科技”與“避坑”之旅。
采訪嘉賓:白軍奎,南大通用8a產品經理,18年數據庫從業經驗,長期奮戰在國產數據庫一線,先后從事數據庫的研發、測試、技術支持、L2支持經理、產品經理等工作。
對專業的數據庫廠商來說,向量數據庫的技術實現門檻并不算高,諸如通常要具備的高維度支持、相似度搜索、多向量字段支持、快速插入和更新、多模型聯合分析與大模型結合等能力。但要將其應用于實際場景中并發揮出最大價值,卻是一個不斷“踩坑”和“填坑”的過程,從產品的工程化、產品化,到后續的功能完善、場景適配、性能優化、穩定性提升等方面,每一步都充滿了挑戰。
面對這些問題,GBASE南大通用在二十年的數據庫研發過程中,積累了寶貴的工程經驗,已經準備好了一套完善的解決方案來幫助客戶應對挑戰。
“我們通過與客戶進行深入的溝通和交流,了解到具體需求和場景,然后基于自身的技術能力和經驗,提供定制化的數據庫解決方案?!?/span>
技術路線和架構設計思考
當前,向量數據庫的技術路線主要分為兩種:一種是在非傳統關系型數據庫上構建專用向量數據庫,另一種是基于通用關系型數據庫增加向量數據庫的支持能力。GBASE南大通用選擇了后者。
“我們選擇在通用關系型數據庫基礎上增加向量數據庫的支持能力,這主要基于我們深厚的OLTP、OLAP關系型數據庫研發積累,以及對非結構化數據管理、分析領域的深入理解?!卑总娍v道。
這種技術路線的優勢在于,它能很好地復用已有的SQL語法、開發接口、存儲優化以及分布式計算能力。同時,向量數據庫天然具備關系型運算能力,能夠實現向量計算和關系運算的算法融合,為用戶提供更高效、更靈活的解決方案。
在GBase向量數據庫的架構設計中,南大通用采用了存算分離的架構。這種架構能夠實現資源獨立擴展,計算資源可以隨需擴展,無需進行數據重分布,從而大大提高了系統的可用性和擴展性。
“存算分離架構的設計初衷主要是為了解決傳統存算一體架構下的一系列問題,如單點故障、數據重分布性能損耗、數據冗余等。”白軍奎表示。在這種架構下,計算和存儲資源可以獨立擴展,不僅提高了系統的靈活性,還降低了成本。同時,不同計算資源可以共享同一份數據,減少了數據冗余和一致性風險。
此外,存算分離架構還帶來了更高的系統可用性和穩定性。由于避免了單點故障導致的服務降級,用戶可以享受到更可靠的數據服務。同時,資源的彈性擴展也使得用戶可以根據業務需求靈活調整計算或存儲資源,滿足不斷增長的數據處理需求。
選型關注存算分離、易用性
在進行向量數據庫選型時,用戶應關注多個關鍵性能指標以確保其滿足業務需求并具備高效、可靠的性能。
首先,考慮到向量數據的龐大量級,選擇分布式、存算分離的向量數據庫至關重要。這種架構能夠提供彈性資源擴展,確保數據庫能夠輕松應對不斷增長的數據量,并實現資源的高效利用。同時,存算分離的設計還能夠實現數據共享存儲,避免數據冗余,提高數據一致性。
其次,易用性是另一個關鍵指標。用戶應優先選擇采用標準SQL和開發接口的向量數據庫,以降低開發使用難度,提高開發效率。這樣的數據庫能夠提供更直觀、更易于理解的操作方式,使開發人員能夠更快速地掌握并運用數據庫功能。
此外,支持向量數據和結構化數據聯合分析也是一個明確的業務需求。用戶應選擇具備這一功能的向量數據庫,以便能夠同時處理和分析不同類型的數據,滿足業務場景的多樣化需求。
最后,高安全、高可靠、易管理的能力也是選型過程中不可忽視的因素。用戶應選擇具備完善的安全機制和可靠性保障的向量數據庫,確保數據的安全性和可靠性。同時,易管理的數據庫能夠降低運維難度,提高運維效率,為用戶帶來更好的使用體驗。
寫在最后
當前,GBase向量數據庫已完成了產品化和發布,正在和合作伙伴進行向量數據庫應用場景的探索。下一步是基于業務和市場牽引,與更多的大模型廠商、應用廠商等合作伙伴進行對接,形成細致的行業大模型應用工具和方案,為客戶的大模型應用提供價值和支撐。
“智能化運維和自動化優化將成為未來數據庫發展的重要方向,而大模型技術將在這個過程中發揮關鍵作用?!啊卑总娍鼜娬{。
GBASE南大通用將利用大模型技術,實現對數據庫運行信息、操作審計信息和數據訪問信息的全面采集和分析。通過這些信息,針對不同業務場景、不同計算引擎和不同數據內容,采用最優的數據存儲、計算和訪問策略,從而大幅提升數據庫的性能和效率。
同時,在數據應用方面,GBASE南大通用也將通過引入大模型技術,對庫內海量數據進行特征提取、數據使用協助、SQL審核和優化等操作,幫助用戶更好地理解和利用他們的數據,同時提高數據查詢和處理的準確性和效率。
GBASE南大通用正積極地向數據云的方向演進和發展,采用云化的存算分離技術,以及元數據統一、計算調度統一、數據存儲統一的湖倉一體技術,為用戶打造一個堅實的數據云服務平臺,幫助用戶輕松管理和利用自己的數據資產,滿足各種業務需求。