关键词:
图数据库
向量数据库
向量索引
相似度搜索
GraphRAG
摘要:
作为专门存储和查询图结构数据的系统,图数据库在数据处理领域中的应用越来越广泛。图数据库以节点和边的形式来表示实体及其之间的关系,为复杂的数据关联分析提供了高效的解决方案。随着大模型的兴起,对于图数据的的向量属性支持也不断增长。然而,现有的图数据库很少能支持向量数据的存储以及检索,无法同时满足企业对于图数据以及向量数据的存储与检索需求。
国内外研究人员提出了各种系统用于解决该问题,虽然这些系统实现了图数据与向量数据的归一化需求,但这些系统在数据导入、索引构建以及相似度搜索等方面都存在性能较差的问题。针对这一挑战,本文主要研究以下内容:
1.针对部分图数据库暂不支持向量类型数据的问题,本文基于TuGraph数据库,通过在计算层与存储层实现向量数据的导入、读取与存储,支持高维向量数据的存储与读取,为其提供了灵活、高效的存取服务。
2.针对部分数据库向量索引算法单一且耦合性强,维护性和扩展性差的问题,本文设计了向量索引框架来适配多种不同的向量索引算法,为多种向量索引库提供接入支持,同时设计了多种使用向量索引功能的Procedure API指令,方便用户使用。
3.针对部分向量索引算法无法支持数据动态更新的问题,本文提出了基于阈值的向量索引更新与重构算法,并支持在全量索引未更新的情况下,提供基于向量索引与暴力搜索的混合检索能力。
本文设计并实现了基于TuGraph图数据库的向量属性拓展,并对该系统进行了全方位评估。结果显示,该系统可满足向量数据的存储以及检索需求,并在数据导入、索引构建和索引性能方面有着较为良好的表现。其中,索引导入时间为PGVector的85%左右,IVF_FLAT索引构建时间为PGVector的80%左右,在部分数据集优于Milvus。HNSW索引性能方面,TuGraph优于PGVector和Milvus。