System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于压缩索引的属性图数据查询系统技术方案_技高网

一种基于压缩索引的属性图数据查询系统技术方案

技术编号:41256314 阅读:5 留言:0更新日期:2024-05-11 09:16
本发明专利技术公开了一种基于压缩索引的属性图数据查询系统,应用于基于压缩索引的属性图数据库,包括:图计算引擎对查询请求进行解析以判断其是否合法,并在查询请求合法时将查询请求转化为查询计划;根据查询计划确定查询请求所涉及的数据是否在数据更新表中被标记;数据更新表包括用户已经更新、但还未更新到压缩索引模块的属性图数据对应的VID;当所涉及的数据未在数据更新表中被标记时,定位索引单元获取待提取的文本串的起始位置及终止位置;属性索引单元根据起始位置和终止位置,利用高阶熵压缩全文自索引GeCSA算法提取文本串;数据处理器将文本串转化为预设格式,输出查询结果。本发明专利技术减少了属性图数据库的存储开销,进而提升查询性能。

【技术实现步骤摘要】

本专利技术属于数据处理,具体涉及一种基于压缩索引的属性图数据查询系统


技术介绍

1、随着社交网络、电子商务等领域的快速发展,属性图数据库的应用愈发广泛,它支持高效的复杂关联关系分析,处理复杂、关联的网状数据的效率远高于传统关系型数据库。然而,图数据通常较为复杂、庞大,这可能会使图数据库在进行查询操作时读取大量数据,磁盘读取速度的限制导致查询效率低下。

2、为了提高查询性能,目前主流的属性图数据库系统采取了多种策略和技术。例如:neo4j采用免索引邻接的策略,需要保证图结构的原生存储,即通过边关联的2个实体节点彼此的指向是物理层面的,通过边访问一个节点时该边保存的就是目标节点在磁盘上的物理地址,这样在边数量庞大时可以保证查询的高效性。neo4j采用自己提出的查询语言cypher,它是一种声明式的图数据库查询语言,能够精准且高效地对图数据进行查询和更新。由于保证了图的原生存储,设计了相应的图计算方法,neo4j的查询性能在同类产品中表现较好,但目前没有完全开源,其社区版功能受限。tigergraph是另一种较主流的属性图数据库,运用了高效的数据压缩技术,综合考虑了存储和计算性能,减少了内存占用,提高了cpu cache命中率,从而提高了整体查询性能。在tigergraph官方测试文档中,其性能表现超越同类其他产品,但是tigergraph目前不支持商业免费。

3、此外,还有一些其他的属性图数据库系统,例如:利用分区技术将数据分散到多个存储节点上,以提高并行处理的能力,但是多节点带来的数据一致性问题、成本问题、可扩展问题等不可忽略;还有使用缓存技术来减少磁盘i/o操作,然而,缓存同时也带来了一定的内存开销;还有使用节点索引技术,包括哈希索引、二叉树索引等,哈希索引使用哈希函数将节点的属性值映射到索引表中的位置,可以快速定位节点,但无法支持范围查询;二叉树索引使用二叉树的结构来组织节点,可以支持范围查询,但在当下图数据库的应用场景中,数据规模与复杂度都非常高,以上方法在处理图数据时仍然存在查询效率低下和可扩展性差的问题。

4、因此,解决大规模复杂属性图场景下的查询性能瓶颈问题,已成为当前的迫切需求。


技术实现思路

1、为了解决现有技术中存在的上述问题,本专利技术提供了一种基于压缩索引的属性图数据查询系统。本专利技术要解决的技术问题通过以下技术方案实现:

2、本专利技术提供一种基于压缩索引的属性图数据查询系统,包括:图计算引擎、后端存储接口、压缩索引模块和底层数据库,其中,所述压缩索引模块包括:定位索引单元、属性索引单元和数据处理器;

3、所述图计算引擎,用于在接收到用户的查询请求后,对该查询请求进行解析以判断其是否合法,并在所述查询请求合法时,将所述查询请求转化为查询计划;

4、所述后端存储接口,用于根据所述查询计划确定所述查询请求所涉及的数据是否在数据更新表中被标记;所述数据更新表中包括用户已经更新、但还未更新到压缩索引模块的属性图数据对应的顶点标识vid;

5、所述定位索引单元,用于在所涉及的数据未在数据更新表中被标记时,获取待提取的文本串的起始位置startpos及终止位置endpos;

6、所述属性索引单元,用于根据所述起始位置startpos和所述终止位置endpos,利用高阶熵压缩全文自索引gecsa算法提取所述文本串;

7、所述数据处理器,用于将提取出的文本串转化为预设格式后,输出查询结果。

8、在本专利技术的一个实施例中,所述后端存储接口还用于定义key-column-value模型,所述压缩索引模块还包括以所述key-column-value模型存储的属性图数据,其中,“key”包括属性图中顶点的顶点标识vid、“column”包括所述属性图中顶点的数据类型、“value”包括所述属性图中顶点的数据类型的数据内容,其中,所述属性图中所有顶点的顶点标识从0开始连续递增。

9、在本专利技术的一个实施例中,所述属性图中顶点的数据类型包括:元数据、标签信息、属性信息和边信息。

10、在本专利技术的一个实施例中,所述定位索引单元还用于根据所述以key-column-value模型存储的属性图数据生成属性图文本。

11、在本专利技术的一个实施例中,根据所述以key-column-value模型存储的属性图数据生成属性图文本时,所述定位索引单元具体用于:基于所述属性图中各顶点的vid进行排序后,将各个顶点的数据类型和数据内容对应存储至该顶点所在的行,得到属性图文本;根据属性图文本生成位串bitmap;其中,所述属性图文本中的各行数据为所述各个顶点的单项图数据,所述位串bitmap用于标识每条单项图数据的起始位置。

12、在本专利技术的一个实施例中,所述查询请求中包括用户的查询需求,所述查询需求为:查询用户确定的待查询顶点的数据类型的数据内容;

13、获取待提取的文本串的起始位置startpos及终止位置endpos时,所述定位索引单元具体用于:获取待查询顶点的vid,并基于待查询顶点的vid计算其对应的单项图数据的id;基于所述位串bitmap和所述单项图数据的id,确定待提取的文本串的起始位置startpos=select1(bitmap,id)及终止位置endpos=select1(bitmap,id+1),select1(bitmap,id)、select1(bitmap,id+1)分别表示所述位串bitmap中第id个“1”和第id+1个“1”所在的位置。

14、在本专利技术的一个实施例中,根据所述起始位置startpos和所述终止位置endpos,利用高阶熵压缩全文自索引gecsa算法提取所述文本串时,

15、所述属性索引单元具体用于:根据所述起始位置startpos和所述终止位置endpos确定待提取的文本串的长度length=endpos-startpos,进一步基于所述起始位置startpos和待提取的文本串的长度length,利用高阶熵压缩全文自索引gecsa算法提取所述文本串。

16、在本专利技术的一个实施例中,所述后端存储接口还用于在所涉及的数据在数据更新表中被标记时,查询所述底层数据库并输出查询结果。

17、与现有技术相比,本专利技术的有益效果在于:

18、本专利技术提供了一种基于压缩索引的属性图数据查询系统,包括:图计算引擎、后端存储接口、压缩索引模块和底层数据库,其中,压缩索引模块包括定位索引单元和属性索引单元,查询过程中定位索引单元可以根据查询计划确定待提取的文本串的起始位置startpos和长度length,由于预先建立了vid与高阶熵压缩文本自索引的映射关系,因此属性索引单元基于高阶熵压缩全文自索引gecsa算法高效地提取出文本串,实现了基于压缩索引的属性图数据库上的各种类型的图查询操作,减少了属性图数据库的存储开销,进而提升查询性能。

19、以下将结合附图及实施例对本专利技术做进一步本文档来自技高网...

【技术保护点】

1.一种基于压缩索引的属性图数据查询系统,其特征在于,包括:图计算引擎、后端存储接口、压缩索引模块和底层数据库,其中,所述压缩索引模块包括:定位索引单元、属性索引单元和数据处理器;

2.根据权利要求1所述的基于压缩索引的属性图数据查询系统,其特征在于,所述后端存储接口还用于定义Key-Column-Value模型,所述压缩索引模块还包括以所述Key-Column-Value模型存储的属性图数据,其中,“Key”包括属性图中顶点的顶点标识VID、“Column”包括所述属性图中顶点的数据类型、“Value”包括所述属性图中顶点的数据类型的数据内容,其中,所述属性图中所有顶点的顶点标识从0开始连续递增。

3.根据权利要求2所述的基于压缩索引的属性图数据查询系统,其特征在于,所述属性图中顶点的数据类型包括:元数据、标签信息、属性信息和边信息。

4.根据权利要求3所述的基于压缩索引的属性图数据查询系统,其特征在于,所述定位索引单元还用于根据所述以Key-Column-Value模型存储的属性图数据生成属性图文本。

5.根据权利要求4所述的基于压缩索引的属性图数据查询系统,其特征在于,根据所述以Key-Column-Value模型存储的属性图数据生成属性图文本时,所述定位索引单元具体用于:基于所述属性图中各顶点的VID进行排序后,将各个顶点的数据类型和数据内容对应存储至该顶点所在的行,得到属性图文本;根据属性图文本生成位串BitMap;其中,所述属性图文本中的各行数据为所述各个顶点的单项图数据,所述位串BitMap用于标识每条单项图数据的起始位置。

6.根据权利要求5所述的基于压缩索引的属性图数据查询系统,其特征在于,所述查询请求中包括用户的查询需求,所述查询需求为:查询用户确定的待查询顶点的数据类型的数据内容;

7.根据权利要求5所述的基于压缩索引的属性图数据查询系统,其特征在于,根据所述起始位置startPos和所述终止位置endPos,利用高阶熵压缩全文自索引GeCSA算法提取所述文本串时,所述属性索引单元具体用于:根据所述起始位置startPos和所述终止位置endPos确定待提取的文本串的长度length=endPos-startPos,进一步基于所述起始位置startPos和待提取的文本串的长度length,利用高阶熵压缩全文自索引GeCSA算法提取所述文本串。

8.根据权利要求1所述的基于压缩索引的属性图数据查询系统,其特征在于,所述后端存储接口还用于在所涉及的数据在数据更新表中被标记时,查询所述底层数据库并输出查询结果。

...

【技术特征摘要】

1.一种基于压缩索引的属性图数据查询系统,其特征在于,包括:图计算引擎、后端存储接口、压缩索引模块和底层数据库,其中,所述压缩索引模块包括:定位索引单元、属性索引单元和数据处理器;

2.根据权利要求1所述的基于压缩索引的属性图数据查询系统,其特征在于,所述后端存储接口还用于定义key-column-value模型,所述压缩索引模块还包括以所述key-column-value模型存储的属性图数据,其中,“key”包括属性图中顶点的顶点标识vid、“column”包括所述属性图中顶点的数据类型、“value”包括所述属性图中顶点的数据类型的数据内容,其中,所述属性图中所有顶点的顶点标识从0开始连续递增。

3.根据权利要求2所述的基于压缩索引的属性图数据查询系统,其特征在于,所述属性图中顶点的数据类型包括:元数据、标签信息、属性信息和边信息。

4.根据权利要求3所述的基于压缩索引的属性图数据查询系统,其特征在于,所述定位索引单元还用于根据所述以key-column-value模型存储的属性图数据生成属性图文本。

5.根据权利要求4所述的基于压缩索引的属性图数据查询系统,其特征在于,根据所述以key-column-value模型存储的属性图数据生成属性图文本时,所述定...

【专利技术属性】
技术研发人员:彭延国王利原佳怡崔江涛乔晓田
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1