【技术实现步骤摘要】
测量图形数据库中的数据的数据质量
[0001]本专利技术大致涉及计算机系统领域,并且更具体地涉及图形数据库中的数据的数据质量。
技术介绍
[0002]数据库系统例如可以使用具有节点、边和特性/属性的语义查询的图形结构来表示和存储数据。该图形将数据库中的数据项与节点和边的集合相关,其中,边表示在节点之间的关系。该关系可以允许数据存储中的数据被直接链接在一起,并且在许多情况下利用单个操作来检索。
技术实现思路
[0003]根据本公开的一个方面,提供了一种方法、计算机程序产品,和/或执行以下操作(不一定按以下顺序)的系统:获得包括表示第一实体的第一节点和表示在第一实体之间的关系的第一边的第一图形,第一节点与描述由第一节点表示的第一实体的第一实体属性相关联,第一边与描述由第一边表示的关系的第一边属性相关联;确定针对第一图形的第一节点中的特定节点的第一子图,第一子图包括特定节点和特定节点的至少一个相邻节点;以及至少部分地基于将数据质量规则集中的一个或多个适用规则应用于第一子图的第一实体属性值和第一边属性值,来确定关于特定节点的数据质量问题,其中,数据质量规则集表示在图形节点之间的边的类型与图形节点的属性之间的预期关系。
附图说明
[0004]在下文中,参考附图仅通过举例更详细地解释了本专利技术的实施例,在附图中:
[0005]图1A是根据本公开的实施例的计算系统的示图;
[0006]图1B是根据本公开的实施例的图形的简化结构的示图;
[0007]图2是根据本公开的实施例的 ...
【技术保护点】
【技术特征摘要】
1.一种计算机实现的方法,包括:获得包括表示第一实体的第一节点和表示在第一实体之间的关系的第一边的第一图形,所述第一节点与描述由所述第一节点表示的所述第一实体的第一实体属性相关联,所述第一边与描述由所述第一边表示的所述关系的第一边属性相关联;确定针对所述第一图形的所述第一节点中的特定节点的第一子图,所述第一子图包括所述特定节点和所述特定节点的至少一个相邻节点;以及至少部分地基于将数据质量规则集合中的一个或多个适用规则应用于所述笫一子图的第一实体属性值和笫一边属性值,来确定关于所述特定节点的数据质量问题,其中,所述数据质量规则集合表示在图形节点之间的边的类型与所述图形节点的属性之间的预期关系。2.根据权利要求1所述的计算机实现的方法,进一步包括确定所述数据质量问题与以下各项中的一项或多项相关联:所述特定节点的一个或多个第一实体属性值;以及所述特定节点所连接到的第一边的一个或多个第一边属性值。3.根据权利要求1所述的计算机实现方法,进一步包括:提供所述数据质量问题与所述特定节点和所述特定节点所连接到的第一边中的至少一个相关联的指示。4.根据权利要求1所述的计算机实现的方法,其中,所述第一子图中在所述特定节点与所述第一子图的任何其它第一节点之间的距离小于或等于预定义的距离集合中的一个距离。5.根据权利要求1所述的计算机实现方法,其中,所述第一子图由所述特定节点、经由第一边连接至所述特定节点的另一个第一节点以及与所述特定节点相邻或者与连接至所述特定节点的所述另一个第一节点相邻的至少一个第一节点形成。6.根据权利要求4所述的计算机实现的方法,进一步包括:获得包括表示笫二实体的第二节点和表示在第二实体之间的关系的第二边的第二图形,所述第二节点与描述由所述第二节点表示的所述第二实体的第二实体属性相关联,所述第二边与描述由所述第二边表示的所述关系的第二边属性相关联;针对所述第二图形的每一个第二边生成一个或多个第二子图,所述第二子图的每一个第二子图具有在所述第二边的第二节点与所述第二子图的任何其它第二节点之间的小于或等于预定义最大邻域等级的距离,所述第二子图的所述最大邻域等级定义所述距离集合;至少部分地基于在所生成的第二子图的笫二实体属性的属性值与第二边属性的属性值之间的关系,来确定所述数据质量规则集合;以及提供所述数据质量规则集合以用于检测所述数据质量问题。7.根据权利要求6所述的计算机实现方法,进一步包括:定义所述最大邻域等级,使得所述第二子图中的节点的数量小于最大节点数量。8.根据权利要求6所述的计算机实现方法,其中,所述确定所述数据质量规则集合进一步包括:针对所述第二子图中的每一个第二子图生成数据库条目,所述数据库条目包括每一个相应的第二子图的第二节点和笫二边的实体属性值和边属性值;
对所述数据库条目应用关联算法以检测关联规则;以及至少部分地基于与每一个检测到的关联规则相关联的置信度来从检测到的关联规则中选择关联规则,其中,所述数据质量规则包括所选择的关联规则。9.根据权利要求8所述的计算机实现的方法,其中,所述选择关联规则进一步包括消除具有小于阈值的置信度的检测到的关联规则。10.根据权利要求6所述的计算机实现方法,其中,所述第一图形和所述第二图形表示相同的域本体。11.根据权利要求6所述的计算机实现的方法,所述笫一图形和所述第二图形是相同的图形的子图。12.根据权利要求6所述的计算机实现方法,其中,所述第一图形和所述第二图形是相同的图形。13.根据权利要求1所述的计算机实现的方法,进一步包括:获得第二图形,所述第二图形包括表示第二实体的第二节点和表示在第二实体之间的关系的第二边,所述第二节点与描述由所述第二节点表示的所述第二实体的笫二实体属性相关联,所述第二边与描述由所述第二边表示的所述关系的第二边属性相关联;生成针对所述第二图形的每一个笫二边的笫二子图,所述笫二子图具有与所述第一子图相同的结构;至少部分地基于在所生成的第二子图的第二实体属性的属性值与笫二边属性的属性值之间的关系来确定所述数据质量规则集合;以及提供所述数据质量规则集合以用于检测所述数据质量问题。14.一种计算机程序产品,包括计...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。