测量图形数据库中的数据的数据质量制造技术

技术编号:33302758 阅读:15 留言:0更新日期:2022-05-06 12:10
提供了执行以下操作的方法、计算机程序产品和/或系统:获得包括表示第一实体的第一节点和表示在第一实体之间的关系的第一边的第一图形,笫一节点与描述由第一节点表示的第一实体的第一实体属性相关联,第一边与描述由第一边表示的关系的第一边属性相关联;确定针对第一图形的第一节点中的特定节点的第一子图,第一子图包括特定节点和特定节点的至少一个相邻节点;以及至少部分地基于将数据质量规则集合中的一个或多个适用规则应用于第一子图的第一实体属性值和第一边属性值,来确定关于特定节点的数据质量问题。特定节点的数据质量问题。特定节点的数据质量问题。

【技术实现步骤摘要】
测量图形数据库中的数据的数据质量


[0001]本专利技术大致涉及计算机系统领域,并且更具体地涉及图形数据库中的数据的数据质量。

技术介绍

[0002]数据库系统例如可以使用具有节点、边和特性/属性的语义查询的图形结构来表示和存储数据。该图形将数据库中的数据项与节点和边的集合相关,其中,边表示在节点之间的关系。该关系可以允许数据存储中的数据被直接链接在一起,并且在许多情况下利用单个操作来检索。

技术实现思路

[0003]根据本公开的一个方面,提供了一种方法、计算机程序产品,和/或执行以下操作(不一定按以下顺序)的系统:获得包括表示第一实体的第一节点和表示在第一实体之间的关系的第一边的第一图形,第一节点与描述由第一节点表示的第一实体的第一实体属性相关联,第一边与描述由第一边表示的关系的第一边属性相关联;确定针对第一图形的第一节点中的特定节点的第一子图,第一子图包括特定节点和特定节点的至少一个相邻节点;以及至少部分地基于将数据质量规则集中的一个或多个适用规则应用于第一子图的第一实体属性值和第一边属性值,来确定关于特定节点的数据质量问题,其中,数据质量规则集表示在图形节点之间的边的类型与图形节点的属性之间的预期关系。
附图说明
[0004]在下文中,参考附图仅通过举例更详细地解释了本专利技术的实施例,在附图中:
[0005]图1A是根据本公开的实施例的计算系统的示图;
[0006]图1B是根据本公开的实施例的图形的简化结构的示图;
[0007]图2是根据本公开的实施例的用于处理图形的操作的流程图;
[0008]图3是根据本公开的实施例的用于确定数据质量规则的操作的流程图;
[0009]图4A是根据本公开的实施例的用于确定数据质量规则的操作的流程图;
[0010]图4B描绘了根据本公开的实施例的示例图形;
[0011]图5A是根据本公开的实施例的用于检测数据质量问题的操作的流程图;
[0012]图5B描绘了根据本公开的实施例的示例图形;以及
[0013]图6示出适于实现如在本公开的实施例中提供的一个或多个操作的示例计算系统。
具体实施方式
[0014]本专利技术的各种实施例的描述将出于说明的目的而呈现,但不旨在是详尽的或限于所公开的实施例。在不背离所描述的实施例的范围和精神的情况下,许多修改和/或变化对
本领域的普通技术人员而言将是显而易见的。在此使用的术语被选择以最优地解释实施例的原理、实际应用或在市场上找到的技术上的技术改进,或使得本领域普通技术人员能够理解在此公开的实施例。
[0015]根据本专利技术的方面,可提供系统、方法和计算机程序产品以测量图形数据库中的数据的数据质量。特别地,本公开的系统、方法和计算机程序产品可以提供用于检测在图形中的节点之间的关系与这些节点的特性/属性中的不一致性(例如,数据质量问题),以及检测节点的字段(例如,属性、特性等)中的不一致性。例如,本公开的实施例可以提供用于从来自图形的数据中构建一组事务,并以表格形式表示该事务。实施例可进一步将已知的关联算法应用于表格数据(例如,事务集合)以识别表征图形的节点的特性/属性之间的关系以及它们与其它节点的关系的强模式,并使用该数据来生成关于关联关系的规则。实施例可将所识别的关联规则应用于图形的所有节点和关系以识别对这些规则的违反。与所识别的对关联规则的违反相关联的图形的节点和/或边可被标记为潜在的数据质量问题,然后可在适当时解决该数据质量问题。
[0016]图形是指特性图,其中数据值被存储为节点和边上的特性。特性图可被包括在图形数据库(GDB)中,并且可由图形数据库管理系统或可提供包装器层的其它数据库系统来管理和处理,该包装器层将特性图转换为例如用于存储的关系表并在读取或查询时将关系表转换回特性图。例如,此类图形可以是有向图形。该图形可以是节点(也称为顶点)和边的集合。图形的边连接图形的任何两个节点。例如,边可由有序节点对(v1,v2)表示,并且可从节点v1朝向节点v2遍历。
[0017]作为一个示例,图形的节点可以表示实体。实体可以指用户(例如,雇员等)、对象、公司、另一个体等。实体(和对应的节点)可以具有可以被指派值的某些一个或多个实体属性和/或特性。例如,人可以是实体。人的实体属性可以例如包括婚姻状况、年龄、性别、标识数据等。表示节点的属性值是由节点表示的实体的实体属性的值。可以向两个节点之间的边分配至少指示在连接至边的两个节点之间的关系的一个或多个边属性值。表示边的属性值是边属性的值。该关系可以例如包括继承关系(例如,父母和子女)和/或根据某个层次的关联关系。例如,节点v1与v2之间的继承关系可以被称为是v1与v2之间“is

arelationship”(例如,“v2is

aparentofv1”)。节点v1与v2之间的关联关系可以被称为v1与v2之间“has

arelationship”(例如,“v2has

a relationshipwith v1”),意味着v1是v2的一部分、是v2的组成或与v2相关联。
[0018]该图形可以表示一个或多个域的集合的实体和关系。域(也称为域本体)可以表示属于世界的一部分的概念和/或类别,诸如例如工业、生物学、政治等。域通常可以构建术语的域特定定义的模式。例如,域可以指医疗保健特定领域、广告特定领域、商业特定领域、医疗特定领域、生物医学特定领域等。一个或多个域的集合可以表示本体。例如,域的集合可包括家庭域和公司域,其中家庭域和公司域属于同一本体,该本体可以是例如雇员本体。
[0019]然而,与图形数据库相关联的处理图可能在技术上是有挑战性的,因为图形可能通常具有数千或数百万的节点和边,诸如例如存储数百万客户记录、合同等的数据以及与具有数十万雇员的公司相关的个人记录的图形。这在数据去重复、通过网络的数据通信和/或图形的任何其它处理的情况下可能特别具有挑战性。例如,主数据管理(MDM)系统可使用图形作为持久存储装置,该持久存储装置可识别重复记录并且如果适用可能需要解决此类
重复记录问题。该过程通常可以是匹配过程,并且可以使用带有模糊运算符的确定性和/或概率性匹配技术,所述模糊运算符诸如语音(例如,Soundex、NYSIIS等)、编辑距离、昵称解析等。此外,与图形相关联的数据可具有数据质量问题/要点集合。数据质量问题/要点可以取决于由图形表示的域集合中的域。例如,数据质量问题集合可包括家庭域的数据质量问题的子集和另一域的数据质量问题的另一子集,等等。
[0020]本公开的各方面可提供:通过使用节点的上下文来识别与图形数据库中的一个或多个图形相关联的一些数据中的数据质量问题,并将数据质量问题的标识限制于每一个子图结构,来测量图形数据库中的数据质量。在一些实施例中,这可以允许以更高效的方式处理图形,因为其使用子图并且可以通过指示数据的质量来提供更可靠的数据。例如,可以通过考虑其相邻节点来确定关于图形(本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算机实现的方法,包括:获得包括表示第一实体的第一节点和表示在第一实体之间的关系的第一边的第一图形,所述第一节点与描述由所述第一节点表示的所述第一实体的第一实体属性相关联,所述第一边与描述由所述第一边表示的所述关系的第一边属性相关联;确定针对所述第一图形的所述第一节点中的特定节点的第一子图,所述第一子图包括所述特定节点和所述特定节点的至少一个相邻节点;以及至少部分地基于将数据质量规则集合中的一个或多个适用规则应用于所述笫一子图的第一实体属性值和笫一边属性值,来确定关于所述特定节点的数据质量问题,其中,所述数据质量规则集合表示在图形节点之间的边的类型与所述图形节点的属性之间的预期关系。2.根据权利要求1所述的计算机实现的方法,进一步包括确定所述数据质量问题与以下各项中的一项或多项相关联:所述特定节点的一个或多个第一实体属性值;以及所述特定节点所连接到的第一边的一个或多个第一边属性值。3.根据权利要求1所述的计算机实现方法,进一步包括:提供所述数据质量问题与所述特定节点和所述特定节点所连接到的第一边中的至少一个相关联的指示。4.根据权利要求1所述的计算机实现的方法,其中,所述第一子图中在所述特定节点与所述第一子图的任何其它第一节点之间的距离小于或等于预定义的距离集合中的一个距离。5.根据权利要求1所述的计算机实现方法,其中,所述第一子图由所述特定节点、经由第一边连接至所述特定节点的另一个第一节点以及与所述特定节点相邻或者与连接至所述特定节点的所述另一个第一节点相邻的至少一个第一节点形成。6.根据权利要求4所述的计算机实现的方法,进一步包括:获得包括表示笫二实体的第二节点和表示在第二实体之间的关系的第二边的第二图形,所述第二节点与描述由所述第二节点表示的所述第二实体的第二实体属性相关联,所述第二边与描述由所述第二边表示的所述关系的第二边属性相关联;针对所述第二图形的每一个第二边生成一个或多个第二子图,所述第二子图的每一个第二子图具有在所述第二边的第二节点与所述第二子图的任何其它第二节点之间的小于或等于预定义最大邻域等级的距离,所述第二子图的所述最大邻域等级定义所述距离集合;至少部分地基于在所生成的第二子图的笫二实体属性的属性值与第二边属性的属性值之间的关系,来确定所述数据质量规则集合;以及提供所述数据质量规则集合以用于检测所述数据质量问题。7.根据权利要求6所述的计算机实现方法,进一步包括:定义所述最大邻域等级,使得所述第二子图中的节点的数量小于最大节点数量。8.根据权利要求6所述的计算机实现方法,其中,所述确定所述数据质量规则集合进一步包括:针对所述第二子图中的每一个第二子图生成数据库条目,所述数据库条目包括每一个相应的第二子图的第二节点和笫二边的实体属性值和边属性值;
对所述数据库条目应用关联算法以检测关联规则;以及至少部分地基于与每一个检测到的关联规则相关联的置信度来从检测到的关联规则中选择关联规则,其中,所述数据质量规则包括所选择的关联规则。9.根据权利要求8所述的计算机实现的方法,其中,所述选择关联规则进一步包括消除具有小于阈值的置信度的检测到的关联规则。10.根据权利要求6所述的计算机实现方法,其中,所述第一图形和所述第二图形表示相同的域本体。11.根据权利要求6所述的计算机实现的方法,所述笫一图形和所述第二图形是相同的图形的子图。12.根据权利要求6所述的计算机实现方法,其中,所述第一图形和所述第二图形是相同的图形。13.根据权利要求1所述的计算机实现的方法,进一步包括:获得第二图形,所述第二图形包括表示第二实体的第二节点和表示在第二实体之间的关系的第二边,所述第二节点与描述由所述第二节点表示的所述第二实体的笫二实体属性相关联,所述第二边与描述由所述第二边表示的所述关系的第二边属性相关联;生成针对所述第二图形的每一个笫二边的笫二子图,所述笫二子图具有与所述第一子图相同的结构;至少部分地基于在所生成的第二子图的第二实体属性的属性值与笫二边属性的属性值之间的关系来确定所述数据质量规则集合;以及提供所述数据质量规则集合以用于检测所述数据质量问题。14.一种计算机程序产品,包括计...

【专利技术属性】
技术研发人员:Y
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1