当前位置: 首页 > 专利查询>微软公司专利>正文

用于基于知识的数据质量解决方案的域制造技术

技术编号:8453042 阅读:138 留言:0更新日期:2013-03-21 17:08
本发明专利技术涉及基于丰富知识库的知识驱动的数据质量解决方案,具体为用于基于知识的数据质量解决方案的域。该数据质量解决方案可提供连续的改进,并且可基于连续(或持续)的知识采集。该数据质量解决方案可建立一次,且可重新用于多次数据质量提高,其可针对相同数据或相似数据。所公开的各个方面容易使用且集中于生产力和用户体验。此外,所公开的各个方面是开放和可扩展的,且可应用于基于云的参考数据(例如第三方数据源)和/或用户生成的知识。根据一些发明专利技术,所公开的各个发明专利技术可与数据集成服务集成。

【技术实现步骤摘要】
用于基于知识的数据质量解决方案的域
本专利技术一般涉及数据质量,尤其涉及基于知识的数据质量方案。
技术介绍
随着计算技术的提高以及计算设备变得更普遍,出于个人和公务原因使用计算机对于日常活动已经变得常见。为了跟上需求,数据集合呈指数级增长。数据集合以及数据的后续处理的目的在于理解所收集数据的意义,并出于有用的目的汇编所搜集的数据。与数据的累积以及数据的任何相应使用相关联的问题在于数据内包含的错误(例如低质量数据)。错误的示例可包括不正确的数据、缺失的数据、拼写错误、误置数据、重复数据、以及其它问题。依赖含错误数据的人和公司可基于该数据作出决定、分析、和/或其它动作,并且如果该数据有缺陷,则所得到的决定、分析等等也会是有缺陷的。如果事后发现错误,则会损坏数据的置信度和相关信任。在一些情形中,如果数据不满足足够的质量水平,则该数据可能无法加以信赖。一些系统利用一般方法来改进数据质量。该一般方法基于“一视同仁”(one-size fits all)的思想。例如,该一般方法对数据应用一般算法,以尝试净化或改进数据的质量。 由于一般算法是不管数据内容为何就应用的,因此一般方法仅能提供有限的解决方案。在一些情形中,一般方法可能无法解决与数据相关联的问题。由此,已用一般算法净化的数据的质量仍然会较低,因为原来的问题并没有得到解决。当今计算系统和数据质量方案的上述缺点仅旨在提供常规系统的一些问题的概览,并且不旨在是穷尽性的。常规系统的其他问题以及此处所描述的各非限制性实施例的对应益处可以在审阅以下描述后变得更显而易见。
技术实现思路
此处提供了简化的
技术实现思路
以帮助能够对以下更详细的描述和附图中的示例性、 非限制性实施例的各方面有基本或大体的理解。然而,本
技术实现思路
并不旨在是详尽的或穷尽的。相反,本
技术实现思路
的唯一目的在于,以简化的形式提出与一些示例性、非限制性实施例相关的一些概念,作为以下各实施例的更详细的描述的序言。本文中所揭示的各个方面涉及提供基于知识的数据质量解决方案。该数据质量解决方案基于关于数据的知识的采集与数据处理的明确分离。还提供一种可传递、可移动、可插入的知识容器(例如,知识库)。该数据质量解决方案还提供受引导的知识采集和向基于云的知识的无缝可扩展性。另一方面涉及从内部信息(例如,来自客户机或来自数据本身)和外部信息(例如, 来自包含数据质量解决方案知识供下载的第三方网站)获取有关数据的知识(例如,知识库的创建)。进一步针对此方面地,应用知识库来净化数据、剖析数据、或执行语义去重复。又一方面涉及一种包括数据质量服务器(及内部组件)的体系结构,该数据质量服务器链接客户机和包含数据质量解决方案知识以供下载的第三方网站。此外,一方面涉及计算机辅助的知识采集和交互式净化。再一方面涉及创建域、合成域以及交叉域。这些域是可移动、可下载的,并且可被共享。这些和其他实施例在下文中更详细地描述。附图说明 构; 参考附图进一步描述各非限制性实施例,在附图中图I示出根据一方面的示例性计算系统的框图;图2示出根据一方面的配置成提供知识驱动的数据质量解决方案的系统的框图; 图3示出根据一方面的用于数据质量解决方案的另一系统;图4示出根据一方面的配置成提供数据质量解决方案的系统;图5示出根据一方面的配置成提供数据的去重复的系统;图6示出根据一方面的构建为匹配项目的输出的示例性匹配结果域;图7示出根据一方面的用于基于知识的数据质量解决方案的示例性系统体系结图8示出根据一方面的数据质量(DQ)服务器的组件;图9示出根据一方面的使用数据集成的批量净化;图10示出根据一方面的用于创建知识库并使用知识库来改进数据质量的方法的非限制性流程图图11程图12图13 制性流程图14图15图16 的框图;以及图I7示出根据一方面的用于基于知识的数据质量解决方案的方法的非限制性流示出了根据一方面的另一方法的非限制性流程图;示出根据一方面的用于执行去重复作为基于知识的解决方案的方法的非限示出根据一方面的用于交互式净化数据的方法的非限制性流程图;示出根据一方面的用于创建知识库的方法的非限制性流程图;是表示其中可实现在本文所述的各个实施例的示例性、非限制性联网环境是表示其中可实现本文所述的各个实施例的一个或多个方面的示例性、非限制性计算系统或操作环境的框图。具体实施方式概览数据质量缺陷对商业战略措施会有负面影响(有时是显著的负面影响)。数据质量缺陷(例如,低质量数据)的影响包括纠正数据(如果发现了错误)所花费的额外时间、信用的损失、客户不满、遵从性问题和收入损失、以及其它影响。由此,各种各样的机构都寻求改进其商业数据的质量。针对数据质量的一般方法(例如,基于零知识)不足以产生用于当今商务的高质量数据。此外,针对数据质量的基于知识的方法可呈现诸如知识采集、使用、移动性、可扩展性等等的多种挑战。由此,通过采集知识和处理知识的分离以提高数据质量来提供基于知识的数据质量方法将是有益的。在一示例中,采集知识可包括计算机辅助的知识采集。所公开各个方面中的一个或多个提供基于丰富知识库的知识驱动的数据质量解决方案。例如,数据质量知识库被创建、维护和再使用以供执行各种数据质量操作,诸如数据净化和匹配。本文中所公开的数据质量解决方案是快速、容易部署的,并且能快速地建立。本文中所呈现的各个方面涉及用于针对数据质量过程采集和表示有效知识的数据域(例如,类型),包括简单域和合成域。其它方面涉及语义去重复。另一些方面涉及可扩展性的树形生成应用法。还有一些方面涉及第三方集成的商业模型。一个方面涉及一种包括知识管理器组件和数据增强组件的系统。知识管理器组件被配置成搜集与数据集相关的信息。该信息至少部分地从数据集的一样本搜集,并且该信息被保留在知识库中。数据增强组件被配置成对数据集执行一个或多个操作以提高该数据集的质量。该一个或多个操作基于所搜集的信息。在一示例中,知识管理器组件基于数据集的描述、一个或多个规则、推断、数据字段正确值的列表、以及与用户的交互来搜集信息。根据一示例,数据增强组件被配置成净化作为所搜集信息的结果的数据集。在另一示例中,数据增强组件被配置成基于所搜集信息对数据集进行去重复。在一实现中,系统进一步包括数据分析模块,该数据分析模块被配置成基于完整性、符合度、一致性、准确性、及时性和重复度的至少之一来定义数据集的质量。根据另一实现,该系统进一步包括配置成获取有关数据集的语义信息的采集模块。进一步地,该系统包括发现模块,该发现模块被配置成输出对有关语义信息的细节的一个或多个请求并接收作为回复的对该一个或多个请求的响应。接收到的响应被保留在知识库中。在又一示例中,该系统包括被配置成保留与用户数据和第三方数据的属性有关的历史信息的历史模块。数据增强组件被配置成利用历史信息来对数据集执行一个或多个操作。在再一示例中,该系统包括统计模块,该统计模块被配置成提供与数据质量、与数据相关联的问题、以及数据质量问题源的至少之一相关的统计信息。数据增强组件被配置成利用统计信息来对数据集执行一个或多个操作。在另一示例中,该系统包括净化模块,该净化模块被配置成基于知识管理器组件所搜集的信息来修改、移除、或丰富不正确或不完整的数据。数据集包括第一数据子集和第二数据子集,根据又一示例该系统进一本文档来自技高网
...
用于基于知识的数据质量解决方案的域

【技术保护点】
一种用于数据质量解决方案的系统,包括:配置成采集关于第一数据集和第二数据集的数据信息的访问模块(340);配置成针对所述第一数据集和所述第二数据集创建一个或多个域的域创建模块(385);以及配置成集聚所述一个或多个域并用集聚后的域填充知识库(330)的编译模块(390),其中所述知识库(330)用于处理一个或多个数据质量集。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:J·玛尔卡E·齐克利克E·胡迪斯M·拉维夫G·皮莱格D·法伊比希
申请(专利权)人:微软公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1