【技术实现步骤摘要】
本专利技术涉及数据处理技木,具体涉及ー种用于确定源数据库表和目标数据库表之间的数据映射关系的方法和装置,以及ー种用于验证数据的方法和装置。
技术介绍
多年以来,商业智能(Business Intelligence,简称BI) —直是ー个技术热点,越来越多的企业采用了商业智能技术,以提供决策支持。商业智能是指用于发现、收集、 分析企业的诸如销售、成本、收入等商业数据的基于计算机的技木。商业智能技术通常通过ETL(Extract-Transform-Load,即数据抽取、转换、装载)过程,从企业自身的诸如ERP (Enterprise Resource Planning,即企业资源计划)、CRM(Customer RelationshipManagement,即客户关系管理)等业务系统及企业所处的外部环境等数据源中提取数据,并将所述数据进行适当转换后,注入到数据仓库中;然后,通过OLAP (On-Line AnalyticalProcessing,即联机分析处理)等技术生成可用于决策支持的数据报告。图I示出了商业智能技术的示意图。如图所示,来自于ERP、CRM、其他业务系统数据库等数据源的数据通过ETL过程被注入到数据仓库中,而通过OLAP过程可以根据数据仓库中的数据生成各种用于决策支持的数据报告。数据仓库中数据的准确性对于提供正确的决策支持是至关重要的。在目前的BI解决方案中,经常会发生如下三种类型的数据错误一是在数据仓库中出现脏数据(dirtydata),这种脏数据并不是由数据源中的数据经适当转换而产生的,而是在ETL过程中错误地产生的;ニ是对数据源中的 ...
【技术保护点】
【技术特征摘要】
1.一种用于确定源数据库表和目标数据库表之间的数据映射关系的方法,包括 从至少一个源数据库表中的多行数据获取主键之外的至少一个其他属性的属性值及其对应的主键值集合,并从目标数据库表中的多行数据获取相应主键之外的特定属性的属性值及其对应的主键值集合; 判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间是否存在潜在的数据映射关系; 如果判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间存在潜在的数据映射关系,确定所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间的数据映射关系。2.根据权利要求I的方法,其中,判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间是否存在潜在的数据映射关系是通过比较所述至少一个源数据库表的至少一个其他属性的属性值所对应的主键值集合与所述目标数据库表的特定属性的属性值所对应的主键值集合进行的。3.根据权利要求2的方法,其中,判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间是否存在潜在的数据映射关系包括 判定所述目标数据库表的特定属性的属性值所对应的相应主键值集合是否与所述至少一个源数据库表的一个其他属性的属性值所对应的主键值集合相对应;以及 响应于所述判定为是,判断所述至少一个源数据库表的所述一个其他属性与所述目标数据库表的特定属性之间存在潜在的数据映射关系。4.根据权利要求2的方法,其中,判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间是否存在潜在的数据映射关系包括 判定所述目标数据库表的特定属性的属性值所对应的相应主键值集合是否与所述至少一个源数据库表的多个其他属性各自的属性值所对应的主键值集合的交集相对应;以及 响应于所述判定为是,判断所述至少一个源数据库表的所述多个其他属性与所述目标数据库表的特定属性之间存在潜在的数据映射关系。5.根据权利要求I方法,其中,确定所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间的数据映射关系包括 根据所述至少一个源数据库表的至少一个其他属性的属性值所对应的主键值集合与所述目标数据库表的特定属性的属性值所对应的相应主键值集合之间的对应关系,建立所述至少一个源数据库表的至少一个其他属性的属性值与所述目标数据库表的特定属性的属性值之间的对应关系;以及 根据所建立的所述至少一个源数据库表的至少一个其他属性的属性值与所述目标数据库表的特定属性的属性值之间的对应关系,确定所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间的数据映射关系。6.根据权利要求5的方法,其中,所述确定所述源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间的数据映射关系是基于所建立的源数据库表的至少一个其他属性的全部属性值中超过指定阈值百分比的属性值与所述目标数据库表的特定属性的全部属性值中超过指定阈值百分比的对应属性值之间的对应关系进行的。7.根据权利要求I的方法,其中,判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间是否存在潜在的数据映射关系以及确定所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间的数据映射关系是基于包含源数据库表与目标数据库表之间的数据转换关系的设计规范进行的。8.根据权利要求I的方法,其中,所述目标数据库表为商业智能解决方案中的数据仓库中的数据库表,所述至少一个源数据库表是作为数据仓库的数据源的业务系统数据库中的数据库表。9.一种用于验证数据的方法,包括 根据权利要求1-8中任何一项中的各步骤;以及 根据所确定的数据映射关系对所述至少一个源数据库表的至少一个其他属性的属性值和/或目标数据库表的特定属性的属性值进行验证。10.根据权利要求9的方法,其中,根据所述确定的数据映射关系对所述至少一个源数据库表的至少一个其他属性的属性值和/或目标数据库表的特定属性的属性值进行验证包括以下各项中的任何一个或多个 通过将所述确定的数据映射关系与包含源数据库表与目标数据库表之间的数据转换关系的设计规范进行比较来判断所述确定的数据映射关系是否符合该设计规范; 判断所述至少一个源数据库表的至少一个其他属性的特定属性值与所述目标数据库表的特定属性的对应属性值之间是否符合所述确定的数据映射关系; 判断所述至少一个源数据库表的至少一个其他属性的特定属性值是否具有所述目标数据库表的特定属性的对应属性值; 判断所述目标数据库表的特定属性的特定属性值是否具有所述至少一个源数据库表的至少一个其他属性的对应属性值。11.一种用于确定源数据库表和目标数据库表之间的数据映射关...
【专利技术属性】
技术研发人员:谈华芳,朱俊,高雪峰,鞠琳,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市: