数据导入处理方法及数据处理装置制造方法及图纸

技术编号:9113484 阅读:141 留言:0更新日期:2013-09-05 02:40
本发明专利技术公开了一种数据导入处理方法及数据处理装置。该方法包括:获取待导入的源数据、源数据模型与目标数据模型;建立源数据模型与目标数据模型的映射关系,将获取的源数据按照建立的映射关系进行转换;获取预先设置的目标数据模型业务规则,对转换后的源数据进行过滤处理;计算过滤处理后源数据与目标数据之间的全局相似度,删除全局相似度值大于预先设置的相似度阈值的源数据,并将经相似度处理的符合相似度条件的源数据导入至目标数据库的数据表中。应用本发明专利技术,可以提升存储的数据的一致性、提高存储效率,减少数据冗余。

【技术实现步骤摘要】
数据导入处理方法及数据处理装置
本专利技术涉及数据处理技术,尤其涉及一种数据导入处理方法及数据处理装置。
技术介绍
随着因特网/内部网(Internet/Intranet)的快速发展以及数据库技术的广泛应用,各行业应用生成的数据量也越来越多。其中,通过数据库技术,存储生成的海量数据,可以对数据进行备份,并便于后续对存储的数据进行数据分析和维护;而通过Internet/Intranet,可以实现各行业应用数据的资源共享。现有技术中,数据库可以采用不同的数据结构存储数据,因而,各数据库之间,存储的数据的数据结构不相同,称为异构数据,如何使各数据库之间的异构数据经过数据处理,能够实现相互转换,从而提高资源共享或再利用的效率,已成为目前急需解决的技术问题。为实现不同数据库中异构数据的共享或再利用,数据导入技术被广泛应用,逐渐成为一种关键的数据处理技术,下面进行简要描述。进行数据导入时,涉及到两个对象,即源数据与目标数据,其中,源数据以数据表的形式存储在源数据库中,不同的源数据库中的数据表,具有不同的数据表属性,存储有不同数据表属性的源数据,数据表属性可以是各种类型的文件;目标数据存储在目标数据库中,目标数据库用于接收各种类型的源数据,进行相应处理后存储至数据表中,数据表属性具有特定的数据类型、业务规则以及数据模型。在数据导入中,一般要求目标数据库中需要包含与源数据模型相同的数据表,这样,在通过复制方式导入源数据后,目标数据库就可以将接收的源数据存放在与源数据模型相同的数据表中,即可完成数据的导入。但实际应用中,由于可以从多个源数据库中进行数据的导入,使得导入目标数据库中的数据会出现重复数据、垃圾数据、空值、错误数据等,甚至由于源数据表属性与目标数据库中数据表属性不兼容,从而导致源数据导入失败等多种技术问题。由上述可见,现有基于数据导入的数据处理方法,在源数据表属性与目标数据库中数据表属性兼容的情况下,将包含源数据的源数据表通过复制,复制到目标数据库的数据表中;而在源数据表属性与目标数据库中数据表属性不兼容的情况下,将包含源数据的源数据表作为新数据表,插入到目标数据库中,这样,没有考虑对源数据进行数据处理,使得目标数据库中导入的数据产生冗余,以及,将不符合目标数据库中数据表属性要求的垃圾数据以及重复数据导入到目标数据库中,导致目标数据库中存储的数据的一致性较差,存储效率较低;进一步地,目标数据中包含有不同数据表属性的数据,影响目标数据库的性能,甚至导致目标数据库不能正常运行。
技术实现思路
本专利技术的实施例提供一种数据导入处理方法,提升存储的数据的一致性、提高存储效率。本专利技术的实施例还提供一种数据处理装置,提升存储的数据的一致性、提高存储效率。为达到上述目的,本专利技术实施例提供的一种数据导入处理方法,包括:获取待导入的源数据、源数据模型与目标数据模型;建立源数据模型与目标数据模型的映射关系,将获取的源数据按照建立的映射关系进行转换;获取预先设置的目标数据模型业务规则,对转换后的源数据进行过滤处理;计算过滤处理后源数据与目标数据之间的全局相似度,删除全局相似度值大于预先设置的相似度阈值的源数据,并将经相似度处理符合相似度条件的源数据导入至目标数据库的数据表中。其中,所述建立源数据模型与目标数据模型的映射关系包括:获取源数据模型中属性项的源关键词;获取目标数据模型中属性项的目标关键词;将获取的源关键词,依序遍历匹配目标关键词,获取与源关键词匹配的目标关键词;根据源关键词匹配的目标关键词,建立将源数据模型转换为目标数据模型的映射关系。其中,所述数据模型是指数据结构,数据操作及数据约束,其中数据存储格式包括:数据表、EXEL表、可扩展标记语言以及文本。其中,一所述源关键词唯一匹配一目标关键词,或,一所述源关键词匹配多个目标关键词,或,多个所述源关键词匹配同一目标关键词,或,所述源关键词没有与之匹配的目标关键词。其中,所述根据源关键词匹配的目标关键词,建立将源数据模型转换为目标数据模型的映射关系包括:根据目标数据模型的属性项,对匹配的源数据模型的属性项进行拆分、合并以及数据归一处理,将源数据模型映射至目标数据模型。其中,所述目标数据模型业务规则设置有多条,所述对转换后的源数据进行过滤处理包括:如果源数据不满足多条业务规则中的任意一条,则将该源数据执行过滤处理。其中,采用最近邻相似度算法计算所述全局相似度。其中,计算所述全局相似度的公式为:式中,sim(X,Y)表示数据表中源数据记录X与目标数据记录Y的全局相似度;xi和yi分别为记录源数据X和目标数据记录Y的第i个属性;wi表示第i个属性的权重,i=1,2,3,…,n,n为记录中属性的个数。其中,dist(xi,yi)=|xi-yi|/|maxi-mini|式中,maxi,mini分别表示记录的第i个属性的最大值、最小值。一种数据处理装置,该装置包括:源数据获取模块、映射关系构建模块、过滤模块以及相似度处理模块,其中,源数据获取模块,用于获取待导入的源数据、源数据模型与目标数据模型,输出至源数据获取模块;映射关系构建模块,用于根据源数据获取模块的输出,建立源数据模型与目标数据模型的映射关系,将获取的源数据按照建立的映射关系进行转换,输出至过滤模块;过滤模块,用于获取预先设置的目标数据模型业务规则,对接收的转换后的源数据进行过滤处理,输出至相似度处理模块;相似度处理模块,用于计算过滤处理后源数据与目标数据之间的全局相似度,删除全局相似度值大于预先设置的相似度阈值的源数据,并将经相似度处理符合相似度条件的源数据导入至目标数据库的数据表中。较佳地,所述映射关系构建模块包括:源关键词获取单元、目标关键词获取单元、匹配单元以及映射关系构建单元,其中,源关键词获取单元,用于获取源数据模型中属性项的源关键词;目标关键词获取单元,用于获取目标数据模型中属性项的目标关键词;匹配单元,用于根据源关键词获取单元获取的源关键词,依序遍历匹配目标关键词获取单元获取的目标关键词,获取与源关键词匹配的目标关键词;映射关系构建单元,用于根据源关键词匹配的目标关键词,建立将源数据模型转换为目标数据模型的映射关系。较佳地,所述相似度处理模块包括:相似度数据获取单元、属性权重分配单元、最近邻相似度算法计算单元、全局相似度计算单元以及相似度处理单元,其中,相似度数据获取单元,用于获取计算全局相似度的源数据以及目标数据;属性权重分配单元,用于为相似度数据获取单元中的源数据的属性项配置权重系数,输出至全局相似度计算单元;最近邻相似度算法计算单元,用于计算源数据与目标数据中对应属性项之间的局部相似度,输出至全局相似度计算单元;全局相似度计算单元,用于根据属性权重分配单元以及最近邻相似度算法计算单元的输出,依据全局相似度计算公式计算源数据与目标数据之间的全局相似度值,输出至相似度处理单元;相似度处理单元,用于判断接收的全局相似度值是否大于预先设置的相似度阈值,如果是,删除大于预先设置的相似度阈值的源数据,并将经相似度处理符合相似度条件的源数据导入至目标数据库的数据表中;如果否,将符合相似度条件的源数据导入至目标数据库的数据表中。较佳地,所述全局相似度计算公式为:式中,sim(X,Y)表示数据表中源数据记录X与目标数据本文档来自技高网
...
数据导入处理方法及数据处理装置

【技术保护点】
一种数据导入处理方法,包括:获取待导入的源数据、源数据模型与目标数据模型;建立源数据模型与目标数据模型的映射关系,将获取的源数据按照建立的映射关系进行转换;获取预先设置的目标数据模型业务规则,对转换后的源数据进行过滤处理;计算过滤处理后源数据与目标数据之间的全局相似度,删除全局相似度值大于预先设置的相似度阈值的源数据,并将经相似度处理符合相似度条件的源数据导入至目标数据库的数据表中。

【技术特征摘要】
1.一种数据导入处理方法,包括:获取待导入的源数据、源数据模型与目标数据模型;建立源数据模型与目标数据模型的映射关系,将获取的源数据按照建立的映射关系进行转换;获取预先设置的目标数据模型业务规则,对转换后的源数据进行过滤处理;其中,所述目标数据模型业务规则设置有多条,所述对转换后的源数据进行过滤处理包括:如果源数据不满足多条业务规则中的任意一条,则将该源数据执行过滤处理;计算过滤处理后源数据与目标数据之间的全局相似度,删除全局相似度值大于预先设置的相似度阈值的源数据,并将经相似度处理符合相似度条件的源数据导入至目标数据库的数据表中;所述建立源数据模型与目标数据模型的映射关系包括:获取源数据模型中属性项的源关键词;获取目标数据模型中属性项的目标关键词;将获取的源关键词,依序遍历匹配目标关键词,获取与源关键词匹配的目标关键词;根据源关键词匹配的目标关键词,建立将源数据模型转换为目标数据模型的映射关系。2.根据权利要求1所述的方法,其中,所述源数据模型和目标数据模型中的每一个包括:数据表、EXEL表、可扩展标记语言以及文本。3.根据权利要求2所述的方法,其中,一所述源关键词唯一匹配一目标关键词,或一所述源关键词匹配多个目标关键词,或多个所述源关键词匹配同一目标关键词,或所述源关键词没有与之匹配的目标关键词。4.根据权利要求3所述的方法,其中,所述根据源关键词匹配的目标关键词,建立将源数据模型转换为目标数据模型的映射关系包括:根据目标数据模型的属性项,对匹配的源数据模型的属性项进行拆分、合并以及数据归一处理,将源数据模型映射至目标数据模型。5.根据权利要求1所述的方法,其中,采用最近邻相似度算法中海明距离计算所述全局相似度。6.根据权利要求5所述的方法,其中,计算所述全局相似度的公式为:式中,sim(X,Y)表示数据表中源数据记录X与目标数据记录Y的全局相似度;xi和yi分别为源数据记录X和目标数据记录Y的第i个属性;wi表示第i个属性的权重,i=1,2,3,…,n,n为记录中属性的个数;其中,dist(xi,yi)=|xi-yi|/|maxi-mini|式中,maxi,mini分别表示记录的第i个属性的最大值、最小值。7.一种数据处理装置,其特征在于,该装置包括:源数据获取模块、映射关系构建模块、过滤模块以及相似度处理模块,其中,源数据获取模块,用于获取待导入的源数据、源数据模型与目标数据模型,输出至源数据获取模块;映射关系构建模块,用于根据源数据获取模块的输出,建立源数据模型与目标数据模型的映射关系,将获取的源数据按照建立的映射关系进...

【专利技术属性】
技术研发人员:孙秋峰傅永财李淑惠宁江郑扬飞徐超郭红钰何岩王非刘玉龙
申请(专利权)人:中国电子科技集团公司第十五研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1