数据导入处理方法及数据处理装置制造方法及图纸

技术编号：9113484 阅读：141 留言：0更新日期：2013-09-05 02:40

本发明专利技术公开了一种数据导入处理方法及数据处理装置。该方法包括：获取待导入的源数据、源数据模型与目标数据模型；建立源数据模型与目标数据模型的映射关系，将获取的源数据按照建立的映射关系进行转换；获取预先设置的目标数据模型业务规则，对转换后的源数据进行过滤处理；计算过滤处理后源数据与目标数据之间的全局相似度，删除全局相似度值大于预先设置的相似度阈值的源数据，并将经相似度处理的符合相似度条件的源数据导入至目标数据库的数据表中。应用本发明专利技术，可以提升存储的数据的一致性、提高存储效率，减少数据冗余。

全部详细技术资料下载

【技术实现步骤摘要】
数据导入处理方法及数据处理装置
本专利技术涉及数据处理技术，尤其涉及一种数据导入处理方法及数据处理装置。
技术介绍
随着因特网/内部网（Internet/Intranet）的快速发展以及数据库技术的广泛应用，各行业应用生成的数据量也越来越多。其中，通过数据库技术，存储生成的海量数据，可以对数据进行备份，并便于后续对存储的数据进行数据分析和维护；而通过Internet/Intranet，可以实现各行业应用数据的资源共享。现有技术中，数据库可以采用不同的数据结构存储数据，因而，各数据库之间，存储的数据的数据结构不相同，称为异构数据，如何使各数据库之间的异构数据经过数据处理，能够实现相互转换，从而提高资源共享或再利用的效率，已成为目前急需解决的技术问题。为实现不同数据库中异构数据的共享或再利用，数据导入技术被广泛应用，逐渐成为一种关键的数据处理技术，下面进行简要描述。进行数据导入时，涉及到两个对象，即源数据与目标数据，其中，源数据以数据表的形式存储在源数据库中，不同的源数据库中的数据表，具有不同的数据表属性，存储有不同数据表属性的源数据，数据表属性可以是各种类型的文件；目标数据存储在目标数据库中，目标数据库用于接收各种类型的源数据，进行相应处理后存储至数据表中，数据表属性具有特定的数据类型、业务规则以及数据模型。在数据导入中，一般要求目标数据库中需要包含与源数据模型相同的数据表，这样，在通过复制方式导入源数据后，目标数据库就可以将接收的源数据存放在与源数据模型相同的数据表中，即可完成数据的导入。但实际应用中，由于可以从多个源数据库中进行数据的导入，使得导入目标数...
数据导入处理方法及数据处理装置

【技术保护点】
一种数据导入处理方法，包括：获取待导入的源数据、源数据模型与目标数据模型；建立源数据模型与目标数据模型的映射关系，将获取的源数据按照建立的映射关系进行转换；获取预先设置的目标数据模型业务规则，对转换后的源数据进行过滤处理；计算过滤处理后源数据与目标数据之间的全局相似度，删除全局相似度值大于预先设置的相似度阈值的源数据，并将经相似度处理符合相似度条件的源数据导入至目标数据库的数据表中。

【技术特征摘要】
1.一种数据导入处理方法，包括：获取待导入的源数据、源数据模型与目标数据模型；建立源数据模型与目标数据模型的映射关系，将获取的源数据按照建立的映射关系进行转换；获取预先设置的目标数据模型业务规则，对转换后的源数据进行过滤处理；其中，所述目标数据模型业务规则设置有多条，所述对转换后的源数据进行过滤处理包括：如果源数据不满足多条业务规则中的任意一条，则将该源数据执行过滤处理；计算过滤处理后源数据与目标数据之间的全局相似度，删除全局相似度值大于预先设置的相似度阈值的源数据，并将经相似度处理符合相似度条件的源数据导入至目标数据库的数据表中；所述建立源数据模型与目标数据模型的映射关系包括：获取源数据模型中属性项的源关键词；获取目标数据模型中属性项的目标关键词；将获取的源关键词，依序遍历匹配目标关键词，获取与源关键词匹配的目标关键词；根据源关键词匹配的目标关键词，建立将源数据模型转换为目标数据模型的映射关系。2.根据权利要求1所述的方法，其中，所述源数据模型和目标数据模型中的每一个包括：数据表、EXEL表、可扩展标记语言以及文本。3.根据权利要求2所述的方法，其中，一所述源关键词唯一匹配一目标关键词，或一所述源关键词匹配多个目标关键词，或多个所述源关键词匹配同一目标关键词，或所述源关键词没有与之匹配的目标关键词。4.根据权利要求3所述的方法，其中，所述根据源关键词匹配的目标关键词，建立将源数据模型转换为目标数据模型的映射关系包括：根据目标数据模型的属性项，对匹配的源数据模型的属性项进行拆分、合并以及数据归一处理，将源数据模型映射至目标数据模型。5.根据权利要求1所述的方法，其中，采用最近邻相似度算法中海明距离计算所述全局相似度。6.根据权利要求5所述的方法，其中，计算所述全局相似度的公式为：式中，sim(X,Y)表示数据表中源数据记录X与目标数据记录Y的全局相似度；xi和yi分别为源数据记录X和目标数据记录Y的第i个属性；wi表示第i个属性的权重，i＝1,2,3,…,n，n为记录中属性的个数；其中，dist(xi,yi)＝|xi-yi|/|maxi-mini|式中，maxi，mini分别表示记录的第i个属性的最大值、最小值。7.一种数据处理装置，其特征在于，该装置包括：源数据获取模块、映射关系构建模块、过滤模块以及相似度处理模块，其中，源数据获取模块，用于获取待导入的源数据、源数据模型与目标数据模型，输出至源数据获取模块；映射关系构建模块，用于根据源数据获取模块的输出，建立源数据模型与目标数据模型的映射关系，将获取的源数据按照建立的映射关系进...

【专利技术属性】
技术研发人员：孙秋峰，傅永财，李淑惠，宁江，郑扬飞，徐超，郭红钰，何岩，王非，刘玉龙，
申请(专利权)人：中国电子科技集团公司第十五研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人