一种数据列映射方法及系统技术方案

技术编号：15704891 阅读：97 留言：0更新日期：2017-06-26 10:16

本发明专利技术公开了一种数据列映射方法及系统，其中，方法包括：获取源数据库与目标数据库表和列的特征信息；将获取的特征信息文本化；将文本化的特征信息转化为矢量；抽取部分源数据库列与目标数据库列的组合形成样本集合；对样本集合中的源数据库列与目标数据库列的特征信息矢量进行相似度计算并进行匹配判断；基于上述相似度计算结果及匹配判断结果，生成贝叶斯分类器；将上述贝叶斯分类器应用于所有的源数据库列与目标数据库列组合。本发明专利技术可以实现自动化的数据库列映射，提高工作效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据列映射方法及系统
本专利技术涉及数据映射
，更具体地，涉及一种数据列映射方法及系统。
技术介绍
总所周知，数据库尤其是关系型数据库中数据是以表(Table)的形式组织，而每个数据库表又是按行(Rows)和列(Columns)组织的。其中列也被称作字段，每个字段都有一个具体的类型。数据库表中的每一行都代表一条具体的数据，每一条数据正是由上述字段组成。在数据处理任务中，往往会涉及到源数据库到目标数据库的映射和整合，而由于源数据库和目标数据库往往具备不同的数据库模式(Scheme)，就是说两个数据库的数据库表及列结构往往是不一样的，因此就需要将源数据库的表和列结构映射到目标数据库的表和列结构上。而由于数据库表的结构由列组成，因此我们可以将这个任务看作是从源数据库列结构到目标数据库列结构的映射。传统上，这个任务基本上是由数据专家人工完成，耗时长，费用高。
技术实现思路
针对现有技术中存在的问题，本专利技术的目的在于设计一种数据列映射方法及系统，解决源数据库列结构到目标数据库列结构的映射需耗费时间长，成本高的问题。为达到上述技术目的，本专利技术的技术方案提供一种数...

【技术保护点】
一种数据列映射方法，其特征在于，包括如下步骤：S1、获取源数据库与目标数据库表和列的特征信息；S2、将获取的特征信息文本化；S3、将文本化的特征信息转化为矢量；S4、抽取部分源数据库列与目标数据库列的组合形成样本集合；S5、对样本集合中的源数据库列与目标数据库列的特征信息矢量进行相似度计算并进行匹配判断；S6、基于上述相似度计算结果及匹配判断结果，生成贝叶斯分类器；S7、将上述贝叶斯分类器应用于所有的源数据库列与目标数据库列组合。

【技术特征摘要】
1.一种数据列映射方法，其特征在于，包括如下步骤：S1、获取源数据库与目标数据库表和列的特征信息；S2、将获取的特征信息文本化；S3、将文本化的特征信息转化为矢量；S4、抽取部分源数据库列与目标数据库列的组合形成样本集合；S5、对样本集合中的源数据库列与目标数据库列的特征信息矢量进行相似度计算并进行匹配判断；S6、基于上述相似度计算结果及匹配判断结果，生成贝叶斯分类器；S7、将上述贝叶斯分类器应用于所有的源数据库列与目标数据库列组合。2.根据权利要求1所述的数据列映射方法，其特征在于，步骤S1中：获取的特征信息包括但不限于：数据库表名、数据库表描述信息、数据库列名、数据库列描述信息、数据库列类型、数据库列的数据抽样。3.根据权利要求2所述的数据列映射方法，其特征在于，步骤S3中包括如下步骤：S31、将文本化的特征信息转换为由一系列词组成的词集合；S32、使用Ngram算法将上述词集合转化为一个由ngram元祖组成的文本矢量；S33、使用TF-IDF算法计算上述文本矢量中每个元素的权重，并得到一个权重矢量。4.根据权利要求3所述的数据列映射方法，其特征在于，步骤S4中：所述样本集合中包含的每个成员都是由一个源数据库列和一个目标数据库列形成的组合，其每个成员都包含所述步骤S33中计算的权重矢量。5.根据权利要求4所述的数据列映射方法，其特征在于，步骤S5中：使用余弦相似度算法计算源数据库列与目标数据库列对应特征信息权重矢量之间的相似度，并对源数据库列和目标数据库列进行匹配判断。6.根据权利要求5...

【专利技术属性】
技术研发人员：陈磊，
申请(专利权)人：武汉翼海云峰科技有限公司，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人