一种多源异构数据字典对齐的方法技术

技术编号：31578049 阅读：50 留言：0更新日期：2021-12-25 11:20

本发明专利技术涉及一种多源异构数据字典对齐的方法，属于大数据领域。本发明专利技术包括选择源数据库，选择源表，选择作为标准的源字段；选择目标数据库，选择目标表，选择需要对齐的目标字段；选择源表中的数据值；直接选择目数据表中的数据值或者通过算法智能筛选出目标表中的数据值，算法包括但不限于：余弦相似度匹配、编辑距离匹配、经纬度距离匹配、分类编码匹配、时间日期匹配；如果需要将目标表中的数据值扩充到源表中，开启扩充，将该数据值扩充到源表中；匹配成功查看匹配结果。本发明专利技术操作简单，匹配的结果也是一目了然，数据字典对齐后也让具体数据值的展现为统一的数据值。值的展现为统一的数据值。值的展现为统一的数据值。

全部详细技术资料下载

【技术实现步骤摘要】
一种多源异构数据字典对齐的方法

[0001]本专利技术属于大数据领域，具体涉及一种多源异构数据字典对齐的方法，确切说，涉及一种利用源数据库中的表标准字段值与目标数据中的表字段值，通过直接选定或者一些算法智能将目标表中的数据与标准的字段值进行匹配。

技术介绍

[0002]随着大数据的发展，数据归集已然成为大数据平台中不可缺少的一环，而数据归集的过程中会将不同地方的数据源的数据合并到一起，因不同地方的数据源有可能会出现自己的数据标准，数据标准标注了某些数据值用的字典，所以，会因为不同地方的数据标准产生具有相同数据含义的数据值却对应的数据值不同。
[0003]例如：代表人的性别的值：有的地方使用0代表男性，1代表了女性，而有的地方使用M代表了男性，F代表了女性，而有的地方使用相似的值代表了男性女性。不同的数据值，让我们在数据归集时，会将不匹配的数据值遗漏掉，在数据展示时给人们展示出不可读的代码。
[0004]在很多工作中，可能会将字典值进行自己定义自己统一，以自己的标准，通过改变字段值的方式，转换成自己标准的值。这...

【技术保护点】

【技术特征摘要】
1.一种多源异构数据字典对齐的方法，其特征在于，该方法包括如下步骤：S1、选择源数据库，选择源表，选择作为标准的源字段；S2、选择目标数据库，选择目标表，选择需要对齐的目标字段；S3、选择源表中源字段的数据值；S4、直接选择目标表中目标字段的数据值或者通过算法筛选出目标表中目标字段的数据值；S5、如果需要将目标表中目标字段的数据值扩充到源表中，开启扩充，将目标表中目标字段的数据值扩充到源表中；S6、匹配成功查看匹配结果。2.如权利要求1所述的多源异构数据字典对齐的方法，其特征在于，所述步骤S1具体包括：选择作为字典表的源数据库并选择该库中的表，选择该表中的具体的字段。3.如权利要求1所述的多源异构数据字典对齐的方法，其特征在于，所述步骤S2具体包括：选择需要对齐的目标数据库，选择该库中的表，选择该表中的具体的字段。4.如权利要求1
‑
3任一项所述的多源异构数据字典对齐的方法，其特征在于，所述步骤S3具体包括：依次选择源表中的源字段的某条数据值。5.如权利要求4所述的多源异构数据字典对齐的方法，其特征在于，所述步骤S4具体包括：直接选择目标表中目标字段的数据值，或者在无法直接选择时，设置阈值，然后通过几种算法算出源字段的数据值和目标字段的数据值的相似度，筛选出符合阈值的目标表中目标字段的数据值，算法包括但不限于余弦相似度匹配、编辑距离匹配、经纬度距离匹配、分类编码匹配和时间日期匹配。6.如权利要求5所述的多源异构数据字典对齐的方法，其特征在于，所述余弦相似...

【专利技术属性】
技术研发人员：贾少敏，余增文，张东，
申请(专利权)人：北京计算机技术及应用研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人