基于大数据和人工智能的数据映射及其纠错方法技术

技术编号：33394363 阅读：25 留言：0更新日期：2022-05-11 23:13

本发明专利技术涉及基于大数据和人工智能的数据映射及其纠错方法，其技术方案要点是：所述方法包括：对数据源和目的端的表名、字段名进行语义识别，得到数据源语义和目的端语义；对每个数据源的每个字段的语义和目的端的所有字段的语义进行相似度比对，得到对应数据源的每个字段的语义相似度列表；根据所述语义相似度列表从映射规则集中确定该数据源与目的端的映射关系；将所有映射关系存储至映射关系库中；判断映射关系库中的所有映射关系是否合理，若不合理，则发出告警并等待人工干预；将人工干预后确认的映射关系纳入映射规则集中；本申请具有提升数据映射的效率以及准确性的优点。点。

全部详细技术资料下载

【技术实现步骤摘要】
基于大数据和人工智能的数据映射及其纠错方法

[0001]本专利技术涉及数据映射
，更具体地说，它涉及基于大数据和人工智能的数据映射及其纠错方法。

技术介绍

[0002]在数据采集的过程中，一种比较通用的做法是被采集对象将需要被采集的数据上传到前置数据库或者文件服务器上，采集平台通过大数据采集引擎将数据转换采集到存储中心，在这个过程中，需要建立数据源和目的端之间数据的映射关系，这样才能有效地将数据从数据源采集到中心数据库。
[0003]对于数据映射关系的建立，传统的做法往往是通过人工建立数据与数据的映射关系，而对于数据源和目的端数据结构比较一致的情况，也可以通过索引或者字段名来自动建立映射关系，但这样的方式有一定的局限性，也容易引发因为人工操作失误或者表名，字段名之间差异性相对较大导致自动映射失败或者出错的问题。同时，因为缺乏有效的检测机制，但映射关系存在错误导致数据采集出错的时候也很难及时发现从而引发数据错乱导致最终结果不可用，不可信。

技术实现思路

[0004]针对现有技术存在的不足，本专利技...

【技术保护点】

【技术特征摘要】
1.基于大数据和人工智能的数据映射方法，其特征在于，包括：对数据源和目的端的表名、字段名进行语义识别，得到数据源语义和目的端语义；对每个数据源的每个字段的语义和目的端的所有字段的语义进行相似度比对，得到对应数据源的每个字段的语义相似度列表；根据所述语义相似度列表从映射规则集中确定该数据源与目的端的映射关系；将所有映射关系存储至映射关系库中。2.根据权利要求1所述的数据映射方法，其特征在于，所述根据所述语义相似度列表从映射规则集中确定该数据源与目的端的映射关系，包括：将每个字段的语义相似度列表中各个字段的相似度得分从高到低进行排序；根据语义相似度列表中从高到底的排序判断数据源的字段与目的端的字段的数据类型是否匹配；若匹配，则将相似度最高的目的端字段作为数据源对应字段的目的端；根据该目的端和数据源对应的字段建立映射关系。3.根据权利要求2所述的数据映射方法，其特征在于，所述根据该目的端和数据源对应的字段建立映射关系，包括：判断该目的端的字段与数据源对应的字段的相似度是否达到预设相似度阈值；若未达到阈值，则判断映射规则集中是否存在相同的目的端的字段与数据源对应的字段的映射关系，若存在，则采用映射规则集中的映射方式建立映射关系；若达到阈值，则判断映射规则集中是否存在相等的映射关系表；若存在，则获取该数据集的预设优先方式，根据预设优先方式建立映射关系；若不存在，则使用该目的端的字段与数据源对应的字段建立映射关系。4.根据权利要求3所述的数据映射方法，其特征在于，所述根据预设优先方式建立映射关系，包括：识别预设优先方式内容，若该数据集采用映射规则集优先方式，则根据映射规则集中相等的映射关系表建立映射关系；若该数据集采用相似度优先方式，则使用该目的端的字段与数据源对应的字段建立映射关系。5.根据权利要求1所述的数据映射方法...

【专利技术属性】
技术研发人员：刘洋，黎曦，李延民，
申请(专利权)人：广州慧扬健康科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人