确定源数据与标准数据的映射关系的方法、系统和介质技术方案

技术编号：30968905 阅读：23 留言：0更新日期：2021-11-25 20:44

本发明专利技术涉及数据处理技术领域，具体提供一种用于在数据标准化过程中确定源数据与标准数据的映射关系的方法、系统和介质，旨在解决从源数据到标准数据匹配映射关系时需要大量人力和时间进行数据浏览和逻辑分析的问题。为此目的，本发明专利技术的方法包括：设置标准数据表的数据标准；基于所述数据标准，计算源数据与标准数据之间的数据相似度，通过分析数据相似度来确定源数据与标准数据的数据映射关系。通过上述步骤，本发明专利技术能自主高效地完成在数据标准化过程中源数据与标准数据映射关系的探查，减少错误映射关系发生的概率，减少数据映射工作的人力投入、缩短人工处理时间，让工程师可以把精力集中到结果校对、报表分析等工作中。报表分析等工作中。报表分析等工作中。

全部详细技术资料下载

【技术实现步骤摘要】
确定源数据与标准数据的映射关系的方法、系统和介质

[0001]本专利技术涉及数据处理技术，具体提供一种用于在数据标准化过程中确定源数据与标准数据的映射关系的方法。

技术介绍

[0002]数据标准化是提炼数据价值和降低应用成本的重要手段。数据标准化即根据国家标准、行业标准和团体标准等对海量源数据进行统一命名和规范。必要的流程为在源数据表和标准数据表之间建立数据映射关系，然后让计算机根据数据映射关系统一表名和字段名、规范取值内容。上述过程的实施主要面临如下问题：
[0003]从源数据表到标准数据表映射时，映射关系的确定需要大量人力进行数据浏览和逻辑分析。例如：某项目需要建立标准数据表30张，而源数据库中有500张源数据表，平均每张源数据表有20个字段，这500张源数据表总计有10000个字段，人工浏览和分析完这些数据不仅耗费时间巨大，还极易因人的工作负荷过大而产生错误映射关系的标注，导致再消耗大量的人力和时间成本来纠错。

技术实现思路

[0004]本专利技术旨在解决上述技术问题，即，解...

【技术保护点】

【技术特征摘要】
1.一种用于在数据标准化过程中确定源数据与标准数据的映射关系的方法，其特征在于，包括以下步骤：S1：设置标准数据表的数据标准；S2：基于所述数据标准，计算源数据与标准数据的数据相似度；S3：通过分析所述数据相似度来确定源数据与标准数据的映射关系。2.根据权利要求1所述的用于在数据标准化过程中确定源数据与标准数据的映射关系的方法，其特征在于，步骤S2包括：S21：基于所述数据标准，计算源数据表与标准数据表间的表名相似度；S22：基于所述数据标准，计算源数据表与标准数据表间各字段的字段相似度；S23：通过对所述表名相似度和所述字段相似度进行加权计算得到源数据与标准数据的数据相似度。3.根据权利要求2所述的用于在数据标准化过程中确定源数据与标准数据的映射关系的方法，其特征在于，在步骤S21中，所述表名相似度包括：中文表名相似度、英文表名相似度、表名关键字相似度中的至少一项。4.根据权利要求2所述的用于在数据标准化过程中确定源数据与标准数据的映射关系的方法，其特征在于，在步骤S22中，所述字段相似度包括：字段名相似度、取值类型相似度、取值最大长度相似度、取值内容相似度、取值约束性规则相似度中的至少一项；其中，所述字段名相似度包括：中文字段名相似度、英文字段名相似度、字段名关键字相似度中的至少一项。5.根据权利要求2所述的用于在数据标准化过程中确定源数据与标准数据的映射关系的方法，其特征在于，步骤S21包括：通过将...

【专利技术属性】
技术研发人员：邱凌峰，张泽宇，
申请(专利权)人：云从科技集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人