确定源数据与标准数据的映射关系的方法、系统和介质技术方案

技术编号:30968905 阅读:12 留言:0更新日期:2021-11-25 20:44
本发明专利技术涉及数据处理技术领域,具体提供一种用于在数据标准化过程中确定源数据与标准数据的映射关系的方法、系统和介质,旨在解决从源数据到标准数据匹配映射关系时需要大量人力和时间进行数据浏览和逻辑分析的问题。为此目的,本发明专利技术的方法包括:设置标准数据表的数据标准;基于所述数据标准,计算源数据与标准数据之间的数据相似度,通过分析数据相似度来确定源数据与标准数据的数据映射关系。通过上述步骤,本发明专利技术能自主高效地完成在数据标准化过程中源数据与标准数据映射关系的探查,减少错误映射关系发生的概率,减少数据映射工作的人力投入、缩短人工处理时间,让工程师可以把精力集中到结果校对、报表分析等工作中。报表分析等工作中。报表分析等工作中。

【技术实现步骤摘要】
确定源数据与标准数据的映射关系的方法、系统和介质


[0001]本专利技术涉及数据处理技术,具体提供一种用于在数据标准化过程中 确定源数据与标准数据的映射关系的方法。

技术介绍

[0002]数据标准化是提炼数据价值和降低应用成本的重要手段。数据标准化即 根据国家标准、行业标准和团体标准等对海量源数据进行统一命名和规范。 必要的流程为在源数据表和标准数据表之间建立数据映射关系,然后让计算 机根据数据映射关系统一表名和字段名、规范取值内容。上述过程的实施主 要面临如下问题:
[0003]从源数据表到标准数据表映射时,映射关系的确定需要大量人力进行数 据浏览和逻辑分析。例如:某项目需要建立标准数据表30张,而源数据库 中有500张源数据表,平均每张源数据表有20个字段,这500张源数据表总 计有10000个字段,人工浏览和分析完这些数据不仅耗费时间巨大,还极易 因人的工作负荷过大而产生错误映射关系的标注,导致再消耗大量的人力和 时间成本来纠错。

技术实现思路

[0004]本专利技术旨在解决上述技术问题,即,解决现有从源数据表到标准数据 表映射关系的确定需要大量人力和时间进行数据浏览和逻辑分析的问题。
[0005]在第一方面,本专利技术提供一种用于在数据标准化过程中确定源数据与 标准数据的映射关系的方法,该方法包括:
[0006]设置标准数据表的数据标准;
[0007]基于所述数据标准,计算源数据与标准数据的数据相似度;
[0008]通过分析所述数据相似度来确定源数据与标准数据的映射关系。
[0009]其中,计算源数据与标准数据的数据相似度包括以下内容:
[0010]基于所述数据标准,计算源数据表与标准数据表间的表名相似度;
[0011]基于所述数据标准,计算源数据表与标准数据表间每个字段的字段 相似度;
[0012]通过对所述表名相似度和所述字段相似度进行加权计算得到源数据 与标准数据的数据相似度。
[0013]其中,所述表名相似度包括:中文表名相似度、英文表名相似度、 表名关键字相似度中的至少一项。
[0014]其中,所述字段相似度包括:字段名相似度、取值类型相似度、取 值最大长度相似度、取值内容相似度、取值约束性规则相似度中的至少 一项。
[0015]所述字段名相似度还包括:中文字段名相似度、英文字段名相似度、 字段名关键字相似度中的至少一项。
[0016]其中,计算表名相似度的步骤包括:通过将源数据表的表名依次与 标准数据表的表名两两配对,通过相似度模型,计算配对数据间的相似 度,得到表名相似度。
[0017]其中,计算字段相似度的步骤包括:通过将每张源数据表的各字段 依次与标准数据表中各字段两两配对,通过相似度模型计算配对数据间 的相似度,得到字段相似度。
[0018]另外,在计算源数据表表名相似度和字段相似度前,本专利技术的方法 还包括:将源数据表和标准数据表的表名和字段名翻译为中文后再进行 相似度比较。
[0019]此外,在上述方法中,源数据为结构化数据。再者,用于在数据标 准化过程中源数据与标准数据映射关系探查的源数据可以为静态数据, 也可以为实时更新的动态数据。
[0020]在第二方面,本专利技术提供一种用于在数据标准化过程中源数据与标准 数据映射关系探查系统该系统包括:
[0021]源数据模块,其用于获取用于映射的源数据;
[0022]标准数据模块,其用于设置标准数据表的数据标准;
[0023]相似度计算模块,其基于所述数据标准计算源数据与标准数据的数据相 似度;
[0024]相似度分析模块,其通过分析所述数据相似度来确定源数据与标准数据 的映射关系。
[0025]在第三方面,本专利技术提供一种计算机可读存储介质,该存储介质中 存储有多条程序代码,该程序代码适于由处理器加载并运行如第一方面 所述的用于在数据标准化过程中确定源数据与标准数据的映射关系的方 法。
[0026]有益技术效果:
[0027]在采用上述技术方案的情况下,本专利技术能利用大数据工程、机器学习 和深度学习等方法,让计算机自主高效地完成在数据标准化过程中源数据 与标准数据映射关系的探查,减少人力投入、缩短人工处理时间,让工程师 可以把精力集中到结果校对、报表分析等工作中,从而减少映射关系的错误 标注。
附图说明
[0028]下面结合附图来描述本专利技术的优选实施方式,附图中:
[0029]图1是用于在数据标准化过程中确定源数据与标准数据的映射关系 的方法的主要步骤流程图;
[0030]图2是用于在数据标准化过程中确定源数据与标准数据的映射关系 的系统的结构图。
具体实施方式
[0031]如上面在
技术介绍
中所述,现有从源数据表到标准数据表映射关系的 确定需要大量人力和时间进行数据浏览和逻辑分析,不仅耗费时间巨大,还 极易因人的工作负荷过大而产生错误映射关系的标注,导致再消耗大量的人 力和时间成本来纠错。针对以上问题,本申请提供一种用于在数据标准化 过程中确定源数据与标准数据的映射关系的方法。
[0032]下面结合具体实施例详细描述本专利技术的实施方案。本领域技术人员 应当理解的是,这些实施方式是示例性的,仅仅用于解释本专利技术的技术 原理,并非旨在限制本专利技术的保护范围。
[0033]在本专利技术的描述中,“模块”、“处理器”可以包括硬件、软件或者两 者的组合。一个模块可以包括硬件电路,各种合适的感应器、通信端口、 存储器,也可以包括软件部分,比
如程序代码,也可以是软件和硬件的 组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处 理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。 处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非 暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质, 比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术 语“A和/或B”表示所有可能的A与B的组合,比如只是A、只是B或 者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义 与“A和/或B”类似,可以包括只是A、只是B或者A和B。单数形式 的术语“一个”、“这个”也可以包含复数形式。
[0034]本专利技术的技术方案的实现原理为:
[0035]设置标准数据表的数据标准,确定源数据的来源和范围,基于所述 数据标准以及所述源数据的来源和范围计算源数据与标准数据之间的数 据相似度,通过分析所述数据相似度来确定源数据与标准数据的映射关 系。
[0036]其中,本专利技术在计算相似度时使用的是transformer模型,包括但不 限于bert,gpt,erine等模型。
[0037]下面通过举例说明本专利技术的实现原理:
[0038]例如表1和表2所示,源数据表A包括A1和A2两个字段;标准数 据表B包括B1和B2两个字段。
[0039]表1、源数据表A
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于在数据标准化过程中确定源数据与标准数据的映射关系的方法,其特征在于,包括以下步骤:S1:设置标准数据表的数据标准;S2:基于所述数据标准,计算源数据与标准数据的数据相似度;S3:通过分析所述数据相似度来确定源数据与标准数据的映射关系。2.根据权利要求1所述的用于在数据标准化过程中确定源数据与标准数据的映射关系的方法,其特征在于,步骤S2包括:S21:基于所述数据标准,计算源数据表与标准数据表间的表名相似度;S22:基于所述数据标准,计算源数据表与标准数据表间各字段的字段相似度;S23:通过对所述表名相似度和所述字段相似度进行加权计算得到源数据与标准数据的数据相似度。3.根据权利要求2所述的用于在数据标准化过程中确定源数据与标准数据的映射关系的方法,其特征在于,在步骤S21中,所述表名相似度包括:中文表名相似度、英文表名相似度、表名关键字相似度中的至少一项。4.根据权利要求2所述的用于在数据标准化过程中确定源数据与标准数据的映射关系的方法,其特征在于,在步骤S22中,所述字段相似度包括:字段名相似度、取值类型相似度、取值最大长度相似度、取值内容相似度、取值约束性规则相似度中的至少一项;其中,所述字段名相似度包括:中文字段名相似度、英文字段名相似度、字段名关键字相似度中的至少一项。5.根据权利要求2所述的用于在数据标准化过程中确定源数据与标准数据的映射关系的方法,其特征在于,步骤S21包括:通过将...

【专利技术属性】
技术研发人员:邱凌峰张泽宇
申请(专利权)人:云从科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1