【技术实现步骤摘要】
确定源数据与标准数据的映射关系的方法、系统和介质
[0001]本专利技术涉及数据处理技术,具体提供一种用于在数据标准化过程中 确定源数据与标准数据的映射关系的方法。
技术介绍
[0002]数据标准化是提炼数据价值和降低应用成本的重要手段。数据标准化即 根据国家标准、行业标准和团体标准等对海量源数据进行统一命名和规范。 必要的流程为在源数据表和标准数据表之间建立数据映射关系,然后让计算 机根据数据映射关系统一表名和字段名、规范取值内容。上述过程的实施主 要面临如下问题:
[0003]从源数据表到标准数据表映射时,映射关系的确定需要大量人力进行数 据浏览和逻辑分析。例如:某项目需要建立标准数据表30张,而源数据库 中有500张源数据表,平均每张源数据表有20个字段,这500张源数据表总 计有10000个字段,人工浏览和分析完这些数据不仅耗费时间巨大,还极易 因人的工作负荷过大而产生错误映射关系的标注,导致再消耗大量的人力和 时间成本来纠错。
技术实现思路
[0004]本专利技术旨在解决上述技术问题,即,解 ...
【技术保护点】
【技术特征摘要】
1.一种用于在数据标准化过程中确定源数据与标准数据的映射关系的方法,其特征在于,包括以下步骤:S1:设置标准数据表的数据标准;S2:基于所述数据标准,计算源数据与标准数据的数据相似度;S3:通过分析所述数据相似度来确定源数据与标准数据的映射关系。2.根据权利要求1所述的用于在数据标准化过程中确定源数据与标准数据的映射关系的方法,其特征在于,步骤S2包括:S21:基于所述数据标准,计算源数据表与标准数据表间的表名相似度;S22:基于所述数据标准,计算源数据表与标准数据表间各字段的字段相似度;S23:通过对所述表名相似度和所述字段相似度进行加权计算得到源数据与标准数据的数据相似度。3.根据权利要求2所述的用于在数据标准化过程中确定源数据与标准数据的映射关系的方法,其特征在于,在步骤S21中,所述表名相似度包括:中文表名相似度、英文表名相似度、表名关键字相似度中的至少一项。4.根据权利要求2所述的用于在数据标准化过程中确定源数据与标准数据的映射关系的方法,其特征在于,在步骤S22中,所述字段相似度包括:字段名相似度、取值类型相似度、取值最大长度相似度、取值内容相似度、取值约束性规则相似度中的至少一项;其中,所述字段名相似度包括:中文字段名相似度、英文字段名相似度、字段名关键字相似度中的至少一项。5.根据权利要求2所述的用于在数据标准化过程中确定源数据与标准数据的映射关系的方法,其特征在于,步骤S21包括:通过将...
【专利技术属性】
技术研发人员:邱凌峰,张泽宇,
申请(专利权)人:云从科技集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。