一种数据整理的方法、装置、计算机存储介质及终端制造方法及图纸

技术编号:21184509 阅读:18 留言:0更新日期:2019-05-22 15:07
一种数据整理的方法、装置、计算机存储介质及终端,包括:确定预设的映射库中是否包含与需对标的原始表对应的标准表;预设的映射库中未包含与需对标的原始表对应的标准表时,根据中文表名确定对应于需对标的原始表的标准表;其中,所述映射库中存储有:在前确定的原始表及对应于原始表的标准表。本发明专利技术实施例通过查询映射库,降低了确定与原始表对标的标准表的运算量,提升了对标效率。

A Data Processing Method, Device, Computer Storage Media and Terminal

A method, device, computer storage medium and terminal for data collation includes: determining whether a preset mapping library contains a standard table corresponding to the original table to be paired with the target; determining a standard table corresponding to the original table to be paired with the target according to the Chinese table name when the preset mapping library does not contain a standard table corresponding to the original table to be paired with the target; and storing a standard table in the mapping library. The original table and the standard table corresponding to the original table determined before. The embodiment of the present invention reduces the amount of calculation to determine the standard table to match the original table by querying the mapping library, and improves the efficiency of the standard table.

【技术实现步骤摘要】
一种数据整理的方法、装置、计算机存储介质及终端
本文涉及但不限于信息处理技术,尤指一种数据整理的方法、装置、计算机存储介质及终端。
技术介绍
在数据整理任务中,标准化是提高原始表数据整理效率和质量的一种重要手段。通常在进行正式的数据整理之前,需要根据不同领域中制定的标准构建标准表库。比如,在公安领域,有国标、部标、省标等标准。从原始表到标准表的整理过程通常有以下方法;第一种方法是直接人工定义目标表的字段,包括从原始表抽取相关的字段信息;第二种方法是提前构建一个标准字段库,对原始表进行数据整理的时候从标准字段库查找对应的字段,如果存在,则直接对标;如果不存在,则需要手工新建字段;第三种方法是提前构建标准表库和标准字段库,通过相似度算法寻找与原始表最相似的标准表,进而进行表的对标。上述方法中,第一种方法精度高但效率低下;第二种方法只考虑标准字段并未考虑标准表,而特定领域的数据整理任务都是具有相应的标准的,如公安领域;第三种方法中,如何快速精准地找到标准库中与之对应的标准表,成为影响标准化过程的效率和质量的关键;一般的,基于获得的原始表的原始表名(包括中文名、英文名,由于表英文名不具备统一的命名规范,只用表中文名进行对标),计算原始表名与目标表库中每个标准表的标准表名的相似度。对所有标准表,按照标准表名与原始表名的相似度值,进行从高到低排序,取标准表名与原始表名相似度值最大的标准表作为原始表的标准表。基于这种方法,每个原始表都需要重复计算其原始表名与所有标准表的标准表名相似度,使得整个数据整理过程的效率受制于原始表、标准表库的规模,以及相似度算法的复杂度,影响了数据整理的效率。例如,来源于A的“人口信息表”已经计算出对标于标准表库中的标准表“人口登记信息表”,而来源于B的“人口信息表”可能与A的“人口信息表”具有相同或者极为相似的字段列表,但是仍然需要重新计算该原始表与所有标准表的相似度,造成大量计算资源的浪费,影响数据整理的效率。
技术实现思路
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。本专利技术实施例提供一种数据整理的方法、装置、计算机存储介质及终端,能够降低确定对标于原始表的标准表的计算量,提升数据整理效率。本专利技术实施例提供了一种数据整理的方法,包括:确定预设的映射库中是否包含与需对标的原始表对应的标准表;预设的映射库中未包含与需对标的原始表对应的标准表时,根据中文表名确定对应于需对标的原始表的标准表;其中,所述映射库中存储有:在前确定的原始表及对应于原始表的标准表。可选的,所述确定预设的映射库中是否包含与需对标的原始表对应的标准表包括:查询所述映射库中是否包含第一中文表名与需对标的原始表相同的已存储的原始表;所述映射库中包含第一中文表名与需对标的原始表相同的已存储的原始表时,将已存储的第一中文表名与需对标的原始表相同的已存储的原始表所对应的标准表,作为需对标的原始表所对应的标准表。可选的,所述根据中文表名确定对应于需对标的原始表的标准表包括:获取需对标的原始表的第一中文表名的第一特征向量;获取各种类标准表的第二中文表名的第二特征向量;计算获取的第一特征向量与各第二特征向量的相似度分值;根据计算得到的相似度分值确定与需对标的原始表对应的标准表。可选的,所述获取各种类标准表的第二中文表名的第二特征向量包括:将标准表按照预设的分类策略进行分类后,对各分类中的标准表分别通过以下处理获得对应的第二特征向量:对当前分类的标准表的第二中文表名进行分词处理,获得当前分类标准表的第二中文表名的关键词;对分词获得的第二中文表名的关键词分别进行预处理后,构建当前分类标准表的关键词词库;对当前分类标准表中的各标准表,分别通过词频统计方式确定相应的第二特征向量;其中,所述预处理包括:去除重复词和/或停用词的处理。可选的,所述根据计算得到的相似度分值确定与需对标的原始表对应的标准表包括:按照预设策略从相似度分值大于预设的相似度阈值的标准表中确定其中一个标准表,作为与需对标的原始表对应的标准表。可选的,所述根据中文表名确定与需对标的原始表对应的标准表后,所述方法还包括:在所述映射库中添加确定的与所述需对标的原始表对应的标准表的映射信息。另一方面,本专利技术实施例还提供一种数据整理的装置,包括:判断单元和确定单元;其中,判断单元用于:确定预设的映射库中是否包含与需对标的原始表对应的标准表;确定单元用于:预设的映射库中未包含与需对标的原始表对应的标准表时,根据中文表名确定对应于需对标的原始表的标准表;其中,所述映射库中存储有:在前确定的原始表及对应于原始表的标准表。可选的,所述判断单元用于:查询所述映射库中是否包含第一中文表名与需对标的原始表相同的已存储的原始表;所述映射库中包含第一中文表名与需对标的原始表相同的已存储的原始表时,将已存储的第一中文表名与需对标的原始表相同的已存储的原始表所对应的标准表,作为需对标的原始表所对应的标准表。可选的,所述确定单元具体用于:获取需对标的原始表的第一中文表名的第一特征向量;获取各种类标准表的第二中文表名的第二特征向量;计算获取的第一特征向量与各第二特征向量的相似度分值;根据计算得到的相似度分值确定与需对标的原始表对应的标准表。可选的,所述确定单元用于获取各种类标准表的第二中文表名的第二特征向量包括:将标准表按照预设的分类策略进行分类后,对各分类中的标准表分别通过以下处理获得对应的第二特征向量:对当前分类的标准表的第二中文表名进行分词处理,获得当前分类标准表的第二中文表名的关键词;对分词获得的第二中文表名的关键词分别进行预处理后,构建当前分类标准表的关键词词库;对当前分类标准表中的各标准表,分别通过词频统计方式确定相应的第二特征向量;其中,所述预处理包括:去除重复词和/或停用词的处理。可选的,所述确定单元用于根据计算得到的相似度分值确定与需对标的原始表对应的标准表包括:按照预设策略从相似度分值大于预设的相似度阈值的标准表中确定其中一个标准表,作为与需对标的原始表对应的标准表。可选的,所述装置还包括更新单元:在所述映射库中添加确定的与所述需对标的原始表对应的标准表的映射信息。再一方面,本专利技术实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行上述数据整理的方法。还一方面,本专利技术实施例还提供一种终端,包括:存储器和处理器;其中,处理器被配置为执行存储器中的程序指令;程序指令在处理器读取执行以下操作:确定预设的映射库中是否包含与需对标的原始表对应的标准表;预设的映射库中未包含与需对标的原始表对应的标准表时,根据中文表名确定对应于需对标的原始表的标准表;其中,所述映射库中存储有:在前确定的原始表及对应于原始表的标准表。与相关技术相比,本申请技术方案包括:确定预设的映射库中是否包含与需对标的原始表对应的标准表;预设的映射库中未包含与需对标的原始表对应的标准表时,根据中文表名确定对应于需对标的原始表的标准表;其中,所述映射库中存储有:在前确定的原始表及对应于原始表的标准表。本专利技术实施例通过查询映射库,降低了确定与原始表对标的标准表的运算量,提升了对标效率。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中本文档来自技高网
...

【技术保护点】
1.一种数据整理的方法,其特征在于,包括:确定预设的映射库中是否包含与需对标的原始表对应的标准表;预设的映射库中未包含与需对标的原始表对应的标准表时,根据中文表名确定对应于需对标的原始表的标准表;其中,所述映射库中存储有:在前确定的原始表及对应于原始表的标准表。

【技术特征摘要】
1.一种数据整理的方法,其特征在于,包括:确定预设的映射库中是否包含与需对标的原始表对应的标准表;预设的映射库中未包含与需对标的原始表对应的标准表时,根据中文表名确定对应于需对标的原始表的标准表;其中,所述映射库中存储有:在前确定的原始表及对应于原始表的标准表。2.根据权利要求1所述的方法,其特征在于,所述确定预设的映射库中是否包含与需对标的原始表对应的标准表包括:查询所述映射库中是否包含第一中文表名与需对标的原始表相同的已存储的原始表;所述映射库中包含第一中文表名均与需对标的原始表相同的已存储的原始表时,将已存储的第一中文表名与需对标的原始表相同的已存储的原始表所对应的标准表,作为需对标的原始表所对应的标准表。3.根据权利要求1所述的方法,其特征在于,所述根据中文表名确定对应于需对标的原始表的标准表包括:获取需对标的原始表的第一中文表名的第一特征向量;获取各种类标准表的第二中文表名的第二特征向量;计算获取的第一特征向量与各第二特征向量的相似度分值;根据计算得到的相似度分值确定与需对标的原始表对应的标准表。4.根据权利要求3所述的方法,其特征在于,所述获取各种类标准表的第二中文表名的第二特征向量包括:将标准表按照预设的分类策略进行分类后,对各分类中的标准表分别通过以下处理获得对应的第二特征向量:对当前分类的标准表的第二中文表名进行分词处理,获得当前分类标准表的第二中文表名的关键词;对分词获得的第二中文表名的关键词分别进行预处理后,构建当前分类标准表的关键词词库;对当前分类标准表中的各标准表,分别通过词频统计方式确定相应的第二特征向量;其中,所述预处理包括:去除重复词和/或停用词的处理。5.根据权利要求4所述的方法,其特征在于,所述根据计算得到的相似度分值确定与需对标的原始表对应的标准表包括:按照预设策略从相似度分值大于预设的相似度阈值的标准表中确定其中一个标准表,作为与需对标的原始表对应的标准表。6.根据权利要求1~5任一项所述的方法,其特征在于,所述根据中文表名确定与需对标的原始表对应的标准表后,所述方法还包括:在所述映射库中添加确定的与所述需对标的原始表对应的标准表的映射信息。7.一种数据整理的装置,其特征在于,包括:判断单元和确定单元;其中,判断单元用于:确定预设的映射库中是否包含与需对标的原始表对应的标准表;确定单元用于:预设的映射库中未包含与需对标的原始表对应的标准表时,根据中文表名确定...

【专利技术属性】
技术研发人员:张毅然于阳
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1