A method, device, computer storage medium and terminal for data collation includes: determining whether a preset mapping library contains a standard table corresponding to the original table to be paired with the target; determining a standard table corresponding to the original table to be paired with the target according to the Chinese table name when the preset mapping library does not contain a standard table corresponding to the original table to be paired with the target; and storing a standard table in the mapping library. The original table and the standard table corresponding to the original table determined before. The embodiment of the present invention reduces the amount of calculation to determine the standard table to match the original table by querying the mapping library, and improves the efficiency of the standard table.
【技术实现步骤摘要】
一种数据整理的方法、装置、计算机存储介质及终端
本文涉及但不限于信息处理技术,尤指一种数据整理的方法、装置、计算机存储介质及终端。
技术介绍
在数据整理任务中,标准化是提高原始表数据整理效率和质量的一种重要手段。通常在进行正式的数据整理之前,需要根据不同领域中制定的标准构建标准表库。比如,在公安领域,有国标、部标、省标等标准。从原始表到标准表的整理过程通常有以下方法;第一种方法是直接人工定义目标表的字段,包括从原始表抽取相关的字段信息;第二种方法是提前构建一个标准字段库,对原始表进行数据整理的时候从标准字段库查找对应的字段,如果存在,则直接对标;如果不存在,则需要手工新建字段;第三种方法是提前构建标准表库和标准字段库,通过相似度算法寻找与原始表最相似的标准表,进而进行表的对标。上述方法中,第一种方法精度高但效率低下;第二种方法只考虑标准字段并未考虑标准表,而特定领域的数据整理任务都是具有相应的标准的,如公安领域;第三种方法中,如何快速精准地找到标准库中与之对应的标准表,成为影响标准化过程的效率和质量的关键;一般的,基于获得的原始表的原始表名(包括中文名、英文名,由于表英文名不具备统一的命名规范,只用表中文名进行对标),计算原始表名与目标表库中每个标准表的标准表名的相似度。对所有标准表,按照标准表名与原始表名的相似度值,进行从高到低排序,取标准表名与原始表名相似度值最大的标准表作为原始表的标准表。基于这种方法,每个原始表都需要重复计算其原始表名与所有标准表的标准表名相似度,使得整个数据整理过程的效率受制于原始表、标准表库的规模,以及相似度算法的复杂度,影响了 ...
【技术保护点】
1.一种数据整理的方法,其特征在于,包括:确定预设的映射库中是否包含与需对标的原始表对应的标准表;预设的映射库中未包含与需对标的原始表对应的标准表时,根据中文表名确定对应于需对标的原始表的标准表;其中,所述映射库中存储有:在前确定的原始表及对应于原始表的标准表。
【技术特征摘要】
1.一种数据整理的方法,其特征在于,包括:确定预设的映射库中是否包含与需对标的原始表对应的标准表;预设的映射库中未包含与需对标的原始表对应的标准表时,根据中文表名确定对应于需对标的原始表的标准表;其中,所述映射库中存储有:在前确定的原始表及对应于原始表的标准表。2.根据权利要求1所述的方法,其特征在于,所述确定预设的映射库中是否包含与需对标的原始表对应的标准表包括:查询所述映射库中是否包含第一中文表名与需对标的原始表相同的已存储的原始表;所述映射库中包含第一中文表名均与需对标的原始表相同的已存储的原始表时,将已存储的第一中文表名与需对标的原始表相同的已存储的原始表所对应的标准表,作为需对标的原始表所对应的标准表。3.根据权利要求1所述的方法,其特征在于,所述根据中文表名确定对应于需对标的原始表的标准表包括:获取需对标的原始表的第一中文表名的第一特征向量;获取各种类标准表的第二中文表名的第二特征向量;计算获取的第一特征向量与各第二特征向量的相似度分值;根据计算得到的相似度分值确定与需对标的原始表对应的标准表。4.根据权利要求3所述的方法,其特征在于,所述获取各种类标准表的第二中文表名的第二特征向量包括:将标准表按照预设的分类策略进行分类后,对各分类中的标准表分别通过以下处理获得对应的第二特征向量:对当前分类的标准表的第二中文表名进行分词处理,获得当前分类标准表的第二中文表名的关键词;对分词获得的第二中文表名的关键词分别进行预处理后,构建当前分类标准表的关键词词库;对当前分类标准表中的各标准表,分别通过词频统计方式确定相应的第二特征向量;其中,所述预处理包括:去除重复词和/或停用词的处理。5.根据权利要求4所述的方法,其特征在于,所述根据计算得到的相似度分值确定与需对标的原始表对应的标准表包括:按照预设策略从相似度分值大于预设的相似度阈值的标准表中确定其中一个标准表,作为与需对标的原始表对应的标准表。6.根据权利要求1~5任一项所述的方法,其特征在于,所述根据中文表名确定与需对标的原始表对应的标准表后,所述方法还包括:在所述映射库中添加确定的与所述需对标的原始表对应的标准表的映射信息。7.一种数据整理的装置,其特征在于,包括:判断单元和确定单元;其中,判断单元用于:确定预设的映射库中是否包含与需对标的原始表对应的标准表;确定单元用于:预设的映射库中未包含与需对标的原始表对应的标准表时,根据中文表名确定...
【专利技术属性】
技术研发人员:张毅然,于阳,
申请(专利权)人:北京明略软件系统有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。