【技术实现步骤摘要】
数据增补方法、系统、设备和存储介质
本专利技术涉及数据处理
,具体地说,涉及一种数据增补方法、系统、设备和存储介质。
技术介绍
互联网公司需要经常对网站上的数据信息进行补充、更新、修改等操作,使网站展示的数据保持最新、准确和全面。随着互联网行业的飞速发展,很多互联网公司在发展本国业务的同时,也逐渐在拓展海外业务。因此,需要将不同语种的有效信息添加增补至已有系统中。现有技术中,对于中文数据可以通过已有的算法进行分析处理,完成增补前的前期处理工作,但后期处理仍依赖于人工审核判断;对于其他语种,尤其是一些小语种的数据,则更大程度地依赖于人工审核,需要人工识别分类信息,导致工作量大,效率低,同时准确度也相对较低。在信息不断增多,资源不断增长的当下,如何快速准确地将不同语种的有效信息增补到已有系统中已成为一个亟需解决的问题。需要说明的是,在上述
技术介绍
部分申请的信息仅用于加强对本专利技术的背景的理解对于不同语种的大量有用信息,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
...
【技术保护点】
1.一种数据增补方法,其特征在于,包括步骤:/n根据标识字段,获取与所述标识字段关联的多条待增补数据;/n通过语种识别模型识别每条待增补数据的语种,并将识别到语种的待增补数据分流至对应语种的数据池;/n在每个语种的数据池中,根据所述待增补数据的标识字段遍历所述数据池中已有的数据条目的标识字段,获得匹配结果;/n当一待增补数据的标识字段与一已有的数据条目的标识字段相匹配,将所述待增补数据补充至所述已有的数据条目中;以及/n当一待增补数据的标识字段与各已有的数据条目的标识字段均不匹配,根据所述待增补数据的标识字段创建一数据条目,并将所述待增补数据新增至创建的数据条目中。/n
【技术特征摘要】 【专利技术属性】
1.一种数据增补方法,其特征在于,包括步骤:
根据标识字段,获取与所述标识字段关联的多条待增补数据;
通过语种识别模型识别每条待增补数据的语种,并将识别到语种的待增补数据分流至对应语种的数据池;
在每个语种的数据池中,根据所述待增补数据的标识字段遍历所述数据池中已有的数据条目的标识字段,获得匹配结果;
当一待增补数据的标识字段与一已有的数据条目的标识字段相匹配,将所述待增补数据补充至所述已有的数据条目中;以及
当一待增补数据的标识字段与各已有的数据条目的标识字段均不匹配,根据所述待增补数据的标识字段创建一数据条目,并将所述待增补数据新增至创建的数据条目中。
2.如权利要求1所述的数据增补方法,其特征在于,各语种的数据池中,标识字段相匹配的数据条目之间建立有相互索引的映射关系,根据所述待增补数据的标识字段创建一数据条目后,还包括步骤:
判断创建的数据条目的标识字段是否与其余数据池中的数据条目的标识字段相匹配,若是则将创建的数据条目与标识字段相匹配的数据条目建立相互索引的映射关系。
3.如权利要求1所述的数据增补方法,其特征在于,所述语种识别模型基于语言模型N-Gram构建,所述通过语种识别模型识别每条待增补数据的语种的步骤包括:
对一待增补数据进行分词,获得所述待增补数据的词汇集;
将所述词汇集中的各词汇输入所述语种识别模型,获得每个词汇属于各个语种的概率;
根据每个词汇属于各个语种的概率,获得所述待增补数据属于各个语种的概率;以及
根据所述待增补数据属于各个语种的概率与一预设概率阈值的关系,确定所述待增补数据的语种。
4.如权利要求1所述的数据增补方法,其特征在于,所述根据所述待增补数据的标识字段遍历所述数据池中已有的数据条目的标识字段的步骤中,当一待增补数据的标识字段与一已有的数据条目的标识字段的相似度大于一第一相似度阈值,获得所述待增补数据的标识字段与所述已有的数据条目的标识字段相匹配的匹配结果;以及
当一待增补数据的标识字段与各已有的数据条目的标识字段的相似度均小于一第二相似度阈值,获得所述待增补数据的标识字段与各已有的数据条目的标识字段均不匹配的匹配结果;
所述第一相似度阈值大于所述第二相似度阈值。
技术研发人员:李孟柱,
申请(专利权)人:江苏满运软件科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。