数据归一化处理方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:31083793 阅读:15 留言:0更新日期:2021-12-01 12:32
本发明专利技术公开了一种数据归一化处理方法、装置、设备及计算机可读存储介质。数据归一化处理方法包括:接收针对待处理词汇的归一化请求;若在缓存数据库中未匹配到与所述待处理词汇对应的归一化目标词汇则将所述待处理词汇输入至第一预设模型进行处理得到所述待处理词汇的分类类别;将所述待处理词汇和对应的所述分类类别输入至包含归一化基准词汇和所述归一化基准词汇分类类别的搜索源的搜索引擎中进行完全匹配;若完全匹配未命中,则在所述搜索引擎中进行模糊匹配得到至少一个归一化基准词汇作为候选词;根据所述候选词确定所述待处理词汇对应的归一化目标词汇。本发明专利技术能够提高数据治理的速度和准确度。提高数据治理的速度和准确度。提高数据治理的速度和准确度。

【技术实现步骤摘要】
数据归一化处理方法、装置、设备及计算机可读存储介质


[0001]本专利技术涉及信息处理
,特别是涉及数据归一化处理方法、设备及计算机可读存储介质。

技术介绍

[0002]虽然很多行业术语已经经过国内标准或国际标准进行统一,例如医疗行业的科室、药品和诊疗等都有规范的名称,但是受到使用习惯和所处环境等因素的影响,即使处于同一个行业中,不同的人对同一件事物叫法往往也会不同。例如,对于“普通病房”,也有习惯将其称为“一般病房”。根据调查,这一问题不仅仅只出现在医疗行业,在其他行业也同样有这样的问题。因此,需要对行业中的习惯用语进行数据归一化处理。
[0003]而现有的数据归一化通常使用基于数据库及纯规则的方式实现。其中规则部分需要多次的数据库查询,比如将“普通病床床位费(甲)”整体传入数据库,以此构造查询语句的表达式在库中进行查询,其只能进行全包含形式的匹配,准确率较低,查询速度慢。
[0004]因此,如何提高数据归一化的速度和准确度,是本领域技术人员急需解决的技术问题。

技术实现思路

[0005]本专利技术提供了一种数据归一化处理方法、设备及计算机可读存储介质,能够提高数据治理的速度和准确度。
[0006]本专利技术提供了如下方案:
[0007]一种数据归一化处理方法,包括:
[0008]接收针对待处理词汇的归一化请求;
[0009]若在缓存数据库中未匹配到与所述待处理词汇对应的归一化目标词汇则将所述待处理词汇输入至第一预设模型进行处理得到所述待处理词汇的分类类别;
[0010]将所述待处理词汇和对应的所述分类类别输入至包含归一化基准词汇和所述归一化基准词汇分类类别的搜索源的搜索引擎中进行完全匹配;
[0011]若完全匹配未命中,则在所述搜索引擎中进行模糊匹配得到至少一个归一化基准词汇作为候选词;
[0012]根据所述候选词确定所述待处理词汇对应的归一化目标词汇。
[0013]可选地,所述根据所述候选词确定所述待处理词汇对应的归一化目标词汇包括:
[0014]将所述候选词和所述待处理词汇输入至第二预设模型中确定各自对应的词向量;
[0015]根据所述词向量计算每一所述候选词与所述待处理词汇的相似度;
[0016]根据所述相似度从所述候选词中确定所述待处理词汇对应的归一化目标词汇。
[0017]可选地,所述搜索引擎为设有倒排索引表的ElasticSearch,且所述搜索引擎中设有完全匹配字段和模糊匹配字段,且所述搜索源包含至少一个对应所述分类类别的子搜索源;
[0018]所述将所述待处理词汇和对应的所述分类类别输入至包含归一化基准词汇和所述归一化基准词汇分类类别的搜索源的搜索引擎中进行完全匹配包括:
[0019]根据所述分类类别确定对应的所述子搜索源;
[0020]根据所述待处理词汇在对应的所述子搜索源的所述完全匹配字段进行查询匹配;
[0021]所述若完全匹配未命中,则在所述搜索引擎中进行模糊匹配得到至少一个归一化基准词汇作为候选词包括:
[0022]若在所述完全匹配字段进行查询匹配没有命中结果,则对所述待处理词汇进行分词获得至少一个第一分词结果;
[0023]根据所述第一分词结果在对应的所述子搜索源的所述模糊匹配字段进行查询得到至少一个归一化基准词汇作为候选词。
[0024]可选地,所述根据所述第一分词结果在对应的所述子搜索源的所述模糊匹配字段进行查询得到至少一个归一化基准词汇作为候选词包括:
[0025]根据所述第一分词结果在对应的所述子搜索源的所述模糊匹配字段进行查询,并根据查询结果和每一所述第一分词结果的预设权重确定符合条件的候选词。
[0026]可选地,所述将所述候选词和所述待处理词汇输入至第二预设模型中确定各自对应的词向量包括:
[0027]将所述待处理词汇和每一所述候选词分别进行分词得到各自的第二分词结果;
[0028]确定所述第二分词结果各自的词向量并输入至所述第二预设模型进行处理得到所述待处理词汇和每一所述候选词分别对应的分布式词向量;
[0029]所述根据所述词向量计算每一所述候选词与所述待处理词汇的相似度包括:利用相似度算法,根据所述分布式词向量和每一所述第二分词结果的预设权重计算每一所述候选词与所述待处理词汇的相似度。
[0030]可选地,利用BM25算法在所述搜索引擎中进行模糊匹配得到所述候选词;
[0031]所述第二预设模型为word2vec模型,所述相似度算法为余弦相似度算法。
[0032]可选地,所述根据所述相似度从所述候选词中确定所述待处理词汇对应的归一化目标词汇包括:
[0033]选择满足相似度预设条件的候选词并发出人工审核请求;
[0034]在所述人工审核为确认时,确定所述满足相似度预设条件的候选词为所述待处理词汇对应的归一化目标词汇;
[0035]将所述待处理词汇及其对应的归一化目标词汇关联存储在所述缓存数据库中。
[0036]一种数据归一化处理装置,包括:
[0037]接收模块,用于接收针对待处理词汇的归一化请求;
[0038]分类模块,与所述接收模块连接,用于在缓存数据库中未匹配到与所述待处理词汇对应的归一化目标词汇时,将所述待处理词汇输入至第一预设模型进行处理得到所述待处理词汇的分类类别;
[0039]完全匹配模块,与所述分类模块连接,用于将所述待处理词汇和对应的所述分类类别输入至包含归一化基准词汇和所述归一化基准词汇分类类别的搜索源的搜索引擎中进行完全匹配;
[0040]模糊匹配模块,与所述分类模块连接,用于在完全匹配未命中时,在所述搜索引擎
中进行模糊匹配得到至少一个归一化基准词汇作为候选词;
[0041]归一化模块,与所述模糊匹配模块连接,用于根据所述候选词确定所述待处理词汇对应的归一化目标词汇。
[0042]一种数据归一化处理设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,实现所述的数据归一化处理方法。
[0043]一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被执行时,实现所述的数据归一化处理方法。
[0044]根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:
[0045]本专利技术提供的数据归一化处理方法,在接收到针对待处理词汇的归一化请求时,首先将待处理词汇与缓存数据库进行匹配,其中,待处理词汇即为输入的词汇,可能是行业术语也可能是习惯用语,缓存数据库为根据以往的查询记录存储得到的数据库,如果待处理词汇与缓存数据库匹配成功则不再进行后续的步骤,如果待处理词汇与缓存数据库匹配失败,则表示缓存数据库中没有存储该待处理词汇,接下来,为了进一步查找待处理词汇,并且为了加快查询速度和准确率,将待处理词汇输入第一预设模型得到其分类类别,然后将待处理词汇和其分类本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据归一化处理方法,其特征在于,包括:接收针对待处理词汇的归一化请求;若在缓存数据库中未匹配到与所述待处理词汇对应的归一化目标词汇则将所述待处理词汇输入至第一预设模型进行处理得到所述待处理词汇的分类类别;将所述待处理词汇和对应的所述分类类别输入至包含归一化基准词汇和所述归一化基准词汇分类类别的搜索源的搜索引擎中进行完全匹配;若完全匹配未命中,则在所述搜索引擎中进行模糊匹配得到至少一个归一化基准词汇作为候选词;根据所述候选词确定所述待处理词汇对应的归一化目标词汇。2.根据权利要求1所述的数据归一化处理方法,其特征在于,所述根据所述候选词确定所述待处理词汇对应的归一化目标词汇包括:将所述候选词和所述待处理词汇输入至第二预设模型中确定各自对应的词向量;根据所述词向量计算每一所述候选词与所述待处理词汇的相似度;根据所述相似度从所述候选词中确定所述待处理词汇对应的归一化目标词汇。3.根据权利要求1所述的数据归一化处理方法,其特征在于,所述搜索引擎为设有倒排索引表的ElasticSearch,且所述搜索引擎中设有完全匹配字段和模糊匹配字段,且所述搜索源包含至少一个对应所述分类类别的子搜索源;所述将所述待处理词汇和对应的所述分类类别输入至包含归一化基准词汇和所述归一化基准词汇分类类别的搜索源的搜索引擎中进行完全匹配包括:根据所述分类类别确定对应的所述子搜索源;根据所述待处理词汇在对应的所述子搜索源的所述完全匹配字段进行查询匹配;所述若完全匹配未命中,则在所述搜索引擎中进行模糊匹配得到至少一个归一化基准词汇作为候选词包括:若在所述完全匹配字段进行查询匹配没有命中结果,则对所述待处理词汇进行分词获得至少一个第一分词结果;根据所述第一分词结果在对应的所述子搜索源的所述模糊匹配字段进行查询得到至少一个归一化基准词汇作为候选词。4.根据权利要求3所述的数据归一化处理方法,其特征在于,所述根据所述第一分词结果在对应的所述子搜索源的所述模糊匹配字段进行查询得到至少一个归一化基准词汇作为候选词包括:根据所述第一分词结果在对应的所述子搜索源的所述模糊匹配字段进行查询,并根据查询结果和每一所述第一分词结果的预设权重确定符合条件的候选词。5.根据权利要求2所述的数据归一化处理方法,其特征在于,所述将所述候选词和所述待处理词汇输入至第二预设模型中确...

【专利技术属性】
技术研发人员:龚快快
申请(专利权)人:上海保链科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1