数据归一化处理方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号：31083793 阅读：15 留言：0更新日期：2021-12-01 12:32

本发明专利技术公开了一种数据归一化处理方法、装置、设备及计算机可读存储介质。数据归一化处理方法包括：接收针对待处理词汇的归一化请求；若在缓存数据库中未匹配到与所述待处理词汇对应的归一化目标词汇则将所述待处理词汇输入至第一预设模型进行处理得到所述待处理词汇的分类类别；将所述待处理词汇和对应的所述分类类别输入至包含归一化基准词汇和所述归一化基准词汇分类类别的搜索源的搜索引擎中进行完全匹配；若完全匹配未命中，则在所述搜索引擎中进行模糊匹配得到至少一个归一化基准词汇作为候选词；根据所述候选词确定所述待处理词汇对应的归一化目标词汇。本发明专利技术能够提高数据治理的速度和准确度。提高数据治理的速度和准确度。提高数据治理的速度和准确度。

全部详细技术资料下载

【技术实现步骤摘要】
数据归一化处理方法、装置、设备及计算机可读存储介质

[0001]本专利技术涉及信息处理
，特别是涉及数据归一化处理方法、设备及计算机可读存储介质。

技术介绍

[0002]虽然很多行业术语已经经过国内标准或国际标准进行统一，例如医疗行业的科室、药品和诊疗等都有规范的名称，但是受到使用习惯和所处环境等因素的影响，即使处于同一个行业中，不同的人对同一件事物叫法往往也会不同。例如，对于“普通病房”，也有习惯将其称为“一般病房”。根据调查，这一问题不仅仅只出现在医疗行业，在其他行业也同样有这样的问题。因此，需要对行业中的习惯用语进行数据归一化处理。
[0003]而现有的数据归一化通常使用基于数据库及纯规则的方式实现。其中规则部分需要多次的数据库查询，比如将“普通病床床位费(甲)”整体传入数据库，以此构造查询语句的表达式在库中进行查询，其只能进行全包含形式的匹配，准确率较低，查询速度慢。
[0004]因此，如何提高数据归一化的速度和准确度，是本领域技术人员急需解决的技术问题。

技术实现思路

[0005]本专利技术提供了一种数据归一化处理方法、设备及计算机可读存储介质，能够提高数据治理的速度和准确度。
[0006]本专利技术提供了如下方案：
[0007]一种数据归一化处理方法，包括：
[0008]接收针对待处理词汇的归一化请求；
[0009]若在缓存数据库中未匹配到与所述待处理词汇对应的归一化目标词汇则将所述待处理词汇输入至第一预设模型进行处理得到所述待处理词汇...

【技术保护点】

【技术特征摘要】
1.一种数据归一化处理方法，其特征在于，包括：接收针对待处理词汇的归一化请求；若在缓存数据库中未匹配到与所述待处理词汇对应的归一化目标词汇则将所述待处理词汇输入至第一预设模型进行处理得到所述待处理词汇的分类类别；将所述待处理词汇和对应的所述分类类别输入至包含归一化基准词汇和所述归一化基准词汇分类类别的搜索源的搜索引擎中进行完全匹配；若完全匹配未命中，则在所述搜索引擎中进行模糊匹配得到至少一个归一化基准词汇作为候选词；根据所述候选词确定所述待处理词汇对应的归一化目标词汇。2.根据权利要求1所述的数据归一化处理方法，其特征在于，所述根据所述候选词确定所述待处理词汇对应的归一化目标词汇包括：将所述候选词和所述待处理词汇输入至第二预设模型中确定各自对应的词向量；根据所述词向量计算每一所述候选词与所述待处理词汇的相似度；根据所述相似度从所述候选词中确定所述待处理词汇对应的归一化目标词汇。3.根据权利要求1所述的数据归一化处理方法，其特征在于，所述搜索引擎为设有倒排索引表的ElasticSearch，且所述搜索引擎中设有完全匹配字段和模糊匹配字段，且所述搜索源包含至少一个对应所述分类类别的子搜索源；所述将所述待处理词汇和对应的所述分类类别输入至包含归一化基准词汇和所述归一化基准词汇分类类别的搜索源的搜索引擎中进行完全匹配包括：根据所述分类类别确定对应的所述子搜索源；根据所述待处理词汇在对应的所述子搜索源的所述完全匹配字段进行查询匹配；所述若完全匹配未命中，则在所述搜索引擎中进行模糊匹配得到至少一个归一化基准词汇作为候选词包括：若在所述完全匹配字段进行查询匹配没有命中结果，则对所述待处理词汇进行分词获得至少一个第一分词结果；根据所述第一分词结果在对应的所述子搜索源的所述模糊匹配字段进行查询得到至少一个归一化基准词汇作为候选词。4.根据权利要求3所述的数据归一化处理方法，其特征在于，所述根据所述第一分词结果在对应的所述子搜索源的所述模糊匹配字段进行查询得到至少一个归一化基准词汇作为候选词包括：根据所述第一分词结果在对应的所述子搜索源的所述模糊匹配字段进行查询，并根据查询结果和每一所述第一分词结果的预设权重确定符合条件的候选词。5.根据权利要求2所述的数据归一化处理方法，其特征在于，所述将所述候选词和所述待处理词汇输入至第二预设模型中确...

【专利技术属性】
技术研发人员：龚快快，
申请(专利权)人：上海保链科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人