基于医疗场景结合汉语特征的数据归一处理方法及装置制造方法及图纸

技术编号:32733368 阅读:9 留言:0更新日期:2022-03-20 08:39
本申请提供了一种基于医疗场景结合汉语特征的数据归一处理方法、装置、计算机设备及存储介质,方法包括:获取待处理数据,将待处理数据输入至预设搜索引擎中进行完全匹配,若完全匹配未命中,则在预设搜索引擎中按照预设匹配规则进行模糊匹配,获取多个候选词,根据待处理数据以及多个候选词计算每一候选词与待处理数据的第一相似度,根据待处理数据的上下文信息以及多个候选词计算每一候选词与待处理数据的第二相似度,根据第一相似度以及第二相似度从多个候选词中确定出待处理数据对应的归一化目标词,本发明专利技术通过从待处理数据的上下文信息中提取有效特征参与到候选词与待处理数据之间的相似度计算中,提高对码的准确率。率。率。

【技术实现步骤摘要】
基于医疗场景结合汉语特征的数据归一处理方法及装置


[0001]本申请涉及数据处理
,特别涉及一种基于医疗场景结合汉语特征的数据归一处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]医疗领域中源源不断地产生大量的医疗数据,例如:患者的病历、对患者的病例的分析、患者疾病的治疗方案等。诊断、药品、医检、治疗方案等的医疗数据对于进行医疗数据分析具有极为重要的意义。虽然医疗行业的科室、药品和诊疗等都有规范的名称,但是受到使用习惯和所处环境等因素的影响,即使处于同一个行业中,不同的人对同一件事物叫法往往也会不同。为了进行有效的医疗数据管理与分析,一般通过对医疗数据进行归一化处理,从而将医疗数据归类。医疗数据归一化治理,是指将医院的疾病、手术、药品、诊疗、材料等医疗领域相关的术语库进行标准化归一的处理。
[0003]目前的医疗数据归一化处理方式有两种,一种是人工操作,即,由人工对医疗数据进行归类。当医疗数据量庞大且结构复杂时,人工进行归类的方法耗费大量的人力物力,归类效率较低;另一种是通过使用搜索引擎及词向量模型,虽然相比于人工操作可以提升归一化处理的效率,但是依然存在准确率较低,查询速度慢等问题。
[0004]综上所述,亟需提出一种新的数据归一化处理方法,以解决上述问题。

技术实现思路

[0005]为解决上述一个或多个技术问题,本申请采用的技术方案是:
[0006]第一方面,提供了一种基于医疗场景结合汉语特征的数据归一处理方法,该方法包括如下步骤:
[0007]获取待处理数据,将所述待处理数据输入至预设搜索引擎中进行完全匹配;若完全匹配未命中,则在所述预设搜索引擎中按照预设匹配规则进行模糊匹配,获取多个候选词;
[0008]根据所述待处理数据以及所述多个候选词计算每一所述候选词与所述待处理数据的第一相似度;
[0009]根据所述待处理数据的上下文信息以及所述多个候选词计算每一所述候选词与所述待处理数据的第二相似度;
[0010]根据所述第一相似度以及所述第二相似度从所述多个候选词中确定出所述待处理数据对应的归一化目标词。
[0011]进一步地,所述根据所述待处理数据的上下文信息以及所述多个候选词计算每一所述候选词与所述待处理数据的第二相似度包括:
[0012]根据所述待处理数据的上下文提取预设特征,并计算所述预设特征对应的预设特征向量;
[0013]根据所述预设特征向量以及每一所述候选词的词向量计算得到每一所述候选词
与所述待处理数据的第二相似度。
[0014]进一步地,所述根据所述待处理数据以及所述多个候选词计算每一所述候选词与所述待处理数据的第一相似度包括:
[0015]利用预先构建的词向量模型分别计算所述多个候选词的词向量以及所述待处理数据的词向量;
[0016]根据每一所述候选词的词向量以及所述待处理数据的词向量计算得到每一所述候选词与所述待处理数据的第一相似度。
[0017]进一步地,所述在所述预设搜索引擎中按照预设匹配规则进行模糊匹配,获取多个候选词包括:
[0018]分别按照汉字、拼音及部首匹配规则在所述预设搜索引擎中进行模糊匹配,分别获取对应的第一初筛词、第二初筛词和第三初筛词;
[0019]根据所述第一初筛词、所述第二初筛词以及所述第三初筛词与所述待处理数据的相似度从所述第一初筛词、所述第二初筛词以及所述第三初筛词中确定多个候选词。
[0020]进一步地,所述方法还包括:
[0021]在获取到所述待处理数据后,对所述待处理数据进行预处理,所述预处理至少包括将繁体字转换为简体字;
[0022]所述将所述待处理数据输入至预设搜索引擎中进行完全匹配包括:
[0023]将预处理后的所述待处理数据输入至预设搜索引擎中进行完全匹配。
[0024]进一步地,所述根据所述第一相似度以及所述第二相似度从所述多个候选词中确定出所述待处理数据对应的归一化目标词包括:
[0025]根据所述第一相似度以及所述第二相似度的预设权重计算得到每一所述候选词与所述待处理数据的加权相似度;
[0026]确定满足预设要求的所述加权相似度对应的候选词为所述待处理数据对应的归一化目标词。
[0027]进一步地,所述预设搜索引擎包括ElasticSearch。
[0028]第二方面,提供了一种基于医疗场景结合汉语特征的数据归一处理装置,所述装置包括:
[0029]完全匹配模块,用于获取待处理数据,将所述待处理数据输入至预设搜索引擎中进行完全匹配;
[0030]模糊匹配模块,用于若完全匹配未命中,则在所述预设搜索引擎中按照预设匹配规则进行模糊匹配,获取多个候选词;
[0031]第一计算模块,用于根据所述待处理数据以及所述多个候选词计算每一所述候选词与所述待处理数据的第一相似度;
[0032]第二计算模块,用于根据所述待处理数据的上下文信息以及所述多个候选词计算每一所述候选词与所述待处理数据的第二相似度;
[0033]归一化模块,用于根据所述第一相似度以及所述第二相似度从所述多个候选词中确定出所述待处理数据对应的归一化目标词。
[0034]第三方面,还提供了一种计算机设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,实现上述
基于医疗场景结合汉语特征的数据归一处理方法。
[0035]第四方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被执行时,实现上述基于医疗场景结合汉语特征的数据归一处理方法。
[0036]本申请实施例提供的技术方案带来的有益效果是:
[0037]本申请实施例提供的基于医疗场景结合汉语特征的数据归一处理方法、装置、计算机设备及存储介质,方法包括:获取待处理数据,将所述待处理数据输入至预设搜索引擎中进行完全匹配,若完全匹配未命中,则在所述预设搜索引擎中按照预设匹配规则进行模糊匹配,获取多个候选词,根据所述待处理数据以及所述多个候选词计算每一所述候选词与所述待处理数据的第一相似度,根据所述待处理数据的上下文信息以及所述多个候选词计算每一所述候选词与所述待处理数据的第二相似度,根据所述第一相似度以及所述第二相似度从所述多个候选词中确定出所述待处理数据对应的归一化目标词,通过从待处理数据的上下文信息中提取有效特征参与到候选词与待处理数据之间的相似度计算中,提高对码的准确率;
[0038]进一步地,本申请实施例提供的基于医疗场景结合汉语特征的数据归一处理方法、装置、计算机设备及存储介质,分别按照汉字、拼音及部首匹配规则在所述预设搜索引擎中进行模糊匹配,分别获取对应的第一初筛词、第二初筛词和第三初筛词,根据所述第一初筛词、所述第二初筛词以及所述第三初筛词与所述待处理数据的相似度从所述第一初筛词、所述第二初筛词以及所述第三初筛词中确定多个候选词,通过增加本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于医疗场景结合汉语特征的数据归一处理方法,其特征在于,所述方法包括:获取待处理数据,将所述待处理数据输入至预设搜索引擎中进行完全匹配;若完全匹配未命中,则在所述预设搜索引擎中按照预设匹配规则进行模糊匹配,获取多个候选词;根据所述待处理数据以及所述多个候选词计算每一所述候选词与所述待处理数据的第一相似度;根据所述待处理数据的上下文信息以及所述多个候选词计算每一所述候选词与所述待处理数据的第二相似度;根据所述第一相似度以及所述第二相似度从所述多个候选词中确定出所述待处理数据对应的归一化目标词。2.根据权利要求1所述的基于医疗场景结合汉语特征的数据归一处理方法,其特征在于,所述根据所述待处理数据的上下文信息以及所述多个候选词计算每一所述候选词与所述待处理数据的第二相似度包括:根据所述待处理数据的上下文提取预设特征,并计算所述预设特征对应的预设特征向量;根据所述预设特征向量以及每一所述候选词的词向量计算得到每一所述候选词与所述待处理数据的第二相似度。3.根据权利要求1或2所述的基于医疗场景结合汉语特征的数据归一处理方法,其特征在于,所述根据所述待处理数据以及所述多个候选词计算每一所述候选词与所述待处理数据的第一相似度包括:利用预先构建的词向量模型分别计算所述多个候选词的词向量以及所述待处理数据的词向量;根据每一所述候选词的词向量以及所述待处理数据的词向量计算得到每一所述候选词与所述待处理数据的第一相似度。4.根据权利要求1或2所述的基于医疗场景结合汉语特征的数据归一处理方法,其特征在于,所述在所述预设搜索引擎中按照预设匹配规则进行模糊匹配,获取多个候选词包括:分别按照汉字、拼音及部首匹配规则在所述预设搜索引擎中进行模糊匹配,分别获取对应的第一初筛词、第二初筛词和第三初筛词;根据所述第一初筛词、所述第二初筛词以及所述第三初筛词与所述待处理数据的相似度从所述第一初筛词、所述第二初筛词以及所述第三初筛词中确定多个候选词。5.根据权利要求1或2所述的基于医疗场景结合汉语特征的数据归一处理方法,其特征在于,所述方法...

【专利技术属性】
技术研发人员:龚快快
申请(专利权)人:上海保链科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1