一种医疗名称的映射方法、训练方法、装置、介质及设备制造方法及图纸

技术编号:38833491 阅读:11 留言:0更新日期:2023-09-17 09:51
本发明专利技术公开了一种医疗名称映射方法,包括获取待预测医疗名称;对待预测医疗名称进行分词处理,形成组合分词列表,其中,分词处理至少包括两种分词处理方式;获取目标文本向量化模型,将待预测医疗名称的整体和组合分词列表中的分词输入至目标文本向量化模型中;通过目标文本向量化模型分别对待预测医疗名称整体和组合分词列表进行计算,生成待预测医疗名称的完整嵌入向量;根据预存的所有标准医疗名称的嵌入向量和待预测医疗名称的完整嵌入向量,计算相似度并排序,选取相似度最高的标准医疗名称作为映射结果。本发明专利技术通过多个分词方式进行结合,丰富信息类型和特征信息,提高了模型对于相似名词之间细微差别的分辨水平,提高了映射的准确性。射的准确性。射的准确性。

【技术实现步骤摘要】
一种医疗名称的映射方法、训练方法、装置、介质及设备


[0001]本专利技术属于人工智能领域,具体地说,涉及一种医疗名称的映射方法、训练方法、装置、介质及设备。

技术介绍

[0002]由于不同的医疗机构或厂商对于各种医疗名称缺乏统一的规定,各个机构对于这些医疗名称都有一套各自的命名标准,所以在处理不同厂商的数据时需要将指代同一物品的名词映射到一个标准名称或代码。
[0003]现有技术中大多采用预训练语言模型在公开的大文本库中进行预训练,后再将预训练好的模型在医疗业务数据上进行微调后得到的模型对测试数据进行编码求相似度的方法来对不同的医学名称进行匹配。该方法存在的问题是模型判断的准确度不是特别高,对于两个高度相似的标准名称,模型不能够准确分辨。原因在于相似句子的向量分布在空间中高度接近,这是预训练语言模型本身的性质导致的,在使用距离计算相似度时,接近的向量表示往往得到相似的匹配度,使得结果容易出错。
[0004]申请号为202111072717.3的中国专利公开了基于预训练模型的关键短语生成方法、装置及储存介质,包括:S1、获取待处理的文本数据;S2、对获取的文本数据进行分词和词性标注;S3、建立停用词库,去除存在于停用词库中的词;过滤掉不是动词和名词的词语;S4、进行N

gram组合,得到候选词组合;S5、基于Bert的预训练模型分别对文本数据和候选词组合进行文本向量转化; S6、对文档级别的向量表示和候选词向量表示进行余弦相似度计算,进行语义相似度排序;S7、根据设定值选取S6中语义相似度排序靠前的词或短语形成关键词。上述申请通过N

gram进行组合,输出结果的容易出错,识别预测效果较差。
[0005]有鉴于此特提出本专利技术。

技术实现思路

[0006]本专利技术要解决的技术问题在于克服现有技术的不足,提供一种医疗名称的映射方法,通过获取待预测的医疗名称,并对待预测医疗名称多种分词方式处理组合,形成组合分词列表后,实现在映射过程中,通过目标文本向量化模型,生成待预测医疗名称的完整嵌入向量,并根据预存好的各个标准医疗名称的嵌入向量,计算相似度并排序,选取相似度最高的标准医疗名称作为映射结果,提高了模型对于相似名词之间细微差别的分辨水平,提高了映射的准确性。
[0007]为解决上述技术问题,本专利技术采用技术方案的基本构思是:本专利技术提供一种医疗名称的映射方法,包括:获取待预测医疗名称;对所述待预测医疗名称进行分词处理,形成组合分词列表,其中,所述分词处理至少包括两种分词处理方式;获取目标文本向量化模型,将所述待预测医疗名称的整体和所述组合分词列表中
的分词分别输入至获取到的目标文本向量化模型中,通过获取的目标文本向量化模型分别对所述待预测医疗名称的整体和所述组合分词列表进行计算,生成所述待预测医疗名称的完整嵌入向量;根据预存的各个标准医疗名称的嵌入向量和所述待预测医疗名称的完整嵌入向量,计算相似度并排序,选取相似度最高的标准医疗名称作为映射结果。
[0008]进一步地,所述分词处理方式为通过n_gram进行分词处理,其中n为字节长度;所述分词处理方式至少包括:2_gram处理方式、3_gram处理方式和4_gram处理方式;所述分词列表针对所述待预测医疗名称通过2_gram分词处理、3_gram分词处理和4_gram分词处理后组合形成的列表。
[0009]进一步地,所述分词处理方式为:确定所述待预测医疗名称的字节长度为N,通过N_gram进行分词处理;所述分词处理方式至少包括:自2_gram至N

1_gram分词处理方式。
[0010]进一步地,所述目标文本向量化模型包括对所述待预测医疗名称整体进行微调的第一目标文本向量化模型和对所述分词列表中的分词进行微调的第二目标文本向量化模型;所述生成所述待预测医疗名称的完整嵌入向量包括:通过将所述待预测医疗名称的整体输入至第一目标文本向量化模型,生成所述待预测医疗名称整体嵌入向量;通过将所述组合分词列表中的分词依次输入至第二目标文本向量化模型,生成所述待预测医疗名称的所述组合分词列表的嵌入向量;根据所述待预测医疗名称的整体嵌入向量和所述分词列表的嵌入向量进行向量连接,生成所述待预测医疗名称的完整嵌入向量。
[0011]本专利技术还提供一种医疗名称映射模型的训练方法,包括:获取医疗名称数据和公开数据;对所述医疗名称数据和公开数据进行处理,生成标准数据集和公开数据集;获取文本向量化模型,将公开数据集输入至文本向量化模型中进行训练,生成训练后文本向量化模型;根据生成的标准数据集对训练后文本向量化模型进行微调训练,生成目标文本向量化模型。
[0012]进一步地,所述生成标准数据集包括:所述标准医疗名称的整体和对所述标准医疗名称数据进行分词处理后,组合形成的标准分词列表;所述公开数据集包括:所述公开数据名称的整体和对所述公开数据名称进行分词处理后,组合形成的公开分词列表。
[0013]进一步地,所述生成目标文本向量化模型包括:获取文本向量化模型,根据所述公开医疗名称的整体对获取的文本向量化模型进行训练,然后再根据所述标准医疗名称的整体的基础上进行微调训练,生成第一目标文本向量化模型;获取文本向量化模型,根据所述公开分词列表对获取的文本向量化模型进行训练,然后再根据所述标准分词列表的基础上进行微调训练,生成第二目标文本向量化模型。
[0014]本专利技术还提供一种医疗名称映射装置,包括:名称获取模块,用于获取待预测医疗名称;名称分词模块,用于对所述待预测医疗名称进行不同方式的分词处理,得到若干个分词,并将不同分词方式处理后的若干分词,整合到一个分词列表中;文本向量化模块,用于根据目标文本向量化模型,通过添加的所述待预测医疗名称整体和分词列表,对所述待预测医疗名称进行计算整体嵌入向量和分词列表的嵌入向量,并进行向量连接,形成所述待预测医疗名称的完整嵌入向量;计算模块,用于计算预存好的各个标准医疗名称的嵌入向量和所述待预测医疗名称的完整嵌入向量之间的相似度;输出模块,用于对相似度进行排序,并选取相似度最高的标准医疗名称进行输出。
[0015]本专利技术还提供一种可读存储介质,所述存储介质中存储可执行指令,当可执行指令被执行时,使得计算设备执行上述所述的医疗名称的映射方法和医疗名称映射模型的训练方法。
[0016]本专利技术还提供一种计算机设备,包括:处理器以及与所述处理器连接储存器,所述储存器储存有可执行指令,所述可执行指令执行时,使所述处理器执行上述所述的医疗名称的映射方法和医疗名称映射模型的训练方法。
[0017]采用上述技术方案后,本专利技术与现有技术相比具有以下有益效果:(1)本专利技术通过将待预测医疗名称进行多种方式的分词处理,并将多种分词列表组合形成一个分词列表,增加分词信息类型,通过将丰富分词列表中的不同长度的分词,提高对细微分词的区别能力,提高了提取特征信息的便捷性,方便在进行医疗名称映射过程中,提高映射的准确性。
[0018](2)本专利技术通过在目本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医疗名称的映射方法,其特征在于,包括:获取待预测医疗名称;对所述待预测医疗名称进行分词处理,形成组合分词列表,其中,所述分词处理至少包括两种分词处理方式;获取目标文本向量化模型,将所述待预测医疗名称的整体和所述组合分词列表中的分词分别输入至获取到的目标文本向量化模型中,通过获取的目标文本向量化模型分别对所述待预测医疗名称的整体和所述分词列表进行计算,生成所述待预测医疗名称的完整嵌入向量;根据预存的各个标准医疗名称的嵌入向量和所述待预测医疗名称的完整嵌入向量,计算相似度并排序,选取相似度最高的标准医疗名称作为映射结果。2.根据权利要求1所述的医疗名称的映射方法,其特征在于,所述分词处理方式为通过n_gram进行分词处理,其中n为字节长度;所述分词处理方式至少包括:2_gram处理方式、3_gram处理方式和4_gram处理方式;所述分词列表为针对所述待预测医疗名称通过2_gram分词处理、3_gram分词处理和4_gram分词处理后组合形成的列表。3.根据权利要求1所述的医疗名称的映射方法,其特征在于:所述分词处理方式为:确定所述待预测医疗名称的字节长度为N,通过N_gram进行分词处理;所述分词处理方式至少包括:自2_gram至N

1_gram分词处理方式。4.根据权利要求1所述的医疗名称的映射方法,其特征在于,所述目标文本向量化模型包括对所述待预测医疗名称整体进行向量化转换的第一目标文本向量化模型和对所述分词列表中的分词进行向量化转换的第二目标文本向量化模型;所述生成所述待预测医疗名称的完整嵌入向量包括:通过将所述待预测医疗名称的整体输入至第一目标文本向量化模型,生成所述待预测医疗名称整体嵌入向量;通过将所述组合分词列表中的分词依次输入至第二目标文本向量化模型,生成所述待预测医疗名称的所述组合分词列表的嵌入向量;根据所述待预测医疗名称的整体嵌入向量和所述组合分词列表的嵌入向量进行向量连接,生成所述待预测医疗名称的完整嵌入向量。5.一种医疗名称映射模型的训练方法,其特征在于:包括,获取医疗名称数据和公开数据;对所述医疗名称数据和公开数据进行处理,生成标准数据集和公开数据集...

【专利技术属性】
技术研发人员:沈丹婷张灏赵礼悦陈鑫
申请(专利权)人:北京亚信数据有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1