一种医疗名称的映射方法、训练方法、装置、介质及设备制造方法及图纸

技术编号：38833491 阅读：11 留言：0更新日期：2023-09-17 09:51

本发明专利技术公开了一种医疗名称映射方法，包括获取待预测医疗名称；对待预测医疗名称进行分词处理，形成组合分词列表，其中，分词处理至少包括两种分词处理方式；获取目标文本向量化模型，将待预测医疗名称的整体和组合分词列表中的分词输入至目标文本向量化模型中；通过目标文本向量化模型分别对待预测医疗名称整体和组合分词列表进行计算，生成待预测医疗名称的完整嵌入向量；根据预存的所有标准医疗名称的嵌入向量和待预测医疗名称的完整嵌入向量，计算相似度并排序，选取相似度最高的标准医疗名称作为映射结果。本发明专利技术通过多个分词方式进行结合，丰富信息类型和特征信息，提高了模型对于相似名词之间细微差别的分辨水平，提高了映射的准确性。射的准确性。射的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种医疗名称的映射方法、训练方法、装置、介质及设备

[0001]本专利技术属于人工智能领域，具体地说，涉及一种医疗名称的映射方法、训练方法、装置、介质及设备。

技术介绍

[0002]由于不同的医疗机构或厂商对于各种医疗名称缺乏统一的规定，各个机构对于这些医疗名称都有一套各自的命名标准，所以在处理不同厂商的数据时需要将指代同一物品的名词映射到一个标准名称或代码。
[0003]现有技术中大多采用预训练语言模型在公开的大文本库中进行预训练，后再将预训练好的模型在医疗业务数据上进行微调后得到的模型对测试数据进行编码求相似度的方法来对不同的医学名称进行匹配。该方法存在的问题是模型判断的准确度不是特别高，对于两个高度相似的标准名称，模型不能够准确分辨。原因在于相似句子的向量分布在空间中高度接近，这是预训练语言模型本身的性质导致的，在使用距离计算相似度时，接近的向量表示往往得到相似的匹配度，使得结果容易出错。
[0004]申请号为202111072717.3的中国专利公开了基于预训练模型的关键短语生成方法、装置及储存介质，包括：S1、获取待处理的文本数据；S2、对获取的文本数据进行分词和词性标注；S3、建立停用词库，去除存在于停用词库中的词；过滤掉不是动词和名词的词语；S4、进行N
‑
gram组合，得到候选词组合；S5、基于Bert的预训练模型分别对文本数据和候选词组合进行文本向量转化； S6、对文档级别的向量表示和候选词向量表示进行余弦相似度计算，进行语义相似度排序；S7、根据设定值选取S6中语...

【技术保护点】

【技术特征摘要】
1.一种医疗名称的映射方法，其特征在于，包括：获取待预测医疗名称；对所述待预测医疗名称进行分词处理，形成组合分词列表，其中，所述分词处理至少包括两种分词处理方式；获取目标文本向量化模型，将所述待预测医疗名称的整体和所述组合分词列表中的分词分别输入至获取到的目标文本向量化模型中，通过获取的目标文本向量化模型分别对所述待预测医疗名称的整体和所述分词列表进行计算，生成所述待预测医疗名称的完整嵌入向量；根据预存的各个标准医疗名称的嵌入向量和所述待预测医疗名称的完整嵌入向量，计算相似度并排序，选取相似度最高的标准医疗名称作为映射结果。2.根据权利要求1所述的医疗名称的映射方法，其特征在于，所述分词处理方式为通过n_gram进行分词处理，其中n为字节长度；所述分词处理方式至少包括：2_gram处理方式、3_gram处理方式和4_gram处理方式；所述分词列表为针对所述待预测医疗名称通过2_gram分词处理、3_gram分词处理和4_gram分词处理后组合形成的列表。3.根据权利要求1所述的医疗名称的映射方法，其特征在于：所述分词处理方式为：确定所述待预测医疗名称的字节长度为N，通过N_gram进行分词处理；所述分词处理方式至少包括：自2_gram至N
‑
1_gram分词处理方式。4.根据权利要求1所述的医疗名称的映射方法，其特征在于，所述目标文本向量化模型包括对所述待预测医疗名称整体进行向量化转换的第一目标文本向量化模型和对所述分词列表中的分词进行向量化转换的第二目标文本向量化模型；所述生成所述待预测医疗名称的完整嵌入向量包括：通过将所述待预测医疗名称的整体输入至第一目标文本向量化模型，生成所述待预测医疗名称整体嵌入向量；通过将所述组合分词列表中的分词依次输入至第二目标文本向量化模型，生成所述待预测医疗名称的所述组合分词列表的嵌入向量；根据所述待预测医疗名称的整体嵌入向量和所述组合分词列表的嵌入向量进行向量连接，生成所述待预测医疗名称的完整嵌入向量。5.一种医疗名称映射模型的训练方法，其特征在于：包括，获取医疗名称数据和公开数据；对所述医疗名称数据和公开数据进行处理，生成标准数据集和公开数据集...

【专利技术属性】
技术研发人员：沈丹婷，张灏，赵礼悦，陈鑫，
申请(专利权)人：北京亚信数据有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人