【技术实现步骤摘要】
医学短语匹配方法、装置、设备及存储介质
[0001]本专利技术涉及医疗数据领域,尤其涉及一种医学短语匹配方法、装置、设备及存储介质。
技术介绍
[0002]医学临床短文本标准化是医学统计中一项必要任务。临床上,关于同一种诊疗、手术、疾病等往往会有很多写法。标准化要解决的问题就是要为临床上各种不同说法找到对应的标准说法。
[0003]预训练自然语言模型已对几乎下游所有类型的自然语言处理任务(序列标注、分类、句子关系判断等)有明显的促进作用。现有业内主流使用深度学习模型的也大多采用类似的预训练自然语言模型来解决短文本标准化问题。
[0004]现有方案只能为部分临床医学短语匹配标准医学短语,不能覆盖到所有临床文本数据,导致匹配模型对临床医学短语的匹配效率低,在真实临床数据场景下的适应性弱。
技术实现思路
[0005]本专利技术提供了一种医学短语匹配方法、装置、设备及存储介质,用于提高临床医学短语与标准医学短语之间的匹配效率,提高匹配模型在真实临床数据场景下的适应性。
[0006]本专利技术实 ...
【技术保护点】
【技术特征摘要】
1.一种医学短语匹配方法,其特征在于,包括:获取待识别短语,所述待识别短语包括多个医学实体;在预置的医学文本库中确定与所述待识别短语相关的标准医学短语集,所述标准医学短语集包括多个标准医学短语;将所述待识别短语与所述多个标准医学短语进行拼接,得到多个待识别医学语句;将所述多个待识别医学语句分别输入训练好的BERT模型中,生成多个待识别医学语句向量;根据所述多个待识别医学语句向量生成多个相似度;比较所述多个相似度的取值大小,确定取值最大的目标相似度,并根据所述目标相似度确定与所述待识别短语匹配的标准医学短语。2.根据权利要求1所述的医学短语匹配方法,其特征在于,所述在预置的医学文本库中确定与所述待识别短语相关的标准医学短语集,所述标准医学短语集包括多个标准医学短语,包括:确定所述待识别短语中每个医学实体对应的实体类型和所属的目标医学类别;在所述预置的医学文本库中抽取所述目标医学类别中全部候选医学词语,得到目标类别医学词语;在所述目标类别医学词语中选择与所述实体类型对应的待选择医学词语,确定多个标准医学短语,得到标准医学短语集。3.根据权利要求1所述的医学短语匹配方法,其特征在于,所述将所述待识别短语与所述多个标准医学短语进行拼接,得到多个待识别医学语句,包括:对所述多个标准医学短语中的标准医学短语进行排序,得到多个待拼接医学短语和对应的排列顺序;按照所述对应的排列顺序依次将所述多个待拼接医学短语与所述待识别短语进行连接,得到多个拼接的医学语句;在每个拼接的医学语句中加入起始符号和分隔符号,生成多个待识别医学语句。4.根据权利要求1所述的医学短语匹配方法,其特征在于,所述将所述多个待识别医学语句分别输入训练好的BERT模型中,生成多个待识别医学语句向量,包括:将所述多个待识别医学语句分别输入训练好的BERT模型的transformer层中,生成多个待处理医学语句向量;通过所述训练好的BERT模型的池化层对所述多个待识别医学语句进行实体识别,得到多个字向量;将所述多个字向量分别与每个待处理医学语句向量进行求和并取均值,生成多个待识别医学语句向量。5.根据权利要求1-4中任意一项所述的医学短语匹配方法,其特征在于,在所述获取待识别短语,所述待识别短语包括多个医学实体之前,所述医学短语匹配方法还包括:对初始改进的BERT模型进行训练,得到训练好的BERT模型。6.根据权利要求5所述的医学短语匹配方法,其特征在于,所述对初始改进的BERT模型进行训练,得到训练好的BERT模型,包...
【专利技术属性】
技术研发人员:郭建福,
申请(专利权)人:平安医疗健康管理股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。