医学实体关系的识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:34575034 阅读:20 留言:0更新日期:2022-08-17 13:07
本申请提供了一种医学实体关系的识别方法、装置、电子设备及存储介质,获取目标医疗记录文本;根据预先确定的医学实体识别模型对目标医疗记录文本进行实体词语识别,确定目标医疗记录文本中的医学实体词语;分别在每个医学实体词语的首尾位置处添加分隔符,并按目标医疗记录文本的阅读顺序,将识别出的医学实体词语按阅读顺序依次连接,生成医疗记录短语;将医疗记录短语添加至预先训练好的目标提示模板的尾部,构成待识别文本;将待识别文本输入至预训练语言模型中进行实体关系识别,得到待识别文本中掩码填写位置处医学实体关系的目标识别结果。这样,通过本申请提供的方法,可以降低人工成本投入以及提高医学实体关系识别结果的准确性。结果的准确性。结果的准确性。

【技术实现步骤摘要】
医学实体关系的识别方法、装置、电子设备及存储介质


[0001]本申请涉及电子信息
,尤其是涉及一种医学实体关系的识别方法、装置、电子设备及存储介质。

技术介绍

[0002]随着医院信息化的飞速发展,积累的医疗数据越来越多,其中最基础的医疗数据是电子病历,然而,由于电子病历大部分由自然语言构成且包含部分非结构化数据,使得电子病历中的有用信息无法被依赖于结构化数据的临床决策系统直接使用,因此就需要进行文本数据归一化处理。文本数据的归一化对实现临床决策辅助系统、内涵质控、鉴别诊断等应用起到重要作用,其中,医学实体关系识别为文本数据的归一化处理过程中的重要环节。
[0003]医学实体关系识别是指从电子病历中提取解剖部位、诊断、肿瘤分期等实体词语,基于提取的多个实体词语建立关系从而组成富有意义的短语。相关技术中,医学实体关系抽取主要依赖于规则的制定,而医学文本具有复杂性和专业性的特点,因此规则的制定和总结十分困难。此外,随着机器学习尤其是深度学习的发展,也可以通过深度学习的方式抽取医学实体关系,但深度学习的构建与训练需要基于大量已标注数据,在实际场景中,由于医疗数据标注成本大、对标注者专业度要求高等问题,导致了可用于深度学习训练中的数据非常有限,从而无法通过深度学习的方式大规模抽取医学实体关系。

技术实现思路

[0004]有鉴于此,本申请的目的在于提供一种医学实体关系的识别方法、装置、电子设备及存储介质,通过构建具有可训练数组的提示模板代替了人工设计模板,降低人工成本投入,并通过预训练语言模型直接对由医疗记录短语和目标提示模板组成的待识别文本进行医学实体关系识别,可以有效的提高识别结果的准确性。
[0005]本申请实施例提供了一种医学实体关系的识别方法,所述识别方法包括:获取目标医疗记录文本;所述目标医疗记录文本记录在电子病历中;根据预先确定的医学实体识别模型对所述目标医疗记录文本进行实体词语识别,确定所述目标医疗记录文本所包括的医学实体词语;所述医学实体词语为具有医学信息的命名实体词;分别在每个医学实体词语的首尾位置处添加分隔符,并按所述目标医疗记录文本的阅读顺序,将识别出的所述医学实体词语按所述阅读顺序依次连接,生成医疗记录短语;将所述医疗记录短语添加至预先训练好的目标提示模板的尾部,构成待识别文本;其中,所述目标提示模板为对包括掩码填写位置和待训练数组的初始提示模板进行训练得到的,所述掩码填写位置用于填入所述目标医疗记录文本的医学实体关系的识别结果;将所述待识别文本输入至预训练语言模型中进行实体关系识别,得到所述待识别文本中掩码填写位置处医学实体关系的目标识别结果。
[0006]可选的,通过以下步骤构建所述目标提示模板:获取从电子病历中提取的多个待训练医疗记录文本;根据所述医学实体识别模型对每个待训练医疗记录文本进行实体词语识别,确定每个待训练医疗记录文本所包括的医学实体词语以及每个医学实体词语的实体类型;根据预设的至少一种样本生成规则,基于每个待训练医疗记录文本中每个医学实体词语的实体类型,分别对每个待训练医疗记录文本包括的医学实体词语进行筛选,并对筛选出的医学实体词语进行组合,确定每个待训练医疗记录文本对应的至少一个待训练样本;所述待训练样本中包括正样本和负样本,所述样本生成规则中规定了正样本中医学实体词语的实体类型;基于确定出的多个待训练样本对所述初始提示模板进行训练,生成目标提示模板;所述初始提示模板中的待训练数组为根据bert词表所构建的具有预设数量的待训练变量的数组。
[0007]可选的,每种样本生成规则均是根据所对应的预设的医疗项目进行构建的;其中,所述医疗项目中规定了具有医学实体关系时所需包括的医学实体词语的实体类型。
[0008]可选的,所述待训练样本包括待训练文本和文本关系标签,所述基于确定出的多个待训练样本对所述初始提示模板进行训练,生成目标提示模板,包括:针对每个待训练样本中的待训练文本,对该待训练文本中的每个医学实体词语的首尾位置处添加所述分隔符,得到目标待训练文本;针对每个目标待训练文本,将该目标待训练文本的文本关系标签添加至所述初始提示模板中的掩码填写位置,以及将该目标待训练文本添加至所述初始提示模板尾部,形成待训练输入特征;将所有待训练输入特征集合输入至预训练语言模型中,对所述初始提示模板中的可训练数组进行参数优化,直至所述预训练语言模型收敛,得到目标提示模板。
[0009]可选的,所述医疗项目包括症状、药品、手术、评分表、检验以及检查。
[0010]可选的,在将所有待训练输入特征集合输入至预训练语言模型中,对所述初始提示模板中的可训练数组进行参数优化时,固定所述预训练语言模型的模型参数不变。
[0011]可选的,所述预训练语言模型为bert模型。
[0012]本申请实施例还提供了一种医学实体关系的识别装置,所述识别装置包括:获取模块,用于获取目标医疗记录文本;所述目标医疗记录文本记录在电子病历中;第一确定模块,用于根据预先确定的医学实体识别模型对所述目标医疗记录文本进行实体词语识别,确定所述目标医疗记录文本所包括的医学实体词语;所述医学实体词语为具有医学信息的命名实体词;生成模块,用于分别在每个医学实体词语的首尾位置处添加分隔符,并按所述目标医疗记录文本的阅读顺序,将识别出的所述医学实体词语按所述阅读顺序依次连接,生成医疗记录短语;第二确定模块,用于将所述医疗记录短语添加至预先训练好的目标提示模板的尾部,构成待识别文本;其中,所述目标提示模板为对包括掩码填写位置和待训练数组的初始提示模板进行训练得到的,所述掩码填写位置用于填入所述目标医疗记录文本的医学实体
关系的识别结果;第三确定模块,用于将所述待识别文本输入至预训练语言模型中进行实体关系识别,得到所述待识别文本中掩码填写位置处医学实体关系的目标识别结果。
[0013]可选的,所述识别装置中还包括构建模块,所述构建模块用于:获取从电子病历中提取的多个待训练医疗记录文本;根据所述医学实体识别模型对每个待训练医疗记录文本进行实体词语识别,确定每个待训练医疗记录文本所包括的医学实体词语以及每个医学实体词语的实体类型;根据预设的至少一种样本生成规则,基于每个待训练医疗记录文本中每个医学实体词语的实体类型,分别对每个待训练医疗记录文本包括的医学实体词语进行筛选,并对筛选出的医学实体词语进行组合,确定每个待训练医疗记录文本对应的至少一个待训练样本;所述待训练样本中包括正样本和负样本,所述样本生成规则中规定了正样本中医学实体词语的实体类型;基于确定出的多个待训练样本对所述初始提示模板进行训练,生成目标提示模板;所述初始提示模板中的待训练数组为根据bert词表所构建的具有预设数量的待训练变量的数组。
[0014]可选的,每种样本生成规则均是根据所对应的预设的医疗项目进行构建的;其中,所述医疗项目中规定了具有医学实体关系时所需包括的医学实体词语的实体类型。
[0015]可选的,所述待训练样本包括训练文本和文本关系标签,所述构建模块在用于基于确定出的多个待训练样本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医学实体关系的识别方法,其特征在于,所述识别方法包括:获取目标医疗记录文本;所述目标医疗记录文本记录在电子病历中;根据预先确定的医学实体识别模型对所述目标医疗记录文本进行实体词语识别,确定所述目标医疗记录文本所包括的医学实体词语;所述医学实体词语为具有医学信息的命名实体词;分别在每个医学实体词语的首尾位置处添加分隔符,并按所述目标医疗记录文本的阅读顺序,将识别出的所述医学实体词语按所述阅读顺序依次连接,生成医疗记录短语;将所述医疗记录短语添加至预先训练好的目标提示模板的尾部,构成待识别文本;其中,所述目标提示模板为对包括掩码填写位置和待训练数组的初始提示模板进行训练得到的,所述掩码填写位置用于填入所述目标医疗记录文本的医学实体关系的识别结果;将所述待识别文本输入至预训练语言模型中进行实体关系识别,得到所述待识别文本中掩码填写位置处医学实体关系的目标识别结果。2.根据权利要求1所述的识别方法,其特征在于,通过以下步骤构建所述目标提示模板:获取从电子病历中提取的多个待训练医疗记录文本;根据所述医学实体识别模型对每个待训练医疗记录文本进行实体词语识别,确定每个待训练医疗记录文本所包括的医学实体词语以及每个医学实体词语的实体类型;根据预设的至少一种样本生成规则,基于每个待训练医疗记录文本中每个医学实体词语的实体类型,分别对每个待训练医疗记录文本包括的医学实体词语进行筛选,并对筛选出的医学实体词语进行组合,确定每个待训练医疗记录文本对应的至少一个待训练样本;所述待训练样本中包括正样本和负样本,所述样本生成规则中规定了正样本中医学实体词语的实体类型;基于确定出的多个待训练样本对所述初始提示模板进行训练,生成目标提示模板;所述初始提示模板中的待训练数组为根据bert词表所构建的具有预设数量的待训练变量的数组。3.根据权利要求2所述的识别方法,其特征在于,每种样本生成规则均是根据所对应的预设的医疗项目进行构建的;其中,所述医疗项目中规定了具有医学实体关系时所需包括的医学实体词语的实体类型。4.根据权利要求2所述的识别方法,其特征在于,所述待训练样本包括待训练文本和文本关系标签,所述基于确定出的多个待训练样本对所述初始提示模板进行训练,生成目标提示模板,包括:针对每个待训练样本中的待训练文本,对该待训练文本中的每个医学实体词语的首尾位置处添加所述分隔符,得到...

【专利技术属性】
技术研发人员:凌鸿顺李丽张奇
申请(专利权)人:北京惠每云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1