医学实体关系的识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号：34575034 阅读：20 留言：0更新日期：2022-08-17 13:07

本申请提供了一种医学实体关系的识别方法、装置、电子设备及存储介质，获取目标医疗记录文本；根据预先确定的医学实体识别模型对目标医疗记录文本进行实体词语识别，确定目标医疗记录文本中的医学实体词语；分别在每个医学实体词语的首尾位置处添加分隔符，并按目标医疗记录文本的阅读顺序，将识别出的医学实体词语按阅读顺序依次连接，生成医疗记录短语；将医疗记录短语添加至预先训练好的目标提示模板的尾部，构成待识别文本；将待识别文本输入至预训练语言模型中进行实体关系识别，得到待识别文本中掩码填写位置处医学实体关系的目标识别结果。这样，通过本申请提供的方法，可以降低人工成本投入以及提高医学实体关系识别结果的准确性。结果的准确性。结果的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
医学实体关系的识别方法、装置、电子设备及存储介质

[0001]本申请涉及电子信息
，尤其是涉及一种医学实体关系的识别方法、装置、电子设备及存储介质。

技术介绍

[0002]随着医院信息化的飞速发展，积累的医疗数据越来越多，其中最基础的医疗数据是电子病历，然而，由于电子病历大部分由自然语言构成且包含部分非结构化数据，使得电子病历中的有用信息无法被依赖于结构化数据的临床决策系统直接使用，因此就需要进行文本数据归一化处理。文本数据的归一化对实现临床决策辅助系统、内涵质控、鉴别诊断等应用起到重要作用，其中，医学实体关系识别为文本数据的归一化处理过程中的重要环节。
[0003]医学实体关系识别是指从电子病历中提取解剖部位、诊断、肿瘤分期等实体词语，基于提取的多个实体词语建立关系从而组成富有意义的短语。相关技术中，医学实体关系抽取主要依赖于规则的制定，而医学文本具有复杂性和专业性的特点，因此规则的制定和总结十分困难。此外，随着机器学习尤其是深度学习的发展，也可以通过深度学习的方式抽取医学实体关系，但深度学习的构建与训练需要基于大量已标注数据，在实际场景中，由于医疗数据标注成本大、对标注者专业度要求高等问题，导致了可用于深度学习训练中的数据非常有限，从而无法通过深度学习的方式大规模抽取医学实体关系。

技术实现思路

[0004]有鉴于此，本申请的目的在于提供一种医学实体关系的识别方法、装置、电子设备及存储介质，通过构建具有可训练数组的提示模板代替了人工设计模板，降低人工成本投入，并通过预训练语言模型直接...

【技术保护点】

【技术特征摘要】
1.一种医学实体关系的识别方法，其特征在于，所述识别方法包括：获取目标医疗记录文本；所述目标医疗记录文本记录在电子病历中；根据预先确定的医学实体识别模型对所述目标医疗记录文本进行实体词语识别，确定所述目标医疗记录文本所包括的医学实体词语；所述医学实体词语为具有医学信息的命名实体词；分别在每个医学实体词语的首尾位置处添加分隔符，并按所述目标医疗记录文本的阅读顺序，将识别出的所述医学实体词语按所述阅读顺序依次连接，生成医疗记录短语；将所述医疗记录短语添加至预先训练好的目标提示模板的尾部，构成待识别文本；其中，所述目标提示模板为对包括掩码填写位置和待训练数组的初始提示模板进行训练得到的，所述掩码填写位置用于填入所述目标医疗记录文本的医学实体关系的识别结果；将所述待识别文本输入至预训练语言模型中进行实体关系识别，得到所述待识别文本中掩码填写位置处医学实体关系的目标识别结果。2.根据权利要求1所述的识别方法，其特征在于，通过以下步骤构建所述目标提示模板：获取从电子病历中提取的多个待训练医疗记录文本；根据所述医学实体识别模型对每个待训练医疗记录文本进行实体词语识别，确定每个待训练医疗记录文本所包括的医学实体词语以及每个医学实体词语的实体类型；根据预设的至少一种样本生成规则，基于每个待训练医疗记录文本中每个医学实体词语的实体类型，分别对每个待训练医疗记录文本包括的医学实体词语进行筛选，并对筛选出的医学实体词语进行组合，确定每个待训练医疗记录文本对应的至少一个待训练样本；所述待训练样本中包括正样本和负样本，所述样本生成规则中规定了正样本中医学实体词语的实体类型；基于确定出的多个待训练样本对所述初始提示模板进行训练，生成目标提示模板；所述初始提示模板中的待训练数组为根据bert词表所构建的具有预设数量的待训练变量的数组。3.根据权利要求2所述的识别方法，其特征在于，每种样本生成规则均是根据所对应的预设的医疗项目进行构建的；其中，所述医疗项目中规定了具有医学实体关系时所需包括的医学实体词语的实体类型。4.根据权利要求2所述的识别方法，其特征在于，所述待训练样本包括待训练文本和文本关系标签，所述基于确定出的多个待训练样本对所述初始提示模板进行训练，生成目标提示模板，包括：针对每个待训练样本中的待训练文本，对该待训练文本中的每个医学实体词语的首尾位置处添加所述分隔符，得到...

【专利技术属性】
技术研发人员：凌鸿顺，李丽，张奇，
申请(专利权)人：北京惠每云科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人