一种医疗实体关系抽取方法及装置制造方法及图纸

技术编号:27940255 阅读:17 留言:0更新日期:2021-04-02 14:21
本申请涉及信息抽取技术领域,提供一种医疗实体关系抽取方法及装置,以解决传统Pipeline式关系抽取法计算冗余、准确率低的问题,该方法包括:基于第一医疗文本中的医疗文本特征,确定对应的至少一个医疗关系;基于第一医疗文本和至少一个医疗关系,得到至少一个第二医疗文本;将至少一个第二医疗文本输入到训练完毕的实体提取模型中,得到至少一个第二医疗文本所包含的医疗关系对应的实体对;基于至少一个医疗关系和对应的实体对,生成对应的三元组。先确定医疗关系,再确定每个医疗关系对应的实体对,这样无需冗余计算,不但节省了运算时间,也降低了运算复杂度,还提高了医疗关系识别的准确率。

【技术实现步骤摘要】
一种医疗实体关系抽取方法及装置
本申请涉及信息抽取
,提供了一种医疗实体关系抽取方法及装置。
技术介绍
实体关系相当于事物与事物之间的联系,而属性则丰富了人们对事物本身的认识。同理,医疗文本中也存在描述实体属性的信息,如,在“通过用手搔抓患癣的部位如足趾间,或与患者共用鞋袜、手套、浴巾、脚盆等是手癣的主要传播途径”这条医疗文本中,“手癣”的“传播途径”是“用手搔抓患……”。为了抽取医疗文本中的实体对,以及识别实体对之间的医疗关系,一般采用流水线Pipeline式关系抽取法进行信息抽取,形成如<头实体,医疗关系,尾实体>所示的三元组;再基于大量的三元组构建成医疗知识图谱,为其他自然语言处理(NaturalLanguageProcessing,NLP)技术(如,实体链接、查询query解析、问答系统、信息检索等)提供可解释性的先验知识和推理。例如,在“弥漫性肺泡出血易合并肺部感染”这条医疗文本中,“弥漫性肺泡出血”与“肺部感染”都是疾病,他们之间的医疗关系是“疾病-合并症”。在Pipeline式关系抽取法中,先获取到医疗文本中的所有实体,再将实体两两组合判断实体对之间的医疗关系。这样的话,一旦实体抽取错误将会直接影响到医疗关系识别的准确率,而且在判断实体对之间的医疗关系时,可能会因为两个不存在医疗关系的实体对生成冗余信息、增加运算复杂度,进而影响医疗关系识别的准确率。有鉴于此,本申请实施例提出了一种新的医疗实体关系抽取方法及装置。
技术实现思路
本申请实施例提供一种医疗实体关系抽取方法及装置,以解决传统Pipeline式关系抽取法计算冗余、准确率低的问题。第一方面,本申请实施例提供的一种医疗实体关系抽取方法,包括:从第一医疗文本中提取医疗文本特征,并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系;基于所述第一医疗文本和所述至少一个医疗关系,得到至少一个第二医疗文本,其中,每个第二医疗文本是基于所述第一医疗文本和一个医疗关系拼接得到的,且不同的第二医疗文本拼接使用的医疗关系不同;将所述至少一个第二医疗文本输入到训练完毕的实体提取模型中,得到所述至少一个第二医疗文本所包含的医疗关系对应的实体对;基于所述至少一个医疗关系和对应的实体对,生成对应的三元组。可选的,从第一医疗文本中提取医疗文本特征,并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系,包括:基于训练完毕的多标签分类模型,从所述第一医疗文本中提取所述医疗文本特征,并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系。可选的,基于训练完毕的多标签分类模型,从所述第一医疗文本中提取所述医疗文本特征,并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系,包括:对所述第一医疗文本进行分词处理,得到第一初始字序列;在所述第一初始字序列的首部添加第一分类字,以及在所述第一初始字序列的尾部添加第一分割字,形成第一目标字序列;对所述第一目标字序列进行特征提取,得到所述第一目标字序列中每个字的字向量,并将所述第一分类字的字向量作为所述医疗文本特征;基于所述医疗文本特征得到多个第一预测概率,其中一个第一预测概率对应一个预设的对应医疗关系,所述第一预测概率表征所述第一医疗文本属于对应医疗关系的概率;将超过预设阈值的第一预测概率所对应的医疗关系,确定为所述第一医疗文本的医疗关系。可选的,在确定所述第一医疗文本对应的至少一个医疗关系之后,还包括:若得到的所述第一医疗文本对应的至少一个医疗关系属于预设的易混淆医疗关系集合,则将所述第一医疗文本分别输入到所述至少一个医疗关系对应的分类模型中进行预测,并分别基于所述分类模型的预测结果,重新识别所述第一医疗文本所包含的医疗关系。可选的,基于所述分类模型的预测结果,重新识别所述第一医疗文本所包含的医疗关系,包括:若所述分类模型的预测结果是任意一个医疗关系,则不从所述第一医疗文本所包含的医疗关系中剔除所述任意一个医疗关系;或者,若所述分类模型的预测结果不是所述任意一个医疗关系,则从所述第一医疗文本所包含的医疗关系中剔除所述任意一个医疗关系。可选的,通过以下方式生成所述分类模型的预测结果:对所述第一医疗文本进行分词处理,得到第二初始字序列;在所述第二初始字序列的首部添加第二分类字,以及在所述第二初始字序列的尾部添加第二分割字,形成第二目标字序列;对所述第二目标字序列进行特征提取,得到所述第二目标字序列中每个字的字向量,并将所述第二分类字的字向量作为所述医疗文本特征;基于所述医疗文本特征得到第二预测概率,所述第二预测概率表征所述第一医疗文本属于所述任意一个医疗关系的概率;若所述第二预测概率超过预设阈值,则判定所述第一医疗关系为所述任意一个医疗文本的医疗关系;否则,判定所述任意一个医疗关系不是所述第一医疗文本的医疗关系。可选的,通过以下方式得到所述任意一个第二医疗文本所包含的医疗关系对应的实体对:对所述任意一个第二医疗文本进行分词处理,得到第三初始字序列;在所述第三初始字序列的首部添加第三分类字,以及在所述第三初始字序列的尾部添加第三分割字,形成第三目标字序列;对所述第三目标字序列进行特征提取,得到所述第三目标字序列中每个字的字向量;基于所述第三目标字序列中每个字的字向量,确定多个第三预测概率集合,其中一个第三预测概率集合表征所述第三目标字序列中任意一个字属于预设的每种实体的概率;基于所述多个第三预测概率集合,确定所述任意一个第二医疗文本所包含的医疗关系对应的实体对。第二方面,本申请实施例还提供了一种医疗实体关系抽取装置,包括:医疗关系识别模块,用于从第一医疗文本中提取医疗文本特征,并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系;拼接模块,用于基于所述第一医疗文本和所述至少一个医疗关系,得到至少一个第二医疗文本,其中,每个第二医疗文本是基于所述第一医疗文本和一个医疗关系拼接得到的,且不同的第二医疗文本拼接使用的医疗关系不同;实体提取模块,用于将所述至少一个第二医疗文本输入到训练完毕的实体提取模型中,得到所述至少一个第二医疗文本所包含的医疗关系对应的实体对;生成模块,用于基于所述至少一个医疗关系和对应的实体对,生成对应的三元组。可选的,所述医疗关系识别模块用于:基于训练完毕的多标签分类模型,从所述第一医疗文本中提取所述医疗文本特征,并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系。可选的,所述医疗关系识别模块用于:对所述第一医疗文本进行分词处理,得到第一初始字序列;在所述第一初始字序列的首部添加第一分类字,以及在所述第一初始字序列的尾部添加第一分割字,形成第一目标字序列;对所述第一目标字序列进行特征提取,得到所述第一目标字序列本文档来自技高网...

【技术保护点】
1.一种医疗实体关系抽取方法,其特征在于,包括:/n从第一医疗文本中提取医疗文本特征,并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系;/n基于所述第一医疗文本和所述至少一个医疗关系,得到至少一个第二医疗文本,其中,每个第二医疗文本是基于所述第一医疗文本和一个医疗关系拼接得到的,且不同的第二医疗文本拼接使用的医疗关系不同;/n将所述至少一个第二医疗文本输入到训练完毕的实体提取模型中,得到所述至少一个第二医疗文本所包含的医疗关系对应的实体对;/n基于所述至少一个医疗关系和对应的实体对,生成对应的三元组。/n

【技术特征摘要】
1.一种医疗实体关系抽取方法,其特征在于,包括:
从第一医疗文本中提取医疗文本特征,并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系;
基于所述第一医疗文本和所述至少一个医疗关系,得到至少一个第二医疗文本,其中,每个第二医疗文本是基于所述第一医疗文本和一个医疗关系拼接得到的,且不同的第二医疗文本拼接使用的医疗关系不同;
将所述至少一个第二医疗文本输入到训练完毕的实体提取模型中,得到所述至少一个第二医疗文本所包含的医疗关系对应的实体对;
基于所述至少一个医疗关系和对应的实体对,生成对应的三元组。


2.如权利要求1所述的方法,其特征在于,从第一医疗文本中提取医疗文本特征,并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系,包括:
基于训练完毕的多标签分类模型,从所述第一医疗文本中提取所述医疗文本特征,并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系。


3.如权利要求2所述的方法,其特征在于,基于训练完毕的多标签分类模型,从所述第一医疗文本中提取所述医疗文本特征,并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系,包括:
对所述第一医疗文本进行分词处理,得到第一初始字序列;
在所述第一初始字序列的首部添加第一分类字,以及在所述第一初始字序列的尾部添加第一分割字,形成第一目标字序列;
对所述第一目标字序列进行特征提取,得到所述第一目标字序列中每个字的字向量,并将所述第一分类字的字向量作为所述医疗文本特征;
基于所述医疗文本特征得到多个第一预测概率,其中一个第一预测概率对应一个预设的对应医疗关系,所述第一预测概率表征所述第一医疗文本属于对应医疗关系的概率;
将超过预设阈值的第一预测概率所对应的医疗关系,确定为所述第一医疗文本的医疗关系。


4.如权利要求2所述的方法,其特征在于,在确定所述第一医疗文本对应的至少一个医疗关系之后,还包括:
若得到的所述第一医疗文本对应的至少一个医疗关系属于预设的易混淆医疗关系集合,则将所述第一医疗文本分别输入到所述至少一个医疗关系对应的分类模型中进行预测,并分别基于所述分类模型的预测结果,重新识别所述第一医疗文本所包含的医疗关系。


5.如权利要求4所述的方法,其特征在于,基于所述分类模型的预测结果,重新识别所述第一医疗文本所包含的医疗关系,包括:
若所述分类模型的预测结果是任意一个医疗关系,则不从所述第一医疗文本所包含的医疗关系中剔除所述任意一个医疗关系;或者,
若所述分类模型的预测结果不是所述任意一个语义关系,则从所述第一医疗文本所包含的医疗关系中剔除所述任意一个医疗关系...

【专利技术属性】
技术研发人员:程龙龙崔丙剑马思远袁丁李铭辉
申请(专利权)人:中电云脑天津科技有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1