【技术实现步骤摘要】
一种医疗实体关系抽取方法及装置
本申请涉及信息抽取
,提供了一种医疗实体关系抽取方法及装置。
技术介绍
实体关系相当于事物与事物之间的联系,而属性则丰富了人们对事物本身的认识。同理,医疗文本中也存在描述实体属性的信息,如,在“通过用手搔抓患癣的部位如足趾间,或与患者共用鞋袜、手套、浴巾、脚盆等是手癣的主要传播途径”这条医疗文本中,“手癣”的“传播途径”是“用手搔抓患……”。为了抽取医疗文本中的实体对,以及识别实体对之间的医疗关系,一般采用流水线Pipeline式关系抽取法进行信息抽取,形成如<头实体,医疗关系,尾实体>所示的三元组;再基于大量的三元组构建成医疗知识图谱,为其他自然语言处理(NaturalLanguageProcessing,NLP)技术(如,实体链接、查询query解析、问答系统、信息检索等)提供可解释性的先验知识和推理。例如,在“弥漫性肺泡出血易合并肺部感染”这条医疗文本中,“弥漫性肺泡出血”与“肺部感染”都是疾病,他们之间的医疗关系是“疾病-合并症”。在Pipeline式关系抽取法中,先获取到医疗文本中的所有实体,再将实体两两组合判断实体对之间的医疗关系。这样的话,一旦实体抽取错误将会直接影响到医疗关系识别的准确率,而且在判断实体对之间的医疗关系时,可能会因为两个不存在医疗关系的实体对生成冗余信息、增加运算复杂度,进而影响医疗关系识别的准确率。有鉴于此,本申请实施例提出了一种新的医疗实体关系抽取方法及装置。
技术实现思路
本申请实施例提 ...
【技术保护点】
1.一种医疗实体关系抽取方法,其特征在于,包括:/n从第一医疗文本中提取医疗文本特征,并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系;/n基于所述第一医疗文本和所述至少一个医疗关系,得到至少一个第二医疗文本,其中,每个第二医疗文本是基于所述第一医疗文本和一个医疗关系拼接得到的,且不同的第二医疗文本拼接使用的医疗关系不同;/n将所述至少一个第二医疗文本输入到训练完毕的实体提取模型中,得到所述至少一个第二医疗文本所包含的医疗关系对应的实体对;/n基于所述至少一个医疗关系和对应的实体对,生成对应的三元组。/n
【技术特征摘要】
1.一种医疗实体关系抽取方法,其特征在于,包括:
从第一医疗文本中提取医疗文本特征,并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系;
基于所述第一医疗文本和所述至少一个医疗关系,得到至少一个第二医疗文本,其中,每个第二医疗文本是基于所述第一医疗文本和一个医疗关系拼接得到的,且不同的第二医疗文本拼接使用的医疗关系不同;
将所述至少一个第二医疗文本输入到训练完毕的实体提取模型中,得到所述至少一个第二医疗文本所包含的医疗关系对应的实体对;
基于所述至少一个医疗关系和对应的实体对,生成对应的三元组。
2.如权利要求1所述的方法,其特征在于,从第一医疗文本中提取医疗文本特征,并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系,包括:
基于训练完毕的多标签分类模型,从所述第一医疗文本中提取所述医疗文本特征,并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系。
3.如权利要求2所述的方法,其特征在于,基于训练完毕的多标签分类模型,从所述第一医疗文本中提取所述医疗文本特征,并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系,包括:
对所述第一医疗文本进行分词处理,得到第一初始字序列;
在所述第一初始字序列的首部添加第一分类字,以及在所述第一初始字序列的尾部添加第一分割字,形成第一目标字序列;
对所述第一目标字序列进行特征提取,得到所述第一目标字序列中每个字的字向量,并将所述第一分类字的字向量作为所述医疗文本特征;
基于所述医疗文本特征得到多个第一预测概率,其中一个第一预测概率对应一个预设的对应医疗关系,所述第一预测概率表征所述第一医疗文本属于对应医疗关系的概率;
将超过预设阈值的第一预测概率所对应的医疗关系,确定为所述第一医疗文本的医疗关系。
4.如权利要求2所述的方法,其特征在于,在确定所述第一医疗文本对应的至少一个医疗关系之后,还包括:
若得到的所述第一医疗文本对应的至少一个医疗关系属于预设的易混淆医疗关系集合,则将所述第一医疗文本分别输入到所述至少一个医疗关系对应的分类模型中进行预测,并分别基于所述分类模型的预测结果,重新识别所述第一医疗文本所包含的医疗关系。
5.如权利要求4所述的方法,其特征在于,基于所述分类模型的预测结果,重新识别所述第一医疗文本所包含的医疗关系,包括:
若所述分类模型的预测结果是任意一个医疗关系,则不从所述第一医疗文本所包含的医疗关系中剔除所述任意一个医疗关系;或者,
若所述分类模型的预测结果不是所述任意一个语义关系,则从所述第一医疗文本所包含的医疗关系中剔除所述任意一个医疗关系...
【专利技术属性】
技术研发人员:程龙龙,崔丙剑,马思远,袁丁,李铭辉,
申请(专利权)人:中电云脑天津科技有限公司,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。