医疗事件的抽取方法和装置制造方法及图纸

技术编号:39301135 阅读:11 留言:0更新日期:2023-11-12 15:52
本发明专利技术公开了一种医疗事件的抽取方法和装置。该医疗事件的抽取方法包括:将医疗电子病历输入训练完成的命名实体识别模型进行识别,得到命名实体识别结果;将命名实体识别结果输入训练完成的事件论元填充模型进行事件提取,得到的结构化事件信息;依据结构化事件信息确定医疗电子病历中的目标医疗事件。本发明专利技术提供的方案能够达到提高医疗信息处理的效率和改善了医疗服务质量,还为后续的医疗知识对齐和融合奠定基础的技术效果。对齐和融合奠定基础的技术效果。对齐和融合奠定基础的技术效果。

【技术实现步骤摘要】
医疗事件的抽取方法和装置


[0001]本专利技术涉及互联网技术应用领域,尤其涉及一种医疗事件的抽取方法和装置。

技术介绍

[0002]在医疗领域,医疗电子病历等数字化工具能够高效记录患者的诊疗信息。其中,以医疗电子病历为例,医疗电子病历的优点在于可以快速判断合理诊疗行为,并且方便存储。
[0003]但是医疗电子病历的数据往往是以书面化的形式存在的,无法对医疗电子病历进行语义层面的分析和检索,因此信息提取难度较大。而且,传统的医疗电子病历还有内容缺失、错误、重复等问题,基于上述问题会存在如下缺陷:影响医疗质量和安全、增加医疗纠纷的风险、降低数据的可靠性和利用价值、以及,影响统计分析和科研等。这些缺陷不但会影响医院的管理和评价,还可能降低医疗电子病历的法律地位和证据力。同时,存储和管理体系的不完善也会导致医生实施不符合治疗目标的治疗措施,从而浪费医疗资源并可能对患者的生命和财产安全构成威胁。
[0004]针对由于现有技术中医疗电子病历功能单一,且无法提取有效信息的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]为解决上述技术问题,本专利技术实施例期望提供一种医疗事件的抽取方法和装置,以至少解决由于现有技术中医疗电子病历功能单一,且无法提取有效信息的问题。
[0006]本专利技术的技术方案是这样实现的:
[0007]本专利技术实施例提供一种医疗事件的抽取方法,包括:将医疗电子病历输入训练完成的命名实体识别模型进行识别,得到命名实体识别结果;将命名实体识别结果输入训练完成的事件论元填充模型进行事件提取,得到的结构化事件信息;依据结构化事件信息确定医疗电子病历中的目标医疗事件。
[0008]可选的,在命名实体识别模型和事件论元填充模型训练之前,该方法还包括:从医疗数据库中获取医疗电子病历数据、预设事件论元角色和命名实体识别类型;依据命名实体识别类型对医疗电子病历数据进行标注,得到医疗电子病历数据中的实体信息;依据预设事件论元角色对医疗电子病历数据进行标注,得到医疗电子病历数据中的事件信息;依据医疗电子病历数据、事件信息和实体信息生成数据集文件;依据数据集文件生成训练数据和测试数据;其中,事件信息包括:预设事件论元角色的label数据,预设事件论元角色包括:主体词、描述词、解剖部位以及发生状态;实体信息包括:命名实体识别类型的label数据,命名实体识别类型包括:疾病名称、发病部位、发病症状和患者状态。
[0009]进一步地,可选的,训练命名实体识别模型,得到训练完成的命名实体识别模型,其中,训练命名实体识别模型,得到训练完成的命名实体识别模型包括:将训练数据输入命名实体识别模型中,对训练数据中的实体进行BIO标注,得到标注结果,依据标注结果计算损失函数进行反向传播,得到实体抽取结果,直至命名实体识别模型收敛,得到训练完成的
命名实体识别模型;其中,训练数据包括:医疗电子病历数据和命名实体识别的label数据。
[0010]可选的,该方法还包括:训练事件论元填充模型,得到训练完成的事件论元填充模型,其中,训练事件论元填充模型,得到训练完成的事件论元填充模型包括:将医疗电子病历数据、预设事件论元角色的label数据以及命名实体识别模型得到的实体抽取结果,输入事件论元填充模型;通过事件论元填充模型中的BERT提取医疗电子病历数据中的词向量;对词向量通过最大池化生成实体向量,对实体向量叠加实体位置编码,得到叠加实体位置编码的实体向量,将叠加实体位置编码的实体向量输入实体向量编码器中进行编码,得到编码后的实体向量;将编码后的实体向量与论元角色编码进行叠加,得到叠加数据,将叠加数据与论元缓存队列进行拼接,输入事件论元解码器,通过事件论元解码器依据预设阈值从拼接的叠加数据与论元缓存队列中提取对应事件论元角色的实体向量,保存至论元缓存队列中,在论元缓存队列中加入特殊向量进行分隔,并根据预设事件论元角色的label数据计算损失函数,计算出的损失函数取平均值后进行反向传播;直至事件论元填充模型收敛,得到训练完成的事件论元填充模型;其中,论元缓存队列,用于记录已提取出的论元。
[0011]进一步地,可选的,通过事件论元填充模型中的BERT提取医疗电子病历数据中的词向量包括:对输入的医疗电子病历数据进行tokenize分词,通过在医疗电子病历数据的头尾加上特殊token[cls]和[sep],得到文本W=[w1,w2……
w
n
],其中,w
t
为在文本t位置的token,n为文本进行分词后的token总数,把W输入到BERT后得到词向量表示H=[h1,h2,

,h
n
],过程表示为:
[0012]H=BERT(W)。
[0013]可选的,对词向量通过最大池化生成实体向量包括:将词向量中实体所对应的词向量进行最大池化,得到实体向量;其中,实体向量记作:E=[e1,e2,

e
k
],其中k表示命名实体识别过程中抽取的实体数。
[0014]进一步地,可选的,对实体向量叠加实体位置编码,得到叠加实体位置编码的实体向量,将叠加实体位置编码的实体向量输入实体向量编码器中进行编码,得到编码后的实体向量记作:
[0015][0016]其中,E

为编码后的实体向量,E

=[e1′
,e2′
,

e

k
];实体位置编码记作P。
[0017]可选的,将编码后的实体向量与论元角色编码进行叠加,得到叠加数据,将叠加数据与论元缓存队列进行拼接,输入事件论元解码器记作:
[0018][0019]其中,RoleProbs表示各实体为论元的概率,CacheList表示论元缓存队列;R为论元角色编码。
[0020]进一步地,可选的,通过事件论元解码器依据预设阈值从拼接的叠加数据与论元缓存队列中提取对应事件论元角色的实体向量,保存至论元缓存队列中,在论元缓存队列中加入特殊向量进行分隔包括:判断提取的事件论元角色是否为主体词;在判断结果为是的情况下,根据预设阈值筛选论元,其中,根据预设阈值筛选论元包括:将论元概率大于预设阈值的实体向量标注为论元,对论元创建对应的事件分支,并将论元拼接至对应事件的论元缓存队列,通过特殊向量作为分隔,得到分隔后的论元缓存队列,记作:
[0021]CacheList

=concat(CacheList,ArgVec,Role);
[0022]其中,Role为筛选出的论元,ArgVec作为特殊向量,CacheList

为分隔后的论元缓存队列;
[0023]在判断结果为否的情况下,根据预设阈值筛选论元,其中,根据预设阈值筛选论元包括:将论元概率大于预设阈值的实体向量得到论元列表,将论元列表拼接至论元缓存队列,通过特殊向量作为分隔,得到分隔后的论元缓存队列,记作:
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医疗事件的抽取方法,其特征在于,包括:将医疗电子病历输入训练完成的命名实体识别模型进行识别,得到命名实体识别结果;将所述命名实体识别结果输入训练完成的事件论元填充模型进行事件提取,得到的结构化事件信息;依据所述结构化事件信息确定所述医疗电子病历中的目标医疗事件。2.根据权利要求1所述的医疗事件的抽取方法,其特征在于,在所述命名实体识别模型和所述事件论元填充模型训练之前,所述方法还包括:从医疗数据库中获取医疗电子病历数据、预设事件论元角色和命名实体识别类型;依据所述命名实体识别类型对所述医疗电子病历数据进行标注,得到所述医疗电子病历数据中的实体信息;依据所述预设事件论元角色对所述医疗电子病历数据进行标注,得到所述医疗电子病历数据中的事件信息;依据所述医疗电子病历数据、所述事件信息和所述实体信息生成数据集文件;依据所述数据集文件生成训练数据和测试数据;其中,所述事件信息包括:所述预设事件论元角色的label数据,所述预设事件论元角色包括:主体词、描述词、解剖部位以及发生状态;所述实体信息包括:所述命名实体识别类型的label数据,所述命名实体识别类型包括:疾病名称、发病部位、发病症状和患者状态。3.根据权利要求2所述的医疗事件的抽取方法,其特征在于,所述方法还包括:训练命名实体识别模型,得到所述训练完成的命名实体识别模型,其中,所述训练命名实体识别模型,得到所述训练完成的命名实体识别模型包括:将所述训练数据输入所述命名实体识别模型中,对所述训练数据中的实体进行BIO标注,得到标注结果,依据所述标注结果计算损失函数进行反向传播,得到实体抽取结果,直至所述命名实体识别模型收敛,得到所述训练完成的命名实体识别模型;其中,所述训练数据包括:医疗电子病历数据和命名实体识别的label数据。4.根据权利要求3所述的医疗事件的抽取方法,其特征在于,所述方法还包括:训练事件论元填充模型,得到所述训练完成的事件论元填充模型,其中,所述训练事件论元填充模型,得到所述训练完成的事件论元填充模型包括:将所述医疗电子病历数据、所述预设事件论元角色的label数据以及所述命名实体识别模型得到的实体抽取结果,输入所述事件论元填充模型;通过所述事件论元填充模型中的BERT提取所述医疗电子病历数据中的词向量;对所述词向量通过最大池化生成实体向量,对所述实体向量叠加实体位置编码,得到叠加实体位置编码的所述实体向量,将叠加实体位置编码的所述实体向量输入实体向量编码器中进行编码,得到编码后的所述实体向量;将编码后的所述实体向量与论元角色编码进行叠加,得到叠加数据,将所述叠加数据与论元缓存队列进行拼接,输入事件论元解码器,通过所述事件论元解码器依据预设阈值从拼接的所述叠加数据与论元缓存队列中提取对应事件论元角色的实体向量,保存至所述论元缓存队列中,在所述论元缓存队列中加入特殊向量进行分隔,并根据所述预设事件论元角色的label数据计算损失函数,计算出的损失函数取平均值后进行反向传播;直至所述
事件论元填充模型收敛,得到所述训练完成的事件论元填充模型;其中,所述论元缓存队列,用于记录已提取出的论元。5.根据权利要求4所述的医疗事件的抽取方法,其特征在于,所述通过所述事件论元填充模型中的BERT提取所述医疗电子病历数据中的词向量包括:对输入的所述医疗电子病历数据进行tokenize分词,通过在所述医疗电子病历数据的头尾加上特殊token[cls]和[sep],得到文本W=[w1,w2……
w
n
],其中,w
t
为在文本t位置的token,n为文本进行分词后的token总数,把W输入到BERT后得到所述词向量表示H=[h1,h2,

,...

【专利技术属性】
技术研发人员:章步镐蒋立靓叶衍统李永强冯远静孔桦桦罗鹏
申请(专利权)人:银江技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1