一种基于语义分割的药物不良事件关系抽取方法技术

技术编号:35750373 阅读:9 留言:0更新日期:2022-11-26 18:56
本发明专利技术提供一种基于语义分割的药物不良事件关系抽取方法,包括以下步骤:具有局部上下文信息特征提取器、语义特征融合器、分类器和样本不平衡处理器的药物不良事件关系抽取模型搭建,数据预处理,模型训练与参数优化及药物不良事件关系抽取。本方法通过使用特殊符号在药物提及前后进行标记并用悬浮标记将不良事件提及标注拼接在文本后面,能更好地识别提及的边界;同时引入U形语义分割网络融合局部上下文信息来捕获药物不良事件之间的全局相互依赖性,能更精确的找到关键信息;另外运用一种平衡的softmax方法来处理不平衡关系分布,避免不相关提及三元组对对模型造成的影响,更精准的抽取出医学文本中的药物不良事件关系。关系。关系。

【技术实现步骤摘要】
一种基于语义分割的药物不良事件关系抽取方法


[0001]本专利技术涉及医学文本数据挖掘
,具体涉及一种基于语义分割的药物不良事件关系抽取方法。

技术介绍

[0002]药物不良事件(Adverse Drug Event,ADE)是指药物治疗过程中出现的不良临床事件,它不一定与该药有因果关系。导致药物不良事件的原因主要有两个,一个是药品质量问题,另一个是用药错误。药物不良事件严重危害了患者的身体健康,并为整个医疗系统和社会带来巨大的经济损失。据统计,由于药物不良事件导致的紧急出诊率占总出诊率的28%,并且由于药物不良事件的重要性及其危害性,目前己受到生命科学、生物学以及综合医学等各个领域的科研工作者们的广泛关注。另外,尽管药物发现的最终目标是开发用于特定疾病治疗的化学药品,但是,认识到化学药品及其导致的不良药物反应的对应关系,对于提高化学安全性和毒性研究,以及促进新的药物化合物筛选方法至关重要。
[0003]经过研究工作者的长期探索,基于文本挖掘的药物不良事件研究技术己从早期的基于模板和规则的方法逐步发展成为以数据为导向的传统基于机器学习的方法,并在理论和实际研究中都取得了重大突破。此外,随着深度学习方法的兴起与发展,基于神经网络的深度学习框架也为文本挖掘方法提供了新的思路。由于神经网络模型能够通过大规模数据训练,自动地从原始数据中学习到数据内部特征,因此在语音和图像识别领域己经取得了突破性进展,在自然语言处理领域也表现出巨大的潜力。因此,基于深度学习的文本挖掘方法将成为未来研究发展的趋势。而利用基于深度学习的文本挖掘方法对药物不良事件进行研究,对促进生物医学相关研究的发展具有重大的价值和推动作用。
[0004]本申请的专利技术人经过研究发现,由于药物不良事件的特殊定义,从自然语言文本中识别出所有药物和不良事件提及并抽取出药物及其对应的不良事件关系具有以下问题:(1)随着生物医学领域药物研发进程的加快,在上市前的临床试验中,由于试验条件的限制,很多药物的不良事件很难被发现并列在不良事件报告中;此外,由于一些药物不良事件在用药一段时间后才会出现,或者在特定的人群中出现,因此很多潜在不良事件无法被现有词典或数据库覆盖,仅依靠词典和规则方法很难找到这些潜在的药物不良事件提及;(2)同一个病征提及在不同语境下既可能是药物不良事件也可能是适应症,因此对药物不良事件提及的识别更加依赖于对上下文语义关系的理解,从而对具体的药物不良事件加以区分;(3)针对同一个药物不良事件没有统一的命名方式,同一种疾病可能有多种表达方式,此类问题会导致提及名称稀疏,在有限的标注语料集中难以得到充分学习,难以识别;(4)在一些自然语言文本中,经常用非医学术语表示药物不良事件,这种非医学术语经常与前后文的普通单词或者形容词相连来表示一个药物不良事件提及,因此难以判断药物不良事件提及的边界,从而造成识别不准确。

技术实现思路

[0005]针对现有药物及其对应不良事件关系抽取存在的技术问题,本专利技术提供一种基于语义分割的药物不良事件关系抽取方法,该方法通过使用特殊符号在药物提及前后进行标记,并用悬浮标记将不良事件提及标注拼接在文本后面,以更好地识别药物和不良事件提及的边界;同时引入U形语义分割网络融合局部上下文信息来捕获药物不良事件之间的全局相互依赖性,从而能更精确的找到关键信息;另外运用一种平衡的softmax方法来处理不平衡关系分布,避免不相关提及三元组对对模型造成的影响,从而更精准的抽取出医学文本中的药物不良事件关系。
[0006]为了解决上述技术问题,本专利技术采用了如下的技术方案:
[0007]一种基于语义分割的药物不良事件关系抽取方法,包括以下步骤:
[0008]S1、药物不良事件关系抽取模型搭建:
[0009]药物不良事件关系抽取模型用于将医学文本中的药物及其造成的不良事件抽取出来,模型结构包括局部上下文信息特征提取器、语义特征融合器、分类器和样本不平衡处理器;其中,
[0010]所述局部上下文信息特征提取器用于从医学文本的输入中提取不同提及的局部上下文特征,具体包括:给定一个包含N个文本标记的药物不良事件文档首先在药物提及开头和结尾插入固定标记<s>和</s>来标记药物提及位置,然后将对应的候选不良事件提及采用悬浮标记<o>和</o>方式拼接在文本后面,其中<o>和</o>与对应的不良事件提及为同一位置编码,接着将文本标记和插入的悬浮标记的组合序列提供给BERT预训练模型,以获得药物提及标记局部上下文表示e
s
和不良事件提及标记局部上下文表示e
o
,将e
s
和e
o
拼接在一起作为对应药物提及与不良事件提及对嵌入表示其中M表示样本中药物提及与不良事件提及组成的最大提及对数,最后利用BERT预训练模型获得注意力表示其中A是BERT预训练模型最后一个Encoder层中注意力头的平均值,利用来自BERT预训练模型的注意力矩阵A以及仿射变换来获得药物和不良事件的提及对关系矩阵:
[0011][0012]其中,是Hadamard积,W1是可学习的参数矩阵,H为药物提及与不良事件提及对嵌入表示,A
s
表示药物提及e
s
对文档所有标记的注意力,通过平均药物提及最后一个Encoder层中注意力头的平均值获得,A
o
表示不良事件提及e
o
对文档所有标记的注意力,通过平均不良事件提及最后一个Encoder层中注意力头的平均值获得,F(s,o)表示药物和不良事件的提及对(e
s
,e
o
)关系矩阵;
[0013]所述语义特征融合器用于将局部上下文信息通过编码模块和U形语义分割网络来融合提及的全局依赖,具体包括:先将包含局部上下文信息的提及对关系矩阵F∈R
M
×
M
×
D
作为D通道图像,再结合一个编码模块,然后利用U形语义分割网络获取丰富的全局特征,U形语义分割网络包含顺序设置的全局特征提取块、两个带有跳跃连接的上采样块和特征输出层,从而获得局部上下文及全局依赖信息矩阵:
[0014]Y=U(W2F)
[0015]其中,Y∈R
M
×
M
×
D
'表示局部上下文及全局依赖信息矩阵,U∈R
M
×
M
×
D
'表示U形语义分割网络,W2是可学习的权重矩阵,以降低F的维数,且D'远小于D,W2F表示编码模块;
[0016]所述分类器用于通过局部上下文及全局依赖信息矩阵和提及平滑嵌入表示来对药物不良事件关系进行预测,具体包括:先利用文挡中不同位置的提及局部上下文嵌入m,再利用最大池化的平滑版本获得同一个提及平滑嵌入本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义分割的药物不良事件关系抽取方法,其特征在于,包括以下步骤:S1、药物不良事件关系抽取模型搭建:药物不良事件关系抽取模型用于将医学文本中的药物及其造成的不良事件抽取出来,模型结构包括局部上下文信息特征提取器、语义特征融合器、分类器和样本不平衡处理器;其中,所述局部上下文信息特征提取器用于从医学文本的输入中提取不同提及的局部上下文特征,具体包括:给定一个包含N个文本标记的药物不良事件文档首先在药物提及开头和结尾插入固定标记<s>和</s>来标记药物提及位置,然后将对应的候选不良事件提及采用悬浮标记<o>和</o>方式拼接在文本后面,其中<o>和</o>与对应的不良事件提及为同一位置编码,接着将文本标记和插入的悬浮标记的组合序列提供给BERT预训练模型,以获得药物提及标记局部上下文表示e
s
和不良事件提及标记局部上下文表示e
o
,将e
s
和e
o
拼接在一起作为对应药物提及与不良事件提及对嵌入表示其中M表示样本中药物提及与不良事件提及组成的最大提及对数,最后利用BERT预训练模型获得注意力表示其中A是BERT预训练模型最后一个Encoder层中注意力头的平均值,利用来自BERT预训练模型的注意力矩阵A以及仿射变换来获得药物和不良事件的提及对关系矩阵:其中,是Hadamard积,W1是可学习的参数矩阵,H为药物提及与不良事件提及对嵌入表示,A
s
表示药物提及e
s
对文档所有标记的注意力,通过平均药物提及最后一个Encoder层中注意力头的平均值获得,A
o
表示不良事件提及e
o
对文档所有标记的注意力,通过平均不良事件提及最后一个Encoder层中注意力头的平均值获得,F(s,o)表示药物和不良事件的提及对(e
s
,e
o
)关系矩阵;所述语义特征融合器用于将局部上下文信息通过编码模块和U形语义分割网络来融合提及的全局依赖,具体包括:先将包含局部上下文信息的提及对关系矩阵F∈R
M
×
M
×
D
作为D通道图像,再结合一个编码模块,然后利用U形语义分割网络获取丰富的全局特征,U形语义分割网络包含顺序设置的全局特征提取块、两个带有跳跃连接的上采样块和特征输出层,从而获得局部上下文及全局依赖信息矩阵:Y=U(W2F)其中,Y∈R
M
×
M
×
D'
表示局部上下文及全局依赖信息矩阵,U∈R
M
×
M
×
D'
表示U形语义分割网络,W2是可学习的权重矩阵,以降低F的维数,且D'远小于D,W2F表示编码模块;所述分类器用于通过局部上下文及全局依赖信息矩阵和提及平滑嵌入表示来对药物不良事件关系进行预测,具体包括:先利用文挡中不同位置的提及局部上下文嵌入m,再利用最大池化的平滑版本获得同一个提及平滑嵌入表示E
i

其中,E
i
表示提及e
i
的平滑嵌入表示,表示文档中药物或不良事件提及e
i
总共出现的次数;在分别获得药物和不良事件平滑嵌入表示E
s
和E
o
与局部上下文及全局依赖信息矩阵Y后,分类器先利用前馈神经网络将E
s
、E
o
、Y映射到隐藏表示z,然后通过双线性函数获得关系概率,具体过程如下:z
s
=tanh(W
s
E
s
+Y
s,o
)z
o
=tanh(W
o
E
o
+Y
s,o
)P(r|E
s
,E
o
)=σ(z
s
W
r
z
o
+b
r
)其中,z
s
是...

【专利技术属性】
技术研发人员:崔少国陈俊桦
申请(专利权)人:重庆师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1