当前位置: 首页 > 专利查询>海南医学院专利>正文

基于BioBERT与改进Focalloss的药物互作信息提取方法技术

技术编号:37488139 阅读:16 留言:0更新日期:2023-05-07 09:27
本发明专利技术涉及信息提取技术领域,且公开了基于BioBERT与改进Focal loss的药物互作信息提取方法,该方法使用生物医学语料库预训练的BioBERT模型对文本序列进行预处理,该模型遵循基于R

【技术实现步骤摘要】
基于BioBERT与改进Focal loss的药物互作信息提取方法


[0001]本专利技术涉及信息提取
,具体为基于BioBERT与改进Focal loss的药物互作信息提取方法。

技术介绍

[0002]药物

药物相互作用(DDIs)已成为临床治疗中一个重要的现象,它主要是由多种药物联合导致的。在许多情况下,药物不良反应(ADR)是药物互作可能导致的后果,它会导致更加未知的副作用产生。然而,在临床试验中,对某些药物的所有组合进行检测是非常困难的,人们往往不知道某些药物的组合所存在的风险。近几十年来,生物医学文献呈指数增长,隐藏了大量有价值的DDIs信息。因此,从生物医学文献中提取DDIs一直是识别和分类药效的任务,受到生物医学界的广泛关注。
[0003]在过去的十年中,许多传统的机器学习方法被应用于DDIs的提取,如基于特征的、基于核的方法,以及基于规则的方法。由于深度学习已经成为机器学习的主要方法,DDIs提取任务的神经网络模型也被提出。这些方法根据神经网络的结构可分为两类,即基于CNN的方法和基于RNN的方法。基于CNN的方法由卷积层、池化层和全连接层组成,并用于预测;基于RNN的方法由输入层、自连接的隐藏层和输出层组成,并用于预测。在提出DDI Extraction 2013任务后,许多不同的方法被提出来。例如,Liu等人首次提出了一种基于CNN的DDIs Extraction任务方法,该方法获得了69.75%的F1值。Zhang等建立了基于提取某些特征相互作用和药物相似度度量的CNN

DDI体系结构,F1分值为74.96%。对于基于RNN的方法,Huang等将SVM和Long

Short

Term Memory(LSTM)结合为两阶段识别和分类方法,得到了69.0%的F1值。Ramakanth等人将基于字符的RNN用于DDI提取,在基于规则的过滤负实例的情况下,得到了72.13%的F1得分。Zhang等人提出了一种基于层次递归神经网络的最短依赖路径和句子序列的集成方法,该方法对DDIs进行提取获得了72.90%的F1值。Sun等人提出了具有focal loss的混合卷积神经网络,得到的F1值为75.48%的模型性能。尽管这些方法对DDIs提取任务做出了很大贡献,但大量的特征和参数会占用大量的计算资源,在实践中不能很好地推广。
[0004]最近,基于注意力机制的方法被应用到DDIs的关系提取中,目的是学习文本中良好的embedding。Yi等人引入了具有多重注意层模型的双向递归神经网络用于DDIs分类,并得到了72.20%的F

score。Zheng等结合注意机制和长短期记忆(LSTM)提取DDIs效果良好,F1得分为77.30%。Zhou等提出了一种基于注意的双向长短期记忆(BiLSTM)网络,结合位置感知注意权重进行DDI提取,其F1得分为72.99%。
[0005]随着transformer模型在自然语言处理(NLP)的发展中越来越受到重视,预训练语言模型已成为自然语言处理方法的核心,并在DDI提取的发展中发挥着重要作用,如transformer的双向编码器表示(BERT)。BERT模型利用了transformer编码器的结构,通过对大量文本数据进行预训练,实现了通用文本嵌入,已成为一种非常典型的预训练模型,并已应用于关系抽取的任务中。BioBERT是一种基于大规模生物医学语料库进行预训练的生
物医学语言表示模型。Peng等人首先在PubMed摘要和MIMIC

III上预训练BERT模型,它在DDIs提取上给出了79.9%的F1值。Li等人提出了一种图卷积网络和BioBERT模型来获取句法信息,该模型在DDIs提取任务上的F1值为76.64%。由上述可知,经过预训练的语言模型在DDIExtraction 2013上比之前的神经网络研究表现得更好。因此,使用BioBERT预训练模型能提高DDIs提取的性能。
[0006]由于DDIs提取任务中负样本的比例较大,使得实例较少的DDIs类型难以分类。许多研究首先利用过滤策略过滤掉负样本,缓解不平衡问题,但极端不平衡仍然存在,导致很多错误分类。

技术实现思路

[0007](一)解决的技术问题
[0008]针对现有技术的不足,本专利技术提供了基于BioBERT与改进Focal loss的药物互作信息提取方法,解决了上述
技术介绍
中所存在的问题。
[0009](二)技术方案
[0010]为实现上述目的,本专利技术提供如下技术方案:基于BioBERT与改进Focal loss的药物互作信息提取方法,该方法使用生物医学语料库预训练的BioBERT模型对文本序列进行预处理,该模型遵循基于R

BERT的结构,对于有两个标记药物实体e1和e2的句子,通过BioBERT层的标记嵌入、段嵌入和位置嵌入得到语义向量;对于来自隐藏层的第一个token向量(即“[CLS]”),应用具有激活函数的全连接层;对于句子中的实体,计算每个实体向量的平均值来表示该实体,然后通过具有激活函数的全连接层;最后将向量的三个部分(e1、e2和token)连接起来,将一个全连接层和一个改进的focal loss损失函数的softmax应用到最终输出中,得到DDIs分类的概率,以确定它们属于哪一类;具体包括以下步骤:
[0011]S1、预处理:对于一个给定的句子,句子中所有可能的药物实体组合都是由原始数据生成的,实例被定义为一个含有药物对的句子(即两个不同的药物实体),因此,包含一个以上药物对的句子(即两个以上不同的药物实体)被划分为几个实例,实例的数量等于句子中药物对的数量,为了标记药物对,在第一个第二个药物实体的开始插入特殊标记“<e1>”和“<e2>”分别在每个实体的末尾插入“</e1>”和“</e2>”此外,符号“[CLS]”和“[SEP]”被添加到每句话的开头和结尾,例如,一个带有实体标记的句子将是:“[CLS]Given the CNS effects of<e1>paliperidone</e1>should be used with caution in combination with other<e2>centrally acting drugs</e2>[SEP]”;
[0012]S2、模型训练
[0013]Embedding层:对于目标实体e1和e2的句子,其从BioBERT输出的最终隐藏状态定义为H∈R
n*d
,n为BioBERT标记化过程后句子的token数,d为BioBERT的隐藏状态大小;实体e1的BioBERT的隐藏输出将是向量H
...

【技术保护点】

【技术特征摘要】
1.基于BioBERT与改进Focal loss的药物互作信息提取方法,其特征在于,该方法使用生物医学语料库预训练的BioBERT模型对文本序列进行预处理,对于有两个标记药物实体e1和e2的句子,通过BioBERT层的标记嵌入、段嵌入和位置嵌入得到语义向量;对于来自隐藏层的第一个token向量(即“[CLS]”),应用具有激活函数的全连接层;对于句子中的实体,计算每个实体向量的平均值来表示该实体,然后通过具有激活函数的全连接层;最后将向量的三个部分(e1、e2和token)连接起来,将一个全连接层和一个改进的focal loss损失函数的softmax应用到最终输出中,得到DDIs分类的概率,以确定它们属于哪一类;具体包括以下步骤:S1、预处理:对于一个给定的句子,句子中所有可能的药物实体组合都是由原始数据生成的,实例被定义为一个含有药物对的句子(即两个不同的药物实体),因此,包含一个以上药物对的句子(即两个以上不同的药物实体)被划分为几个实例,实例的数量等于句子中药物对的数量,为了标记药物对,在第一个第二个药物实体的开始插入特殊标记“<e1>”和“<e2>”分别在每个实体的末尾插入“</e1>”和“</e2>”此外,符号“[CLS]”和“[SEP]”被添加到每句话的开头和结尾;S2、模型训练Embedding层:对于目标实体e1和e2的句子,其从BioBERT输出的最终隐藏状态定义为H∈R
n*d
,n为BioBERT标记化过程后句子的token数,d为BioBERT的隐藏状态大小;实体e1的BioBERT的隐藏输出将是向量H
i
到H
j
,i是实体e1的开始令牌的位置,j是实体e1的结束token位置;同样的,表示向量H
k
到H
m
是实体e2的BioBERT的最终隐藏状态输出,其中k和m是实体e2的开始和结束标记的位置;每个实体的向量表示是通过平均运算得到的;然后创建一个包含dropout层和一个具有激活操作(即tanh)的致密层的全连接层来计算两个向量;最后,H
′1∈R
d*1
和H
′2∈R
d*1
是实体e1和e2的最终输出,其数学表达式如下:是实体e1和e2的最终输出,其数学表达式如下:(1)、(2)式中W1=W2,b1=b2,因为它们共享相同的参数;对于句子的第一个标记(即“[CLS]”),采用全连通层和激活运算,得到H
′0∈R
1*d
,其数学表达式如下:H
′0=W0(tanh(H0))+b0ꢀꢀꢀꢀꢀ
(3)其中,W0、W1、W2的维数是相同的,即W0∈R
d*d
、W1∈R
d*d
、W2∈R
d*d
,式中b0、b1、b2均为偏置向量;连接隐藏层:将H
′0、H
′1、H
′2作为h

∈R
1*3d
,将h

输入到softmax层中得到预测输出,该过程可表示为:h

=concat(H
′0,H
′1,H
...

【专利技术属性】
技术研发人员:韩惠蕊李晋
申请(专利权)人:海南医学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1