【技术实现步骤摘要】
基于BioBERT与改进Focal loss的药物互作信息提取方法
[0001]本专利技术涉及信息提取
,具体为基于BioBERT与改进Focal loss的药物互作信息提取方法。
技术介绍
[0002]药物
‑
药物相互作用(DDIs)已成为临床治疗中一个重要的现象,它主要是由多种药物联合导致的。在许多情况下,药物不良反应(ADR)是药物互作可能导致的后果,它会导致更加未知的副作用产生。然而,在临床试验中,对某些药物的所有组合进行检测是非常困难的,人们往往不知道某些药物的组合所存在的风险。近几十年来,生物医学文献呈指数增长,隐藏了大量有价值的DDIs信息。因此,从生物医学文献中提取DDIs一直是识别和分类药效的任务,受到生物医学界的广泛关注。
[0003]在过去的十年中,许多传统的机器学习方法被应用于DDIs的提取,如基于特征的、基于核的方法,以及基于规则的方法。由于深度学习已经成为机器学习的主要方法,DDIs提取任务的神经网络模型也被提出。这些方法根据神经网络的结构可分为两类,即基于CNN的方法和基于RNN的方法。基于CNN的方法由卷积层、池化层和全连接层组成,并用于预测;基于RNN的方法由输入层、自连接的隐藏层和输出层组成,并用于预测。在提出DDI Extraction 2013任务后,许多不同的方法被提出来。例如,Liu等人首次提出了一种基于CNN的DDIs Extraction任务方法,该方法获得了69.75%的F1值。Zhang等建立了基于提取某些特征相互作用和药物相似度度量
【技术保护点】
【技术特征摘要】
1.基于BioBERT与改进Focal loss的药物互作信息提取方法,其特征在于,该方法使用生物医学语料库预训练的BioBERT模型对文本序列进行预处理,对于有两个标记药物实体e1和e2的句子,通过BioBERT层的标记嵌入、段嵌入和位置嵌入得到语义向量;对于来自隐藏层的第一个token向量(即“[CLS]”),应用具有激活函数的全连接层;对于句子中的实体,计算每个实体向量的平均值来表示该实体,然后通过具有激活函数的全连接层;最后将向量的三个部分(e1、e2和token)连接起来,将一个全连接层和一个改进的focal loss损失函数的softmax应用到最终输出中,得到DDIs分类的概率,以确定它们属于哪一类;具体包括以下步骤:S1、预处理:对于一个给定的句子,句子中所有可能的药物实体组合都是由原始数据生成的,实例被定义为一个含有药物对的句子(即两个不同的药物实体),因此,包含一个以上药物对的句子(即两个以上不同的药物实体)被划分为几个实例,实例的数量等于句子中药物对的数量,为了标记药物对,在第一个第二个药物实体的开始插入特殊标记“<e1>”和“<e2>”分别在每个实体的末尾插入“</e1>”和“</e2>”此外,符号“[CLS]”和“[SEP]”被添加到每句话的开头和结尾;S2、模型训练Embedding层:对于目标实体e1和e2的句子,其从BioBERT输出的最终隐藏状态定义为H∈R
n*d
,n为BioBERT标记化过程后句子的token数,d为BioBERT的隐藏状态大小;实体e1的BioBERT的隐藏输出将是向量H
i
到H
j
,i是实体e1的开始令牌的位置,j是实体e1的结束token位置;同样的,表示向量H
k
到H
m
是实体e2的BioBERT的最终隐藏状态输出,其中k和m是实体e2的开始和结束标记的位置;每个实体的向量表示是通过平均运算得到的;然后创建一个包含dropout层和一个具有激活操作(即tanh)的致密层的全连接层来计算两个向量;最后,H
′1∈R
d*1
和H
′2∈R
d*1
是实体e1和e2的最终输出,其数学表达式如下:是实体e1和e2的最终输出,其数学表达式如下:(1)、(2)式中W1=W2,b1=b2,因为它们共享相同的参数;对于句子的第一个标记(即“[CLS]”),采用全连通层和激活运算,得到H
′0∈R
1*d
,其数学表达式如下:H
′0=W0(tanh(H0))+b0ꢀꢀꢀꢀꢀ
(3)其中,W0、W1、W2的维数是相同的,即W0∈R
d*d
、W1∈R
d*d
、W2∈R
d*d
,式中b0、b1、b2均为偏置向量;连接隐藏层:将H
′0、H
′1、H
′2作为h
″
∈R
1*3d
,将h
″
输入到softmax层中得到预测输出,该过程可表示为:h
″
=concat(H
′0,H
′1,H
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。