当前位置: 首页 > 专利查询>海南医学院专利>正文

基于BioBERT与改进Focalloss的药物互作信息提取方法技术

技术编号：37488139 阅读：35 留言：0更新日期：2023-05-07 09:27

本发明专利技术涉及信息提取技术领域，且公开了基于BioBERT与改进Focal loss的药物互作信息提取方法，该方法使用生物医学语料库预训练的BioBERT模型对文本序列进行预处理，该模型遵循基于R

全部详细技术资料下载

【技术实现步骤摘要】
基于BioBERT与改进Focal loss的药物互作信息提取方法

[0001]本专利技术涉及信息提取
，具体为基于BioBERT与改进Focal loss的药物互作信息提取方法。

技术介绍

[0002]药物
‑
药物相互作用(DDIs)已成为临床治疗中一个重要的现象，它主要是由多种药物联合导致的。在许多情况下，药物不良反应(ADR)是药物互作可能导致的后果，它会导致更加未知的副作用产生。然而，在临床试验中，对某些药物的所有组合进行检测是非常困难的，人们往往不知道某些药物的组合所存在的风险。近几十年来，生物医学文献呈指数增长，隐藏了大量有价值的DDIs信息。因此，从生物医学文献中提取DDIs一直是识别和分类药效的任务，受到生物医学界的广泛关注。
[0003]在过去的十年中，许多传统的机器学习方法被应用于DDIs的提取，如基于特征的、基于核的方法，以及基于规则的方法。由于深度学习已经成为机器学习的主要方法，DDIs提取任务的神经网络模型也被提出。这些方法根据神经网络的结构可分为两类，即基于CNN的...

【技术保护点】

【技术特征摘要】
1.基于BioBERT与改进Focal loss的药物互作信息提取方法，其特征在于，该方法使用生物医学语料库预训练的BioBERT模型对文本序列进行预处理，对于有两个标记药物实体e1和e2的句子，通过BioBERT层的标记嵌入、段嵌入和位置嵌入得到语义向量；对于来自隐藏层的第一个token向量(即“[CLS]”)，应用具有激活函数的全连接层；对于句子中的实体，计算每个实体向量的平均值来表示该实体，然后通过具有激活函数的全连接层；最后将向量的三个部分(e1、e2和token)连接起来，将一个全连接层和一个改进的focal loss损失函数的softmax应用到最终输出中，得到DDIs分类的概率，以确定它们属于哪一类；具体包括以下步骤：S1、预处理：对于一个给定的句子，句子中所有可能的药物实体组合都是由原始数据生成的，实例被定义为一个含有药物对的句子(即两个不同的药物实体)，因此，包含一个以上药物对的句子(即两个以上不同的药物实体)被划分为几个实例，实例的数量等于句子中药物对的数量，为了标记药物对，在第一个第二个药物实体的开始插入特殊标记“<e1>”和“<e2>”分别在每个实体的末尾插入“</e1>”和“</e2>”此外，符号“[CLS]”和“[SEP]”被添加到每句话的开头和结尾；S2、模型训练Embedding层：对于目标实体e1和e2的句子，其从BioBERT输出的最终隐藏状态定义为H∈R
n*d
，n为BioBERT标记化过程后句子的token数，d为BioBERT的隐藏状态大小；实体e1的BioBERT的隐藏输出将是向量H
i
到H
j
，i是实体e1的开始令牌的位置，j是实体e1的结束token位置；同样的，表示向量H
k
到H
m
是实体e2的BioBERT的最终隐藏状态输出，其中k和m是实体e2的开始和结束标记的位置；每个实体的向量表示是通过平均运算得到的；然后创建一个包含dropout层和一个具有激活操作(即tanh)的致密层的全连接层来计算两个向量；最后，H
′1∈R
d*1
和H
′2∈R
d*1
是实体e1和e2的最终输出，其数学表达式如下：是实体e1和e2的最终输出，其数学表达式如下：(1)、(2)式中W1＝W2，b1＝b2，因为它们共享相同的参数；对于句子的第一个标记(即“[CLS]”)，采用全连通层和激活运算，得到H
′0∈R
1*d
，其数学表达式如下：H
′0＝W0(tanh(H0))+b0ꢀꢀꢀꢀꢀ
(3)其中，W0、W1、W2的维数是相同的，即W0∈R
d*d
、W1∈R
d*d
、W2∈R
d*d
，式中b0、b1、b2均为偏置向量；连接隐藏层：将H
′0、H
′1、H
′2作为h
″
∈R
1*3d
，将h
″
输入到softmax层中得到预测输出，该过程可表示为：h
″
＝concat(H
′0，H
′1，H
...

【专利技术属性】
技术研发人员：韩惠蕊，李晋，
申请(专利权)人：海南医学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人

相关技术

网友询问留言已有0条评论

还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1

发布您的意见

相关领域技术