当前位置: 首页 > 专利查询>中南大学专利>正文

基于稀疏网络的生物医疗命名实体识别方法技术

技术编号:35488607 阅读:13 留言:0更新日期:2022-11-05 16:43
本发明专利技术公开了一种基于稀疏网络的生物医疗命名实体识别方法,包括获取文本数据;构建初始模型;采用所有任务的数据对初始模型进行训练,构建一个共享的稀疏子网络,为每个任务构建一个私有的稀疏子网络;进行对抗训练得到识别模型;采用识别模型对当前的文本进行识别,完成生物医疗命名实体识别。本发明专利技术提供的这种基于稀疏网络的生物医疗命名实体识别方法,通过创新的模型构建和训练过程,不仅实现了生物医疗命名实体的识别,而且本发明专利技术方法能够提高模型参数的利用效率,可靠性高、精确性好且效果较好。好且效果较好。好且效果较好。

【技术实现步骤摘要】
基于稀疏网络的生物医疗命名实体识别方法


[0001]本专利技术属于数字信号处理领域,具体涉及一种基于稀疏网络的生物医疗命名实体识别方法。

技术介绍

[0002]生物医疗命名实体识别(Biomedical Named Entity Recognition,BioNER)的目标是从一段生物医疗文本中识别出各种生物医疗领域的实体,例如:DNA、基因、蛋白质、疾病等。BioNER任务是一个非常重要的基础性任务,许多生物医学领域的研究都依赖于BioNER任务,例如基因功能发现、“疾病

疗法”的关系抽取等。因此,构建一个具有较高识别精度的BioNER系统具有非常重要的现实意义和应用价值。
[0003]目前,传统的基于统计学习的方法严重依赖于人工特征工程,这需要大量的领域知识(通常只有领域专家才具有),并且得到的系统移植性非常差。而传统的基于深度学习的方法虽然不需要依赖于人工特征工程,但是需要大量的标注数据来进行模型的训练;而由于标注难度较大并且标注成本非常高,高质量的标注数据又非常稀缺,这些因素都极大地影响了深度学习方法的实际效果。近年来,一些学者尝试使用多任务学习的方法来缓解标注数据缺乏的问题;这些多任务学习的方法虽然获得了不错的效果,但是仍然存在一些问题需要解决:比如这些方法的模型参数效率不高(parameter inefficient),而且不同任务之间会存在消极的影响,有时候甚至会导致模型性能的下降。

技术实现思路

[0004]本专利技术的目的在于提供一种可靠性高、精确性好且效果较好的基于稀疏网络的生物医疗命名实体识别方法,能够提高模型参数的利用效率,并通过多个任务的训练数据来缓解单个任务缺乏标注数据的问题。
[0005]本专利技术提供的这种基于稀疏网络的生物医疗命名实体识别方法,包括如下步骤:
[0006]S1.获取文本数据;
[0007]S2.构建初始模型;
[0008]S3.采用所有任务的数据对步骤S2构建的初始模型进行训练,从而构建一个共享的稀疏子网络,同时为每个任务构建一个私有的稀疏子网络;
[0009]S4.进行对抗训练,得到识别模型;
[0010]S5.采用步骤S4得到的识别模型,对当前的文本进行识别,从而完成生物医疗命名实体识别。
[0011]步骤S2所述的构建初始模型,具体包括如下步骤:
[0012]初始模型包括词嵌入层、字符嵌入层、字符级别的双向长短期记忆网络、单词级别的双向长短期记忆网络和条件随机场;
[0013]θ为初始模型中编码器部分的参数;共有T个任务,每个任务的编号为t,
为T个任务所有的训练数据,D
t
为任务t的数据集,N
t
为任务t的训练样本数量,S
k
为第k个训练样本的单词序列且S
k
={w1,w2,...,w
n
},w
i
为第i个单词,Y
k
为第k个训练样本的标签序列且Y
k
={y1,y2,...,y
n
},y
i
为第i个单词对应的标签;M
s
为共享稀疏子网络的掩码矩阵,M
t
为任务t的私有稀疏子网络的掩码矩阵。
[0014]步骤S3所述的采用所有任务的数据对步骤S2构建的初始模型进行训练,从而构建一个共享的稀疏子网络,同时为每个任务构建一个私有的稀疏子网络,具体包括如下步骤:
[0015]A.对整个神经网络进行随机初始化,包括初始化裁剪率pr、初始化裁剪间隔itv和初始化共享稀疏子网络的目标稀疏度sparsity;
[0016]B.初始化共享稀疏子网络的掩码矩阵M
s
:将共享稀疏子网络的掩码矩阵M
s
中的所有元素初始化为1,表示共享稀疏子网络中的参数,θ为初始模型中编码器部分的参数,为矩阵的Hadamard积;step为训练的步数,且初始化为step=0;
[0017]C.随机从某个任务的数据集中选择一批训练样本B
t

[0018]D.使用编码器对输入文本进行编码:包括采用词嵌入层将文本序列中的单词转换成词嵌入向量,采用字符嵌入层将文本序列中的字符转换成字符嵌入向量;采用字符级别的双向长短期记忆网络中的共享稀疏子网络对文本的字符嵌入进行编码得到单词的字符级别表示;将每个单词的词嵌入和字符级别表示进行拼接,并输入到单词级别的双向长短期记忆网络;采用单词级别的双向长短期记忆网络中的共享稀疏子网络进行编码,得到每个单词的上下文表示R
k
为R
k
={r1,r2,...,r
n
},r
i
为单词w
i
的上下文表示;步骤D的过程表示为
[0019]E.将经编码器编码后得到的序列R
k
以及Y
k
输入到任务t的条件随机场中,计算条件概率式中n为标签序列Y
k
的长度,Y'为第k个训练样本一个可能的标签序列,φ(R
k
)为第k个训练样本所有可能的标签序列,ψ(y
i
‑1,y
i
,r
i
)为标签序列的打分函数且为标签对(y
i
‑1,y
i
)的权重,为标签对(y
i
‑1,y
i
)的偏置;
[0020]F.计算损失loss为为一个批次的训练样本B
t
中的标签序列,m为训练样本批次B
t
中的训练样本数量;
[0021]G.进行反向传播,得到各个参数的梯度;
[0022]H.采用梯度下降算法更新所有参数;
[0023]I.训练的步数step增加1;
[0024]若训练的步数step的值是剪裁间隔itv的整数倍,则将中的参数按绝对值进行排序,并裁剪掉绝对值较小的pr%的参数;所述的裁剪掉绝对值较小的pr%的参数,具体为将M
s
中对应的元素设置为0;
[0025]J.重复步骤C~步骤I,直至共享稀疏子网络的稀疏度小于目标稀疏度sparsity;其中,||M
s
||0为M
s
的L0范数,M
s
为共享稀疏子网络的掩码矩阵,|θ|为θ中的参数个数;
[0026]K.设置M
free
为除去共享稀疏子网络之后剩余的参数的掩码矩阵,为对共享稀疏子网络的掩码矩阵M
s
进行反转,即将掩码矩阵中原本为0的元素反转为1,原本为1的元素反转为0;
[0027]L.随机将未使用的参数中的个参数分配给任务t,从而为任务t构建一个私有的稀疏子网络,对应的掩码矩阵为M
t
;|D
t
|为任务t的训练样本数量,|D|为所有任务总共的训练本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于稀疏网络的生物医疗命名实体识别方法,包括如下步骤:S1.获取文本数据;S2.构建初始模型;S3.采用所有任务的数据对步骤S2构建的初始模型进行训练,从而构建一个共享的稀疏子网络,同时为每个任务构建一个私有的稀疏子网络;S4.进行对抗训练,得到识别模型;S5.采用步骤S4得到的识别模型,对当前的文本进行识别,从而完成生物医疗命名实体识别。2.根据权利要求1所述的基于稀疏网络的生物医疗命名实体识别方法,其特征在于步骤S2所述的构建初始模型,具体包括如下步骤:初始模型包括词嵌入层、字符嵌入层、字符级别的双向长短期记忆网络、单词级别的双向长短期记忆网络和条件随机场;θ为初始模型中编码器部分的参数;共有T个任务,每个任务的编号为t,为T个任务所有的训练数据,D
t
为任务t的数据集,N
t
为任务t的训练样本数量,S
k
为第k个训练样本的单词序列且S
k
={w1,w2,...,w
n
},w
i
为第i个单词,Y
k
为第k个训练样本的标签序列且Y
k
={y1,y2,...,y
n
},y
i
为第i个单词对应的标签;M
s
为共享稀疏子网络的掩码矩阵,M
t
为任务t的私有稀疏子网络的掩码矩阵。3.根据权利要求2所述的基于稀疏网络的生物医疗命名实体识别方法,其特征在于步骤S3所述的采用所有任务的数据对步骤S2构建的初始模型进行训练,从而构建一个共享的稀疏子网络,同时为每个任务构建一个私有的稀疏子网络,具体包括如下步骤:A.对整个神经网络进行随机初始化,包括初始化裁剪率pr、初始化裁剪间隔itv和初始化共享稀疏子网络的目标稀疏度sparsity;B.初始化共享稀疏子网络的掩码矩阵M
s
:将共享稀疏子网络的掩码矩阵M
s
中的所有元素初始化为1,表示共享稀疏子网络中的参数,θ为初始模型中编码器部分的参数,为矩阵的Hadamard积;step为训练的步数,且初始化为step=0;C.随机从某个任务的数据集中选择一批训练样本B
t
;D.使用编码器对输入文本进行编码:包括采用词嵌入层将文本序列中的单词转换成词嵌入向量,采用字符嵌入层将文本序列中的字符转换成字符嵌入向量;采用字符级别的双向长短期记忆网络中的共享稀疏子网络对文本的字符嵌入进行编码得到单词的字符级别表示;将每个单词的词嵌入和字符级别表示进行拼接,并输入到单词级别的双向长短期记忆网络;采用单词级别的双向长短期记忆网络中的共享稀疏子网络进行编码,得到每个单词的上下文表示R
k
为R
k
={r1,r2,...,r
n
},r
i
为单词w
i
的上下文表示;步骤D的过程表示为E.将经编码器编码后得到的序列R
k
以及Y
k
输入到任务t的条件随机场中,计算条件概率
p(Y
k
|R
k
)为式中n为标签序列Y
k
的长度,Y'为第k个训练样本一个可能的标签序列,φ(R
k
)为第k个训练样本所有可能的标签序列,ψ(y
i
‑1,y
i
,r
i
)为标签序列的打分函数且)为标签序列的打分函数且为标签对(y
i
‑1,y
i
)的权重,为标签对(y
i
‑1,y
i
)的偏置;F.计算损失loss为F.计算损失loss为为一个批次的训练样本B
t
中的标签序列,m为训练样本批次B
t
中的训练样本数量;G.进行反向传播,得到各个参数的梯度;H.采用梯度下降算法更新所有参数;I.训练的步数step增加1;若训练的步数step的值是剪裁间隔itv的整数倍,则将中的参数按绝对值进行排序,并裁剪掉绝对值较小的pr%的参数;所述的裁剪掉绝对值较小的pr%的参数,具体为将M
s
中对应的元素设置为0;J.重复步骤C~步骤I,直至共享稀疏子网络的稀疏度小于目标稀疏度sparsity;...

【专利技术属性】
技术研发人员:段俊文郭怀王建新
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1