当前位置: 首页 > 专利查询>浙江大学专利>正文

一种面向医学领域的多任务命名实体识别对抗训练方法技术

技术编号:18351254 阅读:27 留言:0更新日期:2018-07-02 01:02
本发明专利技术公开了一种面向医学领域的多任务命名实体识别对抗训练方法。包括如下步骤:(1)收集并处理数据集,使其每一行由一个单词和标签组成;(2)利用卷积神经网络对单词字符层面的信息进行编码,得到字符向量,再和词向量进行拼接,形成输入特征向量;(3)构建共享层,利用双向长短期记忆神经网络对句子中每个单词的输入特征向量进行建模,学习各个任务的公共特征;(4)构建任务层,利用双向长短期网络对输入特征向量和(3)中的输出信息进行建模,学习各个任务的私有特征;(5)利用条件随机场对(3)和(4)的输出进行标签解码;(6)利用共享层的信息训练对抗网络,减少共享层中混入的私有特征。本发明专利技术在多个疾病领域的数据集上,进行多任务学习,并且引入对抗训练使得共享层和任务层的特征更独立,快速高效的完成了在特定领域同时训练多个命名实体识别的任务。

【技术实现步骤摘要】
一种面向医学领域的多任务命名实体识别对抗训练方法
本专利技术涉及自然语言处理,尤其涉及一种面向医学领域的多任务命名实体识别对抗训练方法。
技术介绍
自然语言处理(NatureLanguageProcessing,简称NLP)是一门集语言学与计算机科学为一体的交叉学科。命名实体识别(NamedEntityRecognition,简称NER)是自然语言处理中的一项基本任务,旨在识别出自然语言文本中的专有名词和有意义的数量短语,并加以分类。随着信息抽取和大数据概念的兴起,命名实体识别任务日益受到人们重视,已成为舆情分析、信息检索、自动问答、机器翻译等自然语言处理的重要组成部分。如何从海量的互联网文本信息中自动、准确、快速地识别出命名实体,逐渐成为了学术界和工业界关注的热点问题。旨在识别出特殊领域(如生物医学)内文献中的实体文本以及类别的命名实体识别技术,已成为特定领域内文档分类、检索以及内容分析的重要组成部分。以生物医学领域为例,在生物医学文献、临床记录等数量高速增长的同时,其中新的生物医学实体以及它们的缩略词、同义词数量也在高速增长。然而现有的基于学习的命名实体识别系统大量依赖于需要高代价的标注数据,在生物医学领域,则更加需要专业的领域知识来标注数据。如何利用已公开的数据集,而不需要额外人工标注新的数据集,训练出高效的模型已成为目前的研究重点。以神经网络模型来对文本中的命名实体进行识别是目前主流的实体识别技术,然而这种学习模型往往需要大量的标注数据来进行训练。由于在生物医学领域缺少训练数据,神经网络模型常常表现的非常差。针对现有技术难点,我们提出了一种面向医学领域的多任务命名实体识别对抗训练方法。本方法借鉴了对抗网络和多任务学习的理念,在已公开的数据集上进行实验,希望获得一个在各个任务上具有一定提升的模型。在本方法中,各个数据集上同时进行训练,相当于同时训练多个任务,在共享层上训练各个任务的共有特征,在任务层上训练各个任务私有的特征。为了防止共享层混入私有特征信息,我们训练一个对抗网络,将共享层的输出作为分类器的输入。不断训练生成器和判别器,最后可以认为共享层和私有层的特征是独立的,并且对于命名实体识别具有促进作用。
技术实现思路
本专利技术的目的是在不需要额外标注新的数据集的背景下,利用已公开的数据集,训练高效的命名实体识别工具,提供一种面向医学领域的多任务命名实体识别对抗训练方法。面向医学领域的多任务命名实体识别对抗训练方法,包括如下步骤:S1:收集并处理数据集,使其每一行由一个单词和标签组成;S2:利用卷积神经网络对单词字符层面的信息进行编码,得到字符向量,再和词向量进行拼接,形成输入特征向量;S3:构建共享层,利用双向长短期记忆神经网络对句子中每个单词的输入特征向量进行建模,学习各个任务的公共特征;S4:构建任务层,利用双向长短期网络对输入特征向量和S3中的输出信息进行建模,学习各个任务的私有特征;S5:利用条件随机场对S3和S4的输出进行标签解码;S6:利用共享层的信息训练对抗网络,减少共享层中混入的私有特征。作为优选,S1中,收集并处理数据集,使其每一行由一个单词和标签组成,其步骤如下:S11:收集网上公开的生物医学数据集,例如AnatEM、BC2GM、BC5CDR、BioNLP09等数据集,处理数据集,使其每个文件的格式为每一行由一个单词和标签组成。S12:对数据量小于阈值1M的数据集进行处理,将多个标签用唯一的标签代替。作为优选,S2中,利用卷积神经网络对单词字符层面的信息进行编码,得到字符向量,再和词向量进行拼接,形成输入特征向量,其步骤如下:S21:对句子、单词和标签进行统计,形成句表、词表V和标签表;对单词中的字符进行统计,形成字符表Vchr;设dchr为每个字符向量的维度,字符向量矩阵为:其中为维度为dchr×|Vchr|的向量空间,|Vchr|为字符表中的字符个数;S22:对于给定的单词w由M个字符组成{c1,c2,…,cM};先把所有字符cm通过字符向量矩阵转化为字符向量m∈[1,M];单词w的字符串转化为卷积层在字符串上应用的连续窗口大小为kchr;定义向量作为窗口大小为kchr的级联向量:S23:定义字符向量为rwch,则第j个元素定义如下::[rwch]j=max1≤m≤M[W0sm+b0]j(3)其中W0为的权重向量,b0为偏置向量dH为字符向量rwch的维度;S24:将字符向量rwch与预训练好的词向量级联作为输入特征向量。作为优选,S3中,构建共享层,利用双向长短期记忆神经网络对句子中每个单词的输入特征向量进行建模,学习各个任务的公共特征,其步骤如下:S31:构建正向长短期记忆神经网络:定义xt为t时刻的输入特征向量,ht为在t时刻存储所有有用信息的隐藏层状态向量,σ为sigmoid回归层,*为内积,Ui,Uf,Uc,Uo为不同变量下针对输入xt的权重矩阵,Wi,Wf,Wc,Wo为隐藏层状态ht的权重矩阵,bi,bf,bc,bo为偏置向量,ft为t时刻遗忘单元,it为t时刻输入单元向量,为t时刻可以被加入到记忆单元的向量,Ct为t时刻存储单元,ht为t时刻隐藏单元,ot为t时刻输出单元向量,各变量计算公式如式(3)、(4)、(5)、(6)、(7)、(8)所示:ft=σ(Wfht-1+Ufxt+bf)(4)it=σ(Wiht-1+Uixt+bi)(5)ot=σ(Woht-1+Uoxt+bo)(8)ht=ot*tanh(Ct)(9)S32:步骤S31中所述为正向长短期记忆神经网络的构建过程,其隐藏单元ht用于存储过去时刻的所有信息,以同样的方法再构建一个反向长短期记忆神经网络,用隐藏单元gt来存储未来时刻的所有信息;最终将两个长短期记忆神经网络的输出向量通过级联形式来形成最后的输出向量:S33:训练神经网络时,将句子作为输入,对每个单词通过S2的处理,形成输入特征向量,然后传给双向长短期神经网络,具体过程如公式(11)所示其中为双向长短期神经网络对i个输入特征向量xi的输出;θs表示在共享层中的可训练参数集合,i表示当前单词在句子中的位置数;Bi-LSTM()表示双向长短期神经网络;分别为前一个单词的正向输出和反向输出;这里的公共特征指在反向传播的时候通过梯度下降的方法更新θs。作为优选,S4中,构建任务层,利用双向长短期网络对输入特征向量和S3中的输出信息进行建模,学习各个任务的私有特征,其步骤如下:在任务层中,需要学习各个任务的私有特征,所以叠加了一层双向长短期神经网络,输入为词向量和S3中的输出信息,具体如公式所示:其中为叠加的双向长短期神经网络对i个输入特征向量xi和的输出;θm表示在任务层中的可训练参数集合,i表示当前单词在句子中的位置数;分别为前一个单词在叠加的双向长短期神经网络中的正向输出和反向输出;这里的私有特征指叠加的双向长短期神经网络的输出在反向传播的时候通过梯度下降的方法更新θm。作为优选,S5中,利用条件随机场对S3和S4的输出进行标签解码,其步骤如下:S51:用z={z1,z2,...,zn}表示由S3和S4的输出所构成的输入序列,其中n为输入序列的长度,zi为第i个词的输入向量,y={y1,y2,...,yn}为z的实际输出标签序列,Y(z本文档来自技高网
...
一种面向医学领域的多任务命名实体识别对抗训练方法

【技术保护点】
1.一种面向医学领域的多任务命名实体识别对抗训练方法,其特征在于包括如下步骤:S1:收集并处理数据集,使其每一行由一个单词和标签组成;S2:利用卷积神经网络对单词字符层面的信息进行编码,得到字符向量,再和词向量进行拼接,形成输入特征向量;S3:构建共享层,利用双向长短期记忆神经网络对句子中每个单词的输入特征向量进行建模,学习各个任务的公共特征;S4:构建任务层,利用双向长短期网络对输入特征向量和S3中的输出信息进行建模,学习各个任务的私有特征;S5:利用条件随机场对S3和S4的输出进行标签解码;S6:利用共享层的信息训练对抗网络,减少共享层中混入的私有特征。

【技术特征摘要】
1.一种面向医学领域的多任务命名实体识别对抗训练方法,其特征在于包括如下步骤:S1:收集并处理数据集,使其每一行由一个单词和标签组成;S2:利用卷积神经网络对单词字符层面的信息进行编码,得到字符向量,再和词向量进行拼接,形成输入特征向量;S3:构建共享层,利用双向长短期记忆神经网络对句子中每个单词的输入特征向量进行建模,学习各个任务的公共特征;S4:构建任务层,利用双向长短期网络对输入特征向量和S3中的输出信息进行建模,学习各个任务的私有特征;S5:利用条件随机场对S3和S4的输出进行标签解码;S6:利用共享层的信息训练对抗网络,减少共享层中混入的私有特征。2.根据权利要求1所述的一种面向医学领域的多任务命名实体识别对抗训练方法,其特征在于S1中,收集并处理数据集,使其每一行由一个单词和标签组成,其步骤如下:S11:收集网上公开的生物医学数据集,例如AnatEM、BC2GM、BC5CDR、BioNLP09等数据集,处理数据集,使其每个文件的格式为每一行由一个单词和标签组成;S12:对数据量小于阈值1M的数据集进行处理,将多个标签用唯一的标签代替。3.根据权利要求1所述的一种面向医学领域的多任务命名实体识别对抗训练方法,其特征在于S2中,利用卷积神经网络对单词字符层面的信息进行编码,其步骤如下:S21:对句子、单词和标签进行统计,形成句表、词表V和标签表;对单词中的字符进行统计,形成字符表Vchr;设dchr为每个字符向量的维度,字符向量矩阵为:其中为维度为dchr×|Vchr|的向量空间,|Vchr|为字符表中的字符个数;S22:对于给定的单词w由M个字符组成{c1,c2,…,cM};先把所有字符cm通过字符向量矩阵转化为字符向量m∈[1,M];单词w的字符串转化为卷积层在字符串上应用的连续窗口大小为kchr;定义向量作为窗口大小为kchr的级联向量:S23:定义字符向量为rwch,则第j个元素定义如下::[rwch]j=max1≤m≤M[W0sm+b0]j(3)其中W0为的权重向量,b0为偏置向量dH为字符向量rwch的维度;S24:将字符向量rwch与预训练的词向量级联作为输入特征向量。4.根据权利要求1所述的一种面向医学领域的多任务命名实体识别对抗训练方法,其特征在于S3中,构建共享层,利用双向长短期记忆神经网络对句子中每个单词的输入特征向量进行建模,学习各个任务的公共特征,其步骤如下:S31:构建正向长短期记忆神经网络:定义xt为t时刻的输入特征向量,ht为在t时刻存储所有有用信息的隐藏层状态向量,σ为sigmoid回归层,*为内积,Ui,Uf,Uc,Uo为不同变量下针对输入xt的权重矩阵,Wi,Wf,Wc,Wo为隐藏层状态ht的权重矩阵,bi,bf,bc,bo为偏置向量,ft为t时刻遗忘单元,it为t时刻输入单元向量,为t时刻可以被加入到记忆单元的向量,Ct为t时刻存储单元,ht为t时刻隐藏单元,ot为t时刻输出单元向量,各变量计算公式如式(3)、(4)、(5)、(6)、(7)、(8)所示:ft=σ(Wfht-1+Ufxt+bf)(4)it=σ(Wiht-1+Uixt+bi)(5)ot=σ(Woht-1+Uoxt+bo)(8)ht=ot*tanh(Ct)(9)S32:步骤S31中为正向长短期记忆神经网络的构建过程,其隐藏单元ht用于存储过去时刻的所有信息,以同样的方法再...

【专利技术属性】
技术研发人员:汤斯亮王凯张宁吴飞庄越挺
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1