一种面向医学领域的多任务命名实体识别对抗训练方法技术

技术编号：18351254 阅读：27 留言：0更新日期：2018-07-02 01:02

本发明专利技术公开了一种面向医学领域的多任务命名实体识别对抗训练方法。包括如下步骤：(1)收集并处理数据集，使其每一行由一个单词和标签组成；(2)利用卷积神经网络对单词字符层面的信息进行编码，得到字符向量，再和词向量进行拼接，形成输入特征向量；(3)构建共享层，利用双向长短期记忆神经网络对句子中每个单词的输入特征向量进行建模，学习各个任务的公共特征；(4)构建任务层，利用双向长短期网络对输入特征向量和(3)中的输出信息进行建模，学习各个任务的私有特征；(5)利用条件随机场对(3)和(4)的输出进行标签解码；(6)利用共享层的信息训练对抗网络，减少共享层中混入的私有特征。本发明专利技术在多个疾病领域的数据集上，进行多任务学习，并且引入对抗训练使得共享层和任务层的特征更独立，快速高效的完成了在特定领域同时训练多个命名实体识别的任务。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向医学领域的多任务命名实体识别对抗训练方法
本专利技术涉及自然语言处理，尤其涉及一种面向医学领域的多任务命名实体识别对抗训练方法。
技术介绍
自然语言处理(NatureLanguageProcessing，简称NLP)是一门集语言学与计算机科学为一体的交叉学科。命名实体识别(NamedEntityRecognition，简称NER)是自然语言处理中的一项基本任务，旨在识别出自然语言文本中的专有名词和有意义的数量短语，并加以分类。随着信息抽取和大数据概念的兴起，命名实体识别任务日益受到人们重视，已成为舆情分析、信息检索、自动问答、机器翻译等自然语言处理的重要组成部分。如何从海量的互联网文本信息中自动、准确、快速地识别出命名实体，逐渐成为了学术界和工业界关注的热点问题。旨在识别出特殊领域(如生物医学)内文献中的实体文本以及类别的命名实体识别技术，已成为特定领域内文档分类、检索以及内容分析的重要组成部分。以生物医学领域为例，在生物医学文献、临床记录等数量高速增长的同时，其中新的生物医学实体以及它们的缩略词、同义词数量也在高速增长。然而现有的基于学习的命名实体识别系统大量依赖于需要高代价的标注数据，在生物医学领域，则更加需要专业的领域知识来标注数据。如何利用已公开的数据集，而不需要额外人工标注新的数据集，训练出高效的模型已成为目前的研究重点。以神经网络模型来对文本中的命名实体进行识别是目前主流的实体识别技术，然而这种学习模型往往需要大量的标注数据来进行训练。由于在生物医学领域缺少训练数据，神经网络模型常常表现的非常差。针对现有技术难点，我们提出了一种面向医学...
一种面向医学领域的多任务命名实体识别对抗训练方法

【技术保护点】
1.一种面向医学领域的多任务命名实体识别对抗训练方法，其特征在于包括如下步骤：S1：收集并处理数据集，使其每一行由一个单词和标签组成；S2：利用卷积神经网络对单词字符层面的信息进行编码，得到字符向量，再和词向量进行拼接，形成输入特征向量；S3：构建共享层，利用双向长短期记忆神经网络对句子中每个单词的输入特征向量进行建模，学习各个任务的公共特征；S4：构建任务层，利用双向长短期网络对输入特征向量和S3中的输出信息进行建模，学习各个任务的私有特征；S5：利用条件随机场对S3和S4的输出进行标签解码；S6：利用共享层的信息训练对抗网络，减少共享层中混入的私有特征。

【技术特征摘要】
1.一种面向医学领域的多任务命名实体识别对抗训练方法，其特征在于包括如下步骤：S1：收集并处理数据集，使其每一行由一个单词和标签组成；S2：利用卷积神经网络对单词字符层面的信息进行编码，得到字符向量，再和词向量进行拼接，形成输入特征向量；S3：构建共享层，利用双向长短期记忆神经网络对句子中每个单词的输入特征向量进行建模，学习各个任务的公共特征；S4：构建任务层，利用双向长短期网络对输入特征向量和S3中的输出信息进行建模，学习各个任务的私有特征；S5：利用条件随机场对S3和S4的输出进行标签解码；S6：利用共享层的信息训练对抗网络，减少共享层中混入的私有特征。2.根据权利要求1所述的一种面向医学领域的多任务命名实体识别对抗训练方法，其特征在于S1中，收集并处理数据集，使其每一行由一个单词和标签组成，其步骤如下：S11：收集网上公开的生物医学数据集，例如AnatEM、BC2GM、BC5CDR、BioNLP09等数据集，处理数据集，使其每个文件的格式为每一行由一个单词和标签组成；S12：对数据量小于阈值1M的数据集进行处理，将多个标签用唯一的标签代替。3.根据权利要求1所述的一种面向医学领域的多任务命名实体识别对抗训练方法，其特征在于S2中，利用卷积神经网络对单词字符层面的信息进行编码，其步骤如下：S21：对句子、单词和标签进行统计，形成句表、词表V和标签表；对单词中的字符进行统计，形成字符表Vchr；设dchr为每个字符向量的维度，字符向量矩阵为：其中为维度为dchr×|Vchr|的向量空间，|Vchr|为字符表中的字符个数；S22：对于给定的单词w由M个字符组成{c1,c2,…,cM}；先把所有字符cm通过字符向量矩阵转化为字符向量m∈[1,M]；单词w的字符串转化为卷积层在字符串上应用的连续窗口大小为kchr；定义向量作为窗口大小为kchr的级联向量：S23：定义字符向量为rwch，则第j个元素定义如下：：[rwch]j＝max1≤m≤M[W0sm+b0]j(3)其中W0为的权重向量，b0为偏置向量dH为字符向量rwch的维度；S24：将字符向量rwch与预训练的词向量级联作为输入特征向量。4.根据权利要求1所述的一种面向医学领域的多任务命名实体识别对抗训练方法，其特征在于S3中，构建共享层，利用双向长短期记忆神经网络对句子中每个单词的输入特征向量进行建模，学习各个任务的公共特征，其步骤如下：S31：构建正向长短期记忆神经网络：定义xt为t时刻的输入特征向量，ht为在t时刻存储所有有用信息的隐藏层状态向量，σ为sigmoid回归层，*为内积，Ui,Uf,Uc,Uo为不同变量下针对输入xt的权重矩阵，Wi,Wf,Wc,Wo为隐藏层状态ht的权重矩阵，bi,bf,bc,bo为偏置向量，ft为t时刻遗忘单元，it为t时刻输入单元向量，为t时刻可以被加入到记忆单元的向量，Ct为t时刻存储单元，ht为t时刻隐藏单元，ot为t时刻输出单元向量，各变量计算公式如式(3)、(4)、(5)、(6)、(7)、(8)所示：ft＝σ(Wfht-1+Ufxt+bf)(4)it＝σ(Wiht-1+Uixt+bi)(5)ot＝σ(Woht-1+Uoxt+bo)(8)ht＝ot*tanh(Ct)(9)S32：步骤S31中为正向长短期记忆神经网络的构建过程，其隐藏单元ht用于存储过去时刻的所有信息，以同样的方法再...

【专利技术属性】
技术研发人员：汤斯亮，王凯，张宁，吴飞，庄越挺，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人