当前位置: 首页 > 专利查询>浙江大学专利>正文

一种联合文本分类的多任务命名实体识别方法技术

技术编号:24331633 阅读:75 留言:0更新日期:2020-05-29 19:52
本发明专利技术公开了一种联合文本分类的多任务命名实体识别方法。该方法包括如下步骤:(1)利用卷积神经网络构造文本分类器,度量文本的相似度;(2)选取合适的阈值,对于辅助任务的数据集,根据文本分类结果与阈值的比较来决定其是否参与共享层参数的更新;(3)将文本的字符向量与预训练好的词向量级联作为输入特征向量;(4)在共享层,利用双向LSTM对句子中每个单词的输入特征向量进行建模,学习各任务的公共特征;(5)在任务层依次训练每个任务,将共享层的输出传入主任务私有层或辅助任务私有层中的双向LSTM神经网络,再利用线性链条件随机场来对整个句子进行标签解码,并标注句子中的实体。本发明专利技术在多个生物医学领域的数据集上进行实验,可以有效提升语料难获取、标注成本高的特定领域的命名实体识别效果。

A multi task named entity recognition method based on joint text classification

【技术实现步骤摘要】
一种联合文本分类的多任务命名实体识别方法
本专利技术涉及自然语言处理,尤其涉及一种联合文本分类的多任务命名实体识别方法。
技术介绍
自然语言处理(NatureLanguageProcessing,简称NLP)是一门集语言学与计算机科学为一体的交叉学科。命名实体识别(NamedEntityRecognition,简称NER)是自然语言处理中的一项基本任务,旨在识别出自然语言文本中的专有名词和有意义的数量短语,并加以分类。随着信息抽取和大数据概念的兴起,命名实体识别任务日益受到人们重视,已成为舆情分析、信息检索、自动问答、机器翻译等自然语言处理的重要组成部分。如何从海量的互联网文本信息中自动、准确、快速地识别出命名实体,逐渐成为了学术界和工业界关注的热点问题。旨在识别出特殊领域(如生物医学)内文献中的实体文本以及类别的命名实体识别技术,已成为特定领域内文档分类、检索以及内容分析的重要组成部分。以生物医学领域为例,在生物医学文献、临床记录等数量高速增长的同时,其中新的生物医学实体以及它们的缩略词、同义词数量也在高速增长。然而现有的基于学习的命名实体识别系统大量依赖于需要高代价的标注数据,在生物医学领域,则更加需要专业的领域知识来标注数据。如何利用已公开的数据集,而不需要额外人工标注新的数据集,训练出高效的模型已成为目前的研究重点。以神经网络模型来对文本中的命名实体进行识别是目前主流的实体识别技术,然而这种学习模型往往需要大量的标注数据来进行训练。由于在生物医学领域缺少训练数据,神经网络模型常常表现的非常差。针对现有技术难点,我们提出了一种面向特定领域的联合文本分类的多任务命名实体识别方法。尽管特定领域往往数据有限,但通常存在一些相关领域的数据。例如在生物医学领域,存在疾病数据集、药品数据集、物种数据集等相关领域数据集。本方法研究的目的是如何利用这些数据来帮助目标任务提升效果。本方法基于一个假设——两个数据集如果能促进彼此或者说能促进目标任务,那么它们在语义空间上应该有重叠。两个数据集重叠部分语义接近,也就是目标任务训练时,把辅助任务中跟目标任务语义接近的句子进行训练,而语义不接近的句子不训练。使用的框架是多任务学习,如果辅助任务的句子跟目标任务语义接近,则更新共享层和任务层;否则只更新任务层。实验在多个生物医学及相关领域数据集上进行实验,大多数情况下可有效提升目标任务的效果。
技术实现思路
本专利技术的目的是在不需要额外标注新的数据集的背景下,利用相关领域的数据集来帮助目标领域提升效果,提供一种针对特定领域的联合文本分类的多任务命名实体识别方法。本专利技术具体采用的技术方案如下:一种联合文本分类的多任务命名实体识别方法,其包括如下步骤:S1:利用卷积神经网络构造文本分类器,度量文本的相似度;S2:选取阈值,对于辅助任务的数据集,根据文本分类结果与阈值的比较来决定其是否参与共享层参数的更新;S3:将文本的字符向量与预训练好的词向量级联作为输入特征向量;S4:在共享层,利用双向LSTM对句子中每个单词的输入特征向量进行建模,学习各任务的公共特征;S5:在任务层依次训练每个任务,将共享层的输出传入主任务私有层或辅助任务私有层中的双向LSTM神经网络,再利用线性链条件随机场来对整个句子进行标签解码,并标注句子中的实体。上述各步骤可具体采用如下实现方式:所述的步骤S1中,利用卷积神经网络构造文本分类器,度量文本的相似度的具体步骤如下:S11:输入句子中的每个词,通过词嵌入模块转化为维度为k的词向量;令句子中第i个词的词向量句子长度为n,则句子表示为:x1:n=[x1;x2;…;xn](1)S12:令卷积核为在窗口xi:i+h-1上卷积计算得到特征ci:ci=f(w·xi:i+h-1+b)(2)其中,h×k为卷积核的维度,b表示偏置;长度为n的句子上构造的特征为:c=[c1;c2;…;cn-h+1](3)S13:对c进行最大池化,将作为卷积核w的对应特征表达:S14:使用多个卷积核w1,w2,…,ws分别进行以上操作,将得到的对应特征表达拼接起来,输入到全连接网络中,使用Softmax函数进行分类;Softmax函数定义如下:其中,为Softmax函数的输入,Vi表示输入向量的第i个元素;S为Softmax函数的输出,Si表示输出向量的第i个元素,代表输入的句子属于第i个类别的概率,类别个数为M。所述的步骤S2中,选取阈值,对于辅助任务的数据集,根据文本分类结果与阈值的比较来决定其是否参与共享层参数的更新的具体步骤如下:S21:设有m个数据集,其中第一个数据集设为主任务,其余m-1个数据集为辅助任务;S22:文本分类器训练完成后,每个句子经过文本分类器会生成1个向量记为向量的第1位数字记为k0,每个数据集取所有句子的k0的平均值作为该数据集的阈值;S23:多任务命名实体识别模型训练时,主任务的数据默认更新共享层;S24:辅助任务的数据先经过文本分类器,当文本分类输出的k0大于阈值时,更新任务层和共享层,否则只更新任务层。所述的步骤S3中,将文本的字符向量与预训练好的词向量级联作为输入特征向量的步骤如下:S31:采用自然语言处理工具对文档进行分句和分词,对句子、单词和标签进行统计,形成句表、单词表和标签表;对单词表中字符进行统计,形成字符表;S32:令C为字符表,d为每个字符向量的维度,字符向量矩阵为:S33:令单词t第i个字符的向量为则该单词表示为t1:l=[t1;t2;…;tl],其中l为单词t的长度;S34:使用高度为h的内核实现卷积,并添加偏置值b,然后将整个卷积结果进行非线性回归来实现特征映射,映射函数ft的第i个元素ft(i)由(6)式给出;ft(i)=tanh(w·ti:i+h-1+b)(6)S35:以yt=maxift(i)作为单词t对应于卷积核w的特征表达;S36:使用多个卷积核w1,w2,…,wq分别进行以上操作,将得到的对应特征表达拼接起来,再与单词t预训练好的词向量级联作为t的输入特征向量。所述的步骤S4中,在共享层,利用双向LSTM对句子中每个单词的输入特征向量进行建模,学习各任务的公共特征的具体步骤如下:S41:定义xt为t时刻的输入特征向量,ht为在t时刻存储所有有用信息的隐藏层状态向量,σ为sigmoid回归层,*为内积,Ui,Uf,Uc,Uo为不同状态下针对输入xt的权重矩阵,Wi,Wf,Wc,Wo为隐藏层状态ht的权重矩阵,bi,bf,bc,bo为偏置向量;S42:在t时刻forgetgate的计算如(7)式所示:ft=σ(Wfht-1+Ufxt+bf)(7)ft决定t-1时刻的单元状态中需要遗忘的比例;S43:更新需要保存到t时刻的单元状态中的信息,计算公式如(8)、(9)式所示:...

【技术保护点】
1.一种联合文本分类的多任务命名实体识别方法,其特征在于包括如下步骤:/nS1:利用卷积神经网络构造文本分类器,度量文本的相似度;/nS2:选取阈值,对于辅助任务的数据集,根据文本分类结果与阈值的比较来决定其是否参与共享层参数的更新;/nS3:将文本的字符向量与预训练好的词向量级联作为输入特征向量;/nS4:在共享层,利用双向LSTM对句子中每个单词的输入特征向量进行建模,学习各任务的公共特征;/nS5:在任务层依次训练每个任务,将共享层的输出传入主任务私有层或辅助任务私有层中的双向LSTM神经网络,再利用线性链条件随机场来对整个句子进行标签解码,并标注句子中的实体。/n

【技术特征摘要】
1.一种联合文本分类的多任务命名实体识别方法,其特征在于包括如下步骤:
S1:利用卷积神经网络构造文本分类器,度量文本的相似度;
S2:选取阈值,对于辅助任务的数据集,根据文本分类结果与阈值的比较来决定其是否参与共享层参数的更新;
S3:将文本的字符向量与预训练好的词向量级联作为输入特征向量;
S4:在共享层,利用双向LSTM对句子中每个单词的输入特征向量进行建模,学习各任务的公共特征;
S5:在任务层依次训练每个任务,将共享层的输出传入主任务私有层或辅助任务私有层中的双向LSTM神经网络,再利用线性链条件随机场来对整个句子进行标签解码,并标注句子中的实体。


2.根据权利要求1所述的一种联合文本分类的多任务命名实体识别方法,其特征在于,所述的步骤S1中,利用卷积神经网络构造文本分类器,度量文本的相似度的具体步骤如下:
S11:输入句子中的每个词,通过词嵌入模块转化为维度为k的词向量;令句子中第i个词的词向量句子长度为n,则句子表示为:
x1:n=[x1;x2;…;xn](1)
S12:令卷积核为在窗口xi:i+h-1上卷积计算得到特征ci:
ci=f(w·xi:i+h-1+b)(2)
其中,h×k为卷积核的维度,b表示偏置;
长度为n的句子上构造的特征为:
c=[c1;c2;…;cn-h+1](3)
S13:对c进行最大池化,将作为卷积核w的对应特征表达:



S14:使用多个卷积核w1,w2,…,ws分别进行以上操作,将得到的对应特征表达拼接起来,输入到全连接网络中,使用Softmax函数进行分类;Softmax函数定义如下:



其中,V为Softmax函数的输入,Vi表示输入向量的第i个元素;S为Softmax函数的输出,Si表示输出向量的第i个元素,代表输入的句子属于第i个类别的概率,类别个数为M。


3.根据权利要求1所述的一种联合文本分类的多任务命名实体识别方法,其特征在于,所述的步骤S2中,选取阈值,对于辅助任务的数据集,根据文本分类结果与阈值的比较来决定其是否参与共享层参数的更新的具体步骤如下:
S21:设有m个数据集,其中第一个数据集设为主任务,其余m-1个数据集为辅助任务;
S22:文本分类器训练完成后,每个句子经过文本分类器会生成1个向量记为向量的第1位数字记为k0,每个数据集取所有句子的k0的平均值作为该数据集的阈值;
S23:多任务命名实体识别模型训练时,主任务的数据默认更新共享层;
S24:辅助任务的数据先经过文本分类器,当文本分类输出的k0大于阈值时,更新任务层和共享层,否则只更新任务层。


4.根据权利要求1所述的一种联合文本分类的多任务命名实体识别方法,其特征在于,所述的步骤S3中,将文本的字符向量与预训练好的词向量级联作为输入特征向量的步骤如下:
S31:采用自然语言处理工具对文档进行分句和分词,对句子、单词和标签进行统计,形成句表、单词表和标签表;对单词表中字符进行统计,形成字符表;
S32:令C为字符表,d为每个字符向量的维度,字符向量矩阵为:
S33:令单词t第i个字符的向量为则该单词表示为t1:l=[t1;t2;…;tl],其中l为单词t的长度;
S34:使用高度为h的内核实现卷积,并添加偏置值b,然后将整个卷积结果进行非线性回...

【专利技术属性】
技术研发人员:庄越挺浦世亮汤斯亮纪睿王凯吴飞
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1