一种联合文本分类的多任务命名实体识别方法技术

技术编号：24331633 阅读：75 留言：0更新日期：2020-05-29 19:52

本发明专利技术公开了一种联合文本分类的多任务命名实体识别方法。该方法包括如下步骤：(1)利用卷积神经网络构造文本分类器，度量文本的相似度；(2)选取合适的阈值，对于辅助任务的数据集，根据文本分类结果与阈值的比较来决定其是否参与共享层参数的更新；(3)将文本的字符向量与预训练好的词向量级联作为输入特征向量；(4)在共享层，利用双向LSTM对句子中每个单词的输入特征向量进行建模，学习各任务的公共特征；(5)在任务层依次训练每个任务，将共享层的输出传入主任务私有层或辅助任务私有层中的双向LSTM神经网络，再利用线性链条件随机场来对整个句子进行标签解码，并标注句子中的实体。本发明专利技术在多个生物医学领域的数据集上进行实验，可以有效提升语料难获取、标注成本高的特定领域的命名实体识别效果。

A multi task named entity recognition method based on joint text classification

全部详细技术资料下载

【技术实现步骤摘要】
一种联合文本分类的多任务命名实体识别方法
本专利技术涉及自然语言处理，尤其涉及一种联合文本分类的多任务命名实体识别方法。
技术介绍
自然语言处理(NatureLanguageProcessing，简称NLP)是一门集语言学与计算机科学为一体的交叉学科。命名实体识别(NamedEntityRecognition，简称NER)是自然语言处理中的一项基本任务，旨在识别出自然语言文本中的专有名词和有意义的数量短语，并加以分类。随着信息抽取和大数据概念的兴起，命名实体识别任务日益受到人们重视，已成为舆情分析、信息检索、自动问答、机器翻译等自然语言处理的重要组成部分。如何从海量的互联网文本信息中自动、准确、快速地识别出命名实体，逐渐成为了学术界和工业界关注的热点问题。旨在识别出特殊领域(如生物医学)内文献中的实体文本以及类别的命名实体识别技术，已成为特定领域内文档分类、检索以及内容分析的重要组成部分。以生物医学领域为例，在生物医学文献、临床记录等数量高速增长的同时，其中新的生物医学实体以及它们的缩略词、同义词数量也在高速增长。然而现有的基于学习的命名实体识别系统大量依赖于需要高代价的标注数据，在生物医学领域，则更加需要专业的领域知识来标注数据。如何利用已公开的数据集，而不需要额外人工标注新的数据集，训练出高效的模型已成为目前的研究重点。以神经网络模型来对文本中的命名实体进行识别是目前主流的实体识别技术，然而这种学习模型往往需要大量的标注数据来进行训练。由于在生物医学领域缺少训练数据，神经网络模型常常表现的非常差。

【技术保护点】
1.一种联合文本分类的多任务命名实体识别方法，其特征在于包括如下步骤：/nS1：利用卷积神经网络构造文本分类器，度量文本的相似度；/nS2：选取阈值，对于辅助任务的数据集，根据文本分类结果与阈值的比较来决定其是否参与共享层参数的更新；/nS3：将文本的字符向量与预训练好的词向量级联作为输入特征向量；/nS4：在共享层，利用双向LSTM对句子中每个单词的输入特征向量进行建模，学习各任务的公共特征；/nS5：在任务层依次训练每个任务，将共享层的输出传入主任务私有层或辅助任务私有层中的双向LSTM神经网络，再利用线性链条件随机场来对整个句子进行标签解码，并标注句子中的实体。/n

【技术特征摘要】
1.一种联合文本分类的多任务命名实体识别方法，其特征在于包括如下步骤：
S1：利用卷积神经网络构造文本分类器，度量文本的相似度；
S2：选取阈值，对于辅助任务的数据集，根据文本分类结果与阈值的比较来决定其是否参与共享层参数的更新；
S3：将文本的字符向量与预训练好的词向量级联作为输入特征向量；
S4：在共享层，利用双向LSTM对句子中每个单词的输入特征向量进行建模，学习各任务的公共特征；
S5：在任务层依次训练每个任务，将共享层的输出传入主任务私有层或辅助任务私有层中的双向LSTM神经网络，再利用线性链条件随机场来对整个句子进行标签解码，并标注句子中的实体。

2.根据权利要求1所述的一种联合文本分类的多任务命名实体识别方法，其特征在于，所述的步骤S1中，利用卷积神经网络构造文本分类器，度量文本的相似度的具体步骤如下：
S11：输入句子中的每个词，通过词嵌入模块转化为维度为k的词向量；令句子中第i个词的词向量句子长度为n，则句子表示为：
x1:n＝[x1；x2；…；xn](1)
S12：令卷积核为在窗口xi:i+h-1上卷积计算得到特征ci：
ci＝f(w·xi:i+h-1+b)(2)
其中，h×k为卷积核的维度，b表示偏置；
长度为n的句子上构造的特征为：
c＝[c1；c2；…；cn-h+1](3)
S13：对c进行最大池化，将作为卷积核w的对应特征表达：

S14：使用多个卷积核w1,w2,…,ws分别进行以上操作，将得到的对应特征表达拼接起来，输入到全连接网络中，使用Softmax函数进行分类；Softmax函数定义如下：

其中，V为Softmax函数的输入，Vi表示输入向量的第i个元素；S为Softmax函数的输出，Si表示输出向量的第i个元素，代表输入的句子属于第i个类别的概率，类别个数为M。

3.根据权利要求1所述的一种联合文本分类的多任务命名实体识别方法，其特征在于，所述的步骤S2中，选取阈值，对于辅助任务的数据集，根据文本分类结果与阈值的比较来决定其是否参与共享层参数的更新的具体步骤如下：
S21：设有m个数据集，其中第一个数据集设为主任务，其余m-1个数据集为辅助任务；
S22：文本分类器训练完成后，每个句子经过文本分类器会生成1个向量记为向量的第1位数字记为k0，每个数据集取所有句子的k0的平均值作为该数据集的阈值；
S23：多任务命名实体识别模型训练时，主任务的数据默认更新共享层；
S24：辅助任务的数据先经过文本分类器，当文本分类输出的k0大于阈值时，更新任务层和共享层，否则只更新任务层。

4.根据权利要求1所述的一种联合文本分类的多任务命名实体识别方法，其特征在于，所述的步骤S3中，将文本的字符向量与预训练好的词向量级联作为输入特征向量的步骤如下：
S31：采用自然语言处理工具对文档进行分句和分词，对句子、单词和标签进行统计，形成句表、单词表和标签表；对单词表中字符进行统计，形成字符表；
S32：令C为字符表，d为每个字符向量的维度，字符向量矩阵为：
S33：令单词t第i个字符的向量为则该单词表示为t1:l＝[t1；t2；…；tl]，其中l为单词t的长度；
S34：使用高度为h的内核实现卷积，并添加偏置值b，然后将整个卷积结果进行非线性回...

【专利技术属性】
技术研发人员：庄越挺，浦世亮，汤斯亮，纪睿，王凯，吴飞，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人