一种基于多任务对抗学习的文本分类方法技术

技术编号：20724948 阅读：27 留言：0更新日期：2019-03-30 17:42

本发明专利技术公开了一种基于多任务对抗学习的文本分类方法，包括以下步骤：预训练词嵌入向量；构建多任务特征提取器，提炼出多领域文本数据的共享特征和私有特征；引入多领域的对抗网络，使得共享特征空间包含更多共享特征和更少的私有特征；引入特征矩阵的正交约束，消除同时存在于共享特征空间和私有特征空间中的冗余特征；设计联合损失函数，构建完整的多任务对抗学习分类器；将共享网络层剥离出来，用于新目标领域文本数据的分类预测。本发明专利技术可直接应用于实际多领域文本数据的分类任务中，采用本发明专利技术中的多任务学习分类方法可以解决单任务学习会忽略任务之间所富含的关联信息的问题，且通过对抗网络和正交约束可提高文本分类的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多任务对抗学习的文本分类方法
本专利技术涉及自然语言处理领域中的信息挖掘和文本分类领域，特别涉及一种基于多任务对抗学习的文本分类方法。
技术介绍
信息时代以惊人的速度发展，容纳了海量的各种类型的信息，其中包括文本信息、声音信息、图像信息等。文本分类作为处理和组织大量文本数据的关键技术，可以较大程度上解决信息杂乱的问题，方便用户准确定位信息，提高信息检索的效率，大大降低组织整理文档耗费的人力资源。因此，越多越多的自然语言处理研究和实践人员开始高度关注基于机器学习和深度学习的文本分类方法，并不断提出新的模型优化文本分类的准确性。基于机器学习的传统文本分类方法，首先从文本数据中提出特征，常用的特征计算有TF/IDF，互信息量，信息增益、X2统计量、N-Gram等方法。这些特征主要利用的是统计学分析获取的特征。进一步地，文本分类方法运用如支持向量机、随机森林、逻辑回归等监督学习模型构造分类器得到分类模型，最终对新文本数据进行分类预测。基于深度学习的文本分类方法，使用一些神经网络模型如卷积神经网络CNN、长短期记忆网络LSTM等模型来做特征的提取，往往取得了更好的分类效果。然而，面对多领域(任务)文本分类处理，分别对单一领域(任务)的文本数据集进行训练学习效果有限，效率也不高；另一方面，多任务学习中的Shared-Private模型可以同时学习多领域文本数据的共享特征和私有特征，且通过引入对抗训练网络和特征矩阵的正交约束，多领域的文本分类准确率得到进一步提升，训练学习得到的共享网络层还可以进行保存，用于缺乏训练数据的新目标领域的文本分类预测。基于上述动机和技...

【技术保护点】
1.一种基于多任务对抗学习的文本分类方法，其特征在于，包括以下步骤：1)基于word2vec模型，在未贴标签的大规模数据集上预训练word embeddings词嵌入向量，用于文本数据的矩阵向量化；2)构建基于Shared‑Private模型的多任务特征提取网络，利用步骤1)得到的预训练词向量初始化Shared‑Private网络的输入；3)引入多领域对抗网络，优化步骤2)得到的共享特征空间，使之包含更多的共享特征和更少的私有特征；4)引入特征矩阵的正交约束模型，在步骤3)中优化共享特征空间的基础上，消除共享特征空间和私有特征空间中的冗余特征；5)在步骤2)、步骤3)和步骤4)的基础上，设计带超参数的联合损失函数，训练出基于多任务对抗学习的文本分类模型；6)保存步骤5)中得到的共享特征提取网络，维持网络参数不变，用于新目标领域的文本数据分类预测。

【技术特征摘要】
1.一种基于多任务对抗学习的文本分类方法，其特征在于，包括以下步骤：1)基于word2vec模型，在未贴标签的大规模数据集上预训练wordembeddings词嵌入向量，用于文本数据的矩阵向量化；2)构建基于Shared-Private模型的多任务特征提取网络，利用步骤1)得到的预训练词向量初始化Shared-Private网络的输入；3)引入多领域对抗网络，优化步骤2)得到的共享特征空间，使之包含更多的共享特征和更少的私有特征；4)引入特征矩阵的正交约束模型，在步骤3)中优化共享特征空间的基础上，消除共享特征空间和私有特征空间中的冗余特征；5)在步骤2)、步骤3)和步骤4)的基础上，设计带超参数的联合损失函数，训练出基于多任务对抗学习的文本分类模型；6)保存步骤5)中得到的共享特征提取网络，维持网络参数不变，用于新目标领域的文本数据分类预测。2.根据权利要求1所述基于多任务对抗学习的文本分类方法，其特征在于，步骤2)中，所述构建基于Shared-Private模型的多任务特征提取网络，具体包括以下内容：Shared-Private模型包含两个部分：a)全局唯一的共享特征提取网络由一个长短期记忆网络和一个卷积神经网络网络并行组成，简称为ParallelLC网络层，用以提取任务无关的共享特征；b)多个任务特定的私有特征提取网络均由一个CNN构建，用以提取依赖特定任务的私有特征；最后，两部分得到的共享特征和私有特征进行融合，输入到一个紧接着softmax层的全连接层以输出分类标签的概率分布。3.根据权利要求1所述基于多任务对抗学习的文本分类方法，其特征在于...

【专利技术属性】
技术研发人员：陆璐，贾志豪，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人