一种基于多任务对抗学习的文本分类方法技术

技术编号:20724948 阅读:27 留言:0更新日期:2019-03-30 17:42
本发明专利技术公开了一种基于多任务对抗学习的文本分类方法,包括以下步骤:预训练词嵌入向量;构建多任务特征提取器,提炼出多领域文本数据的共享特征和私有特征;引入多领域的对抗网络,使得共享特征空间包含更多共享特征和更少的私有特征;引入特征矩阵的正交约束,消除同时存在于共享特征空间和私有特征空间中的冗余特征;设计联合损失函数,构建完整的多任务对抗学习分类器;将共享网络层剥离出来,用于新目标领域文本数据的分类预测。本发明专利技术可直接应用于实际多领域文本数据的分类任务中,采用本发明专利技术中的多任务学习分类方法可以解决单任务学习会忽略任务之间所富含的关联信息的问题,且通过对抗网络和正交约束可提高文本分类的准确率。

【技术实现步骤摘要】
一种基于多任务对抗学习的文本分类方法
本专利技术涉及自然语言处理领域中的信息挖掘和文本分类领域,特别涉及一种基于多任务对抗学习的文本分类方法。
技术介绍
信息时代以惊人的速度发展,容纳了海量的各种类型的信息,其中包括文本信息、声音信息、图像信息等。文本分类作为处理和组织大量文本数据的关键技术,可以较大程度上解决信息杂乱的问题,方便用户准确定位信息,提高信息检索的效率,大大降低组织整理文档耗费的人力资源。因此,越多越多的自然语言处理研究和实践人员开始高度关注基于机器学习和深度学习的文本分类方法,并不断提出新的模型优化文本分类的准确性。基于机器学习的传统文本分类方法,首先从文本数据中提出特征,常用的特征计算有TF/IDF,互信息量,信息增益、X2统计量、N-Gram等方法。这些特征主要利用的是统计学分析获取的特征。进一步地,文本分类方法运用如支持向量机、随机森林、逻辑回归等监督学习模型构造分类器得到分类模型,最终对新文本数据进行分类预测。基于深度学习的文本分类方法,使用一些神经网络模型如卷积神经网络CNN、长短期记忆网络LSTM等模型来做特征的提取,往往取得了更好的分类效果。然而,面对多领域(任务)文本分类处理,分别对单一领域(任务)的文本数据集进行训练学习效果有限,效率也不高;另一方面,多任务学习中的Shared-Private模型可以同时学习多领域文本数据的共享特征和私有特征,且通过引入对抗训练网络和特征矩阵的正交约束,多领域的文本分类准确率得到进一步提升,训练学习得到的共享网络层还可以进行保存,用于缺乏训练数据的新目标领域的文本分类预测。基于上述动机和技术,本专利技术提出一种基于多任务对抗学习的文本分类方法。
技术实现思路
本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种基于多任务对抗学习的文本分类方法,结合多任务中的Shared-Private模型、对抗训练网络和特征矩阵的正交约束模型,解决现有文本分类方法单任务学习会忽略多任务之间所富含的关联信息的问题,进一步提高分类的准确率。该方法操作简易,只需在已有的多任务文本数据集上训练出一种文本分类模型,然后提供新目标领域的文本数据集即可提供一套对该领域文本数据集的分类预测结果,为新领域文本自动分类整理提供参考依据。本专利技术的目的通过以下的技术方案实现:一种基于多任务对抗学习的文本分类方法,包括以下步骤:1)基于word2vec模型,在未贴标签的大规模数据集上预训练wordembeddings词嵌入向量,用于文本数据的矩阵向量化;2)构建基于Shared-Private模型的多任务特征提取网络,利用步骤1)得到的预训练词向量初始化Shared-Private网络的输入;3)引入多领域对抗网络,优化步骤2)得到的共享特征空间,使之包含更多的共享特征和更少的私有特征;4)引入特征矩阵的正交约束模型,在步骤3)中优化共享特征空间的基础上,消除共享特征空间和私有特征空间中的冗余特征;5)在步骤2)、步骤3)和步骤4)的基础上,设计带超参数的联合损失函数,训练出基于多任务对抗学习的文本分类模型;6)保存步骤5)中得到的共享特征提取网络,维持网络参数不变,用于新目标领域的文本数据分类预测。步骤2)中,所述构建基于Shared-Private模型的多任务特征提取网络,具体包括以下内容:Shared-Private模型包含两个部分:a)全局唯一的共享特征提取网络由一个长短期记忆网络(LSTM)和一个卷积神经网络网络(CNN)并行组成,简称为ParallelLC网络层,用以提取任务(领域)无关的共享特征;b)多个任务(领域)特定的私有特征提取网络均由一个CNN构建,用以提取依赖特定任务(领域)的私有特征;最后,两部分得到的共享特征和私有特征进行融合,输入到一个紧接着softmax层的全连接层以输出分类标签的概率分布。步骤3)中,所述多领域对抗网络,具体包括以下内容:使用步骤2)ParallelLC网络层得到的共享特征集合FS会输入到一个多领域的分类器D中,用以判别输入数据的领域类型;对抗训练体现在:对于给定的FS(可能含有私有特征),分类器D将计算领域分类的损失函数LD,通过在分类器D和ParallelLC层之间构建一个梯度逆转层,ParallelLC层的领域损失函数转换为-LD,经过梯度下降训练后,ParallelLC层的参数将最小化损失函数-LD,从而最大化损失函数LD;最终,分类器D将不能根据共享特征判别输入数据的领域类型,此时ParallelLC层学习的共享特征空间将包含最多的领域共享特征,而不包含特定领域的私有特征。步骤4)中,所述特征矩阵的正交约束模型,具体包括以下内容:使用步骤2)得到的共享特征分别来源于ParallelLC层的LSTM和CNN的输出,因此基于矩阵正交计算公式,约束模型将分别以ParallelLC提取出的两种共享特征矩阵与唯一的私有特征矩阵为输入,计算两种正交约束损失函数,最后联合最小化这两种损失函数将消除同时存在于共享特征空间和私有特征空间中的冗余特征。步骤5)中,所述多任务对抗学习的文本分类模型,其优化目标包含步骤2)、步骤3)和步骤4)对应的三种损失函数,并且以带超参数的形式进行线性相加;同时,通过步骤5)训练出的共享网络层ParalleLC将进行保存,维持网络参数不变,用于步骤6)中新目标领域文本数据的分类预测。本专利技术与现有技术相比,具有如下优点和有益效果:本专利技术利用了多任务中的Shared‐Private模型,以CNN和LSTM组成共享特征提取器,以对抗学习网络和矩阵正交约束为优化手段,解决单一任务和模型的文本分类方法忽略了多任务所富含的关联信息的问题,进而提高文本分类的准确性。附图说明图1为本专利技术所述基于多任务对抗学习的文本分类方法的流程图。图2为本专利技术所述基于Shared-Private模型的文本分类方法的网络示意图。图3为本专利技术所述基于多任务对抗学习的文本分类的详细网络示意图。图4为本专利技术所述基于共享网络层的新目标领域文本分类的网络示意图。具体实施方式下面结合实施例及附图对本专利技术作进一步详细的描述,但本专利技术的实施方式不限于此。如图1,一种基于多任务对抗学习的文本分类方法,包括以下步骤:步骤1)基于word2vec模型,在未贴标签的大规模数据集上预训练wordembeddings词嵌入向量,用于文本数据的矩阵向量化。具体实现如下:本专利技术选择pythongensim库中的word2vec模型,pipinstallgensim安装好库后,即可导入使用。在调用Word2Vec接口时,主要有以下参数:1)sg:sg=1时为skip-gram算法,对低频词敏感;默认sg=0为CBOW算法。2)size:输出词向量的维数,值太小会导致词映射冲突影响结果,值太大则会耗内存并使算法计算变慢,一般值取为100到200之间。3)window:句子中当前词与目标词之间的最大距离,3表示在目标词前看3-b个词,后面看b个词(b在0-3之间随机)。4)min_count:对词进行过滤,频率小于min-count的单词则会被忽视,默认值为5。5)sample:表示更高频率的词被随机下采样到所设置的阈值,默认值为1e-3。表1展示了Word2Vec训练本文档来自技高网
...

【技术保护点】
1.一种基于多任务对抗学习的文本分类方法,其特征在于,包括以下步骤:1)基于word2vec模型,在未贴标签的大规模数据集上预训练word embeddings词嵌入向量,用于文本数据的矩阵向量化;2)构建基于Shared‑Private模型的多任务特征提取网络,利用步骤1)得到的预训练词向量初始化Shared‑Private网络的输入;3)引入多领域对抗网络,优化步骤2)得到的共享特征空间,使之包含更多的共享特征和更少的私有特征;4)引入特征矩阵的正交约束模型,在步骤3)中优化共享特征空间的基础上,消除共享特征空间和私有特征空间中的冗余特征;5)在步骤2)、步骤3)和步骤4)的基础上,设计带超参数的联合损失函数,训练出基于多任务对抗学习的文本分类模型;6)保存步骤5)中得到的共享特征提取网络,维持网络参数不变,用于新目标领域的文本数据分类预测。

【技术特征摘要】
1.一种基于多任务对抗学习的文本分类方法,其特征在于,包括以下步骤:1)基于word2vec模型,在未贴标签的大规模数据集上预训练wordembeddings词嵌入向量,用于文本数据的矩阵向量化;2)构建基于Shared-Private模型的多任务特征提取网络,利用步骤1)得到的预训练词向量初始化Shared-Private网络的输入;3)引入多领域对抗网络,优化步骤2)得到的共享特征空间,使之包含更多的共享特征和更少的私有特征;4)引入特征矩阵的正交约束模型,在步骤3)中优化共享特征空间的基础上,消除共享特征空间和私有特征空间中的冗余特征;5)在步骤2)、步骤3)和步骤4)的基础上,设计带超参数的联合损失函数,训练出基于多任务对抗学习的文本分类模型;6)保存步骤5)中得到的共享特征提取网络,维持网络参数不变,用于新目标领域的文本数据分类预测。2.根据权利要求1所述基于多任务对抗学习的文本分类方法,其特征在于,步骤2)中,所述构建基于Shared-Private模型的多任务特征提取网络,具体包括以下内容:Shared-Private模型包含两个部分:a)全局唯一的共享特征提取网络由一个长短期记忆网络和一个卷积神经网络网络并行组成,简称为ParallelLC网络层,用以提取任务无关的共享特征;b)多个任务特定的私有特征提取网络均由一个CNN构建,用以提取依赖特定任务的私有特征;最后,两部分得到的共享特征和私有特征进行融合,输入到一个紧接着softmax层的全连接层以输出分类标签的概率分布。3.根据权利要求1所述基于多任务对抗学习的文本分类方法,其特征在于...

【专利技术属性】
技术研发人员:陆璐贾志豪
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1