当前位置: 首页 > 专利查询>福州大学专利>正文

一种基于文本表示学习的跨领域情感分类系统及方法技术方案

技术编号:21184670 阅读:24 留言:0更新日期:2019-05-22 15:16
本发明专利技术涉及一种基于文本表示学习的跨领域情感分类系统及方法,包含一个评论文本预处理模块,用于对跨领域文本进行特征化处理;包含一个文本表示学习模块,用于学习领域适应的特征表示空间,挖掘出源领域与目标领域潜在的通用领域特征和情感特征;包含一个文本表示强化模块,生成对抗模型用于自动生成鲁棒的源领域文本表示并判别其情感类别,根据误差不断更新模型参数;包含一个情感类别输出模块,利用分类函数得到最终的情感分类结果。本发明专利技术能够自动抽取出目标领域与源领域的潜在通用特征,并对特征进行抽象和组合,最终识别出目标领域文本的情感类别。

A Cross-domain Emotional Classification System and Method Based on Text Representation Learning

The invention relates to a cross-domain emotional classification system and method based on text representation learning, which includes a comment text preprocessing module for feature processing of cross-domain text, a text representation learning module for feature representation space adapted to learning field, and potential common domain features and emotional features of source and target fields. A text representation enhancement module generates a confrontation model for automatically generating robust source domain text representation and identifying its emotional categories, updating model parameters according to errors, including an emotional category output module, using classification function to get the final emotional classification results. The invention can automatically extract the potential common features of the target domain and the source domain, abstract and combine the features, and finally identify the emotional category of the target domain text.

【技术实现步骤摘要】
一种基于文本表示学习的跨领域情感分类系统及方法
本专利技术涉及情感分析和观点挖掘领域,特别是一种基于文本表示学习的跨领域情感分类系统及方法。
技术介绍
当前,有很多技术方法可用于文本情感分类。传统的文本情感分类方法主要基于有监督的机器学习的方法,主要通过提取文本中的情感特征,使用支持向量机(SVMs)等分类器进行情感分类。这一类基于特征工程与浅层线性模型的方法虽然取得了一定的成效,但是当训练领域与测试领域的情感特征分布不同时,情感特征的迁移性较差,传统的情感分类方法无法有效地进行跨领域情感分类,需要耗费大量的时间和精力重新设计目标领域的情感特征,并且受限于人工设计的规则和特征的有效性以及模型的学习能力。而且有监督方法准确度较高,但在目标领域没有标注数据时,如何利用领域之间的联系,从而学习一个跨领域的文本特征表示空间,是跨领域情感分类的问题关键。当前,存在着一些基于特征选择的跨领域情感分类方法。在跨领域情感分类中,在目标领域与源领域中都频繁出现的特征称为枢轴特征,研究者们从两个领域中的原始特征集中挖掘枢轴特征和非枢轴特征,构建领域特征间的映射关系,寻找统一的情感特征空间。这类方法通常利用人工设计的特征或使用N元语法模型提取特征,无法充分高效地对跨领域文本进行表示。当前,存在着一些基于特征表示学习的跨领域情感分类方法。近年来随着深度学习的快速发展,利用神经网络模型对文本进行表示学习在语义表示和情感分析运用方面更具优势。许多研究者们也将这些模型用于跨领域情感分类中。神经网络模型与特征选择的方法相比,能够自动地从文本数据中学习文本表示,从而避免了大量的特征工程,但需要目标领域的标注数据进行有效训练。有些研究者利用领域对抗的方法同时进行领域分类和情感分类,从而学习一个领域适应的特征表示空间,但未充分考虑文本表示学习中的噪声问题,仍有很大的探索空间因此人们希望找到一种更加高效的跨领域情感分类方法,进而提高跨领域情感分类的精度和减少人工时间精力的消耗。
技术实现思路
有鉴于此,本专利技术的目的是提出一种基于文本表示学习的跨领域情感分类系统及方法,能够自动抽取出目标领域与源领域的潜在通用特征,并对特征进行抽象和组合,最终识别出目标领域文本的情感类别。本专利技术采用以下方案实现:一种基于文本表示学习的跨领域情感分类系统,具体包括:一个文本预处理模块,用于对跨领域文本进行特征化处理,得到源领域与目标领域的初始文本向量;一个文本表示学习模块,接收文本预处理模块的输出,用于学习领域适应的特征表示空间,挖掘出源领域与目标领域潜在的通用领域特征和情感特征,得到源领域与目标领域的文本特征向量;一个文本表示强化模块,生成对抗网络模型用于自动生成鲁棒的源领域文本表示并判别其情感类别,根据误差不断更新与优化文本表示学习模块的参数;一个情感类别输出模块,根据文本表示学习模块输出的目标领域的文本特征向量并利用分类函数得到目标领域的文本情感分类结果。进一步地,所述文本预处理模块利用N-gram文法提取源领域与目标领域文本的特征,并利用边缘堆叠降噪自编码器学习跨领域文本的特征表示,无需目标领域的情感标签。较佳的,边缘堆叠降噪自编码器使用更少的计算量和具有对高维特征的扩展性,实现领域特征的抽象化。进一步地,所述文本表示学习模块利用神经网络对领域适应的特征表示进行学习,同时考虑了不同领域文本中的领域特征和情感特征。进一步地,所述神经网络对文本特征进行抽象化,从而得到领域适应的特征表示向量,即源领域文本特征向量与目标领域文本特征向量。进一步地,所述文本表示强化模块中构建生成对抗网络模型,考虑了文本表示学习模块中存在的噪声特征问题。进一步地,所述生成对抗网络模型包括生成网络和判别网络,在两者对抗学习中强化文本表示空间;所述的生成网络通过在文本表示向量中加入噪声向量合成假样本以迷惑判别网络的判断,判别网络同时进行情感分类和真假样本的判断,进一步优化文本表示学习模块。进一步地,所述的生成网络利用正态分布产生随机噪声向量,生成的合成向量通过模块的优化更接近源领域样本。进一步地,所述判别网络同时进行情感分类和真假样本的判断,考虑了领域特征和情感特征对跨领域情感分类的贡献程度,权衡两个因素对结果的影响程度。进一步地,所述情感类别输出模块采用softmax函数对所得到的文本表示向量进行处理,预测各文本的情感类别。本专利技术还提供了一种基于上文所述的基于文本表示学习的跨领域情感分类系统的方法,具体包括以下步骤:步骤S1:所述文本预处理模块接收源领域文本数据及情感标签、目标领域文本数据,对跨领域文本进行特征化处理,得到源领域与目标领域的初始文本向量;步骤S2:所述文本表示学习模块将文本预处理模块的输出作为输入,学习领域适应的特征表示空间,挖掘出源领域与目标领域潜在的通用领域特征和情感特征,得到源领域与目标领域的文本特征向量;步骤S3:所述文本表示强化模块生成对抗网络模型用于自动生成鲁棒的源领域文本表示并判别其情感类别,根据误差不断更新与优化文本表示学习模块的参数;步骤S4:所述情感类别输出模块接收优化后的文本表示学习模块输出的文本特征向量,并利用分类函数得到目标领域的文本情感分类结果。特别的,在模型的训练阶段,根据信息的前向传播和误差的后向传播将不断地对他们进行调整,逐步优化目标函数。与现有技术相比,本专利技术有以下有益效果:本专利技术提出的方法能够自动抽取出目标领域与源领域的潜在通用特征,并对特征进行抽象和组合,最终识别出目标领域文本的情感类别。附图说明图1为本专利技术实施例的原理示意图。具体实施方式下面结合附图及实施例对本专利技术做进一步说明。应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。如图1所示,本实施例提供了一种基于文本表示学习的跨领域情感分类系统,具体包括:一个文本预处理模块,用于对跨领域文本进行特征化处理,得到源领域与目标领域的初始文本向量;一个文本表示学习模块,接收文本预处理模块的输出,用于学习领域适应的特征表示空间,挖掘出源领域与目标领域潜在的通用领域特征和情感特征,得到源领域与目标领域的文本特征向量;一个文本表示强化模块,生成对抗网络模型用于自动生成鲁棒的源领域文本表示并判别其情感类别,根据误差不断更新与优化文本表示学习模块的参数;一个情感类别输出模块,根据文本表示学习模块输出的目标领域的文本特征向量并利用分类函数得到目标领域的文本情感分类结果。在本实施例中,所述文本预处理模块利用N-gram文法提取源领域与目标领域文本的特征,并利用边缘堆叠降噪自编码器学习跨领域文本的特征表示,无需目标领域的情感标签。较佳的,在本实施例中,边缘堆叠降噪自编码器使用更少的计算量和具有对高维特征的扩展性,实现领域特征的抽象化。具体的,在文本预处理模块中,由于神经网络的输入数据一般为本文档来自技高网
...

【技术保护点】
1.一种基于文本表示学习的跨领域情感分类系统,其特征在于:包括一个文本预处理模块,用于对跨领域文本进行特征化处理,得到源领域与目标领域的初始文本向量;一个文本表示学习模块,接收文本预处理模块的输出,用于学习领域适应的特征表示空间,挖掘出源领域与目标领域潜在的通用领域特征和情感特征,得到源领域与目标领域的文本特征向量;一个文本表示强化模块,生成对抗网络模型用于自动生成鲁棒的源领域文本表示并判别其情感类别,根据误差不断更新与优化文本表示学习模块的参数;一个情感类别输出模块,根据文本表示学习模块输出的目标领域的文本特征向量并利用分类函数得到目标领域的文本情感分类结果。

【技术特征摘要】
1.一种基于文本表示学习的跨领域情感分类系统,其特征在于:包括一个文本预处理模块,用于对跨领域文本进行特征化处理,得到源领域与目标领域的初始文本向量;一个文本表示学习模块,接收文本预处理模块的输出,用于学习领域适应的特征表示空间,挖掘出源领域与目标领域潜在的通用领域特征和情感特征,得到源领域与目标领域的文本特征向量;一个文本表示强化模块,生成对抗网络模型用于自动生成鲁棒的源领域文本表示并判别其情感类别,根据误差不断更新与优化文本表示学习模块的参数;一个情感类别输出模块,根据文本表示学习模块输出的目标领域的文本特征向量并利用分类函数得到目标领域的文本情感分类结果。2.根据权利要求1所述的一种基于文本表示学习的跨领域情感分类系统,其特征在于:所述文本预处理模块利用N-gram文法提取源领域与目标领域文本的特征,并利用边缘堆叠降噪自编码器学习跨领域文本的特征表示,无需目标领域的情感标签。3.根据权利要求1所述的一种基于文本表示学习的跨领域情感分类系统,其特征在于:所述文本表示学习模块利用神经网络对领域适应的特征表示进行学习,同时考虑了不同领域文本中的领域特征和情感特征。4.根据权利要求3所述的一种基于文本表示学习的跨领域情感分类系统,其特征在于:所述神经网络对文本特征进行抽象化,从而得到领域适应的特征表示向量,即源领域文本特征向量与目标领域文本特征向量。5.根据权利要求1所述的一种基于文本表示学习的跨领域情感分类系统,其特征在于:所述文本表示强化模块中构建生成对抗网络模型,考虑了文本表示学习模块中存在的噪声特征问题。6.根据权利要求5所述的一种基于文本表示学习的跨领域情感分类系统,其特征在于:所述生成对抗网络模型包括生成...

【专利技术属性】
技术研发人员:廖祥文吴晓静陈志豪陈国龙
申请(专利权)人:福州大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1