The invention relates to a cross-domain emotional classification system and method based on text representation learning, which includes a comment text preprocessing module for feature processing of cross-domain text, a text representation learning module for feature representation space adapted to learning field, and potential common domain features and emotional features of source and target fields. A text representation enhancement module generates a confrontation model for automatically generating robust source domain text representation and identifying its emotional categories, updating model parameters according to errors, including an emotional category output module, using classification function to get the final emotional classification results. The invention can automatically extract the potential common features of the target domain and the source domain, abstract and combine the features, and finally identify the emotional category of the target domain text.
【技术实现步骤摘要】
一种基于文本表示学习的跨领域情感分类系统及方法
本专利技术涉及情感分析和观点挖掘领域,特别是一种基于文本表示学习的跨领域情感分类系统及方法。
技术介绍
当前,有很多技术方法可用于文本情感分类。传统的文本情感分类方法主要基于有监督的机器学习的方法,主要通过提取文本中的情感特征,使用支持向量机(SVMs)等分类器进行情感分类。这一类基于特征工程与浅层线性模型的方法虽然取得了一定的成效,但是当训练领域与测试领域的情感特征分布不同时,情感特征的迁移性较差,传统的情感分类方法无法有效地进行跨领域情感分类,需要耗费大量的时间和精力重新设计目标领域的情感特征,并且受限于人工设计的规则和特征的有效性以及模型的学习能力。而且有监督方法准确度较高,但在目标领域没有标注数据时,如何利用领域之间的联系,从而学习一个跨领域的文本特征表示空间,是跨领域情感分类的问题关键。当前,存在着一些基于特征选择的跨领域情感分类方法。在跨领域情感分类中,在目标领域与源领域中都频繁出现的特征称为枢轴特征,研究者们从两个领域中的原始特征集中挖掘枢轴特征和非枢轴特征,构建领域特征间的映射关系,寻找统一的情感特征空间。这类方法通常利用人工设计的特征或使用N元语法模型提取特征,无法充分高效地对跨领域文本进行表示。当前,存在着一些基于特征表示学习的跨领域情感分类方法。近年来随着深度学习的快速发展,利用神经网络模型对文本进行表示学习在语义表示和情感分析运用方面更具优势。许多研究者们也将这些模型用于跨领域情感分类中。神经网络模型与特征选择的方法相比,能够自动地从文本数据中学习文本表示,从而避免了大量的特征工程,但 ...
【技术保护点】
1.一种基于文本表示学习的跨领域情感分类系统,其特征在于:包括一个文本预处理模块,用于对跨领域文本进行特征化处理,得到源领域与目标领域的初始文本向量;一个文本表示学习模块,接收文本预处理模块的输出,用于学习领域适应的特征表示空间,挖掘出源领域与目标领域潜在的通用领域特征和情感特征,得到源领域与目标领域的文本特征向量;一个文本表示强化模块,生成对抗网络模型用于自动生成鲁棒的源领域文本表示并判别其情感类别,根据误差不断更新与优化文本表示学习模块的参数;一个情感类别输出模块,根据文本表示学习模块输出的目标领域的文本特征向量并利用分类函数得到目标领域的文本情感分类结果。
【技术特征摘要】
1.一种基于文本表示学习的跨领域情感分类系统,其特征在于:包括一个文本预处理模块,用于对跨领域文本进行特征化处理,得到源领域与目标领域的初始文本向量;一个文本表示学习模块,接收文本预处理模块的输出,用于学习领域适应的特征表示空间,挖掘出源领域与目标领域潜在的通用领域特征和情感特征,得到源领域与目标领域的文本特征向量;一个文本表示强化模块,生成对抗网络模型用于自动生成鲁棒的源领域文本表示并判别其情感类别,根据误差不断更新与优化文本表示学习模块的参数;一个情感类别输出模块,根据文本表示学习模块输出的目标领域的文本特征向量并利用分类函数得到目标领域的文本情感分类结果。2.根据权利要求1所述的一种基于文本表示学习的跨领域情感分类系统,其特征在于:所述文本预处理模块利用N-gram文法提取源领域与目标领域文本的特征,并利用边缘堆叠降噪自编码器学习跨领域文本的特征表示,无需目标领域的情感标签。3.根据权利要求1所述的一种基于文本表示学习的跨领域情感分类系统,其特征在于:所述文本表示学习模块利用神经网络对领域适应的特征表示进行学习,同时考虑了不同领域文本中的领域特征和情感特征。4.根据权利要求3所述的一种基于文本表示学习的跨领域情感分类系统,其特征在于:所述神经网络对文本特征进行抽象化,从而得到领域适应的特征表示向量,即源领域文本特征向量与目标领域文本特征向量。5.根据权利要求1所述的一种基于文本表示学习的跨领域情感分类系统,其特征在于:所述文本表示强化模块中构建生成对抗网络模型,考虑了文本表示学习模块中存在的噪声特征问题。6.根据权利要求5所述的一种基于文本表示学习的跨领域情感分类系统,其特征在于:所述生成对抗网络模型包括生成...
【专利技术属性】
技术研发人员:廖祥文,吴晓静,陈志豪,陈国龙,
申请(专利权)人:福州大学,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。