当前位置: 首页 > 专利查询>福州大学专利>正文

一种基于注意力机制融合的跨领域情感分类系统技术方案

技术编号:23484979 阅读:24 留言:0更新日期:2020-03-10 12:36
本发明专利技术涉及一种基于注意力机制融合的跨领域情感分类系统。包括:评论文本预处理模块,用于获取源领域和目标领域文本的向量形式;文本语义学习模块,用于学习词语之间的语义依赖关系;注意力机制融合模块,通过将不同的注意力方式进行融合,获得词语对文本分类的综合权重;分层注意模块,分别从词级和句子级计算文本的注意力权重,判断词语对句子表示,句子对文档表示的权重;情感类别输出模块,利用分类函数得到最终的情感分类结果。本发明专利技术能够自动抽取出目标领域与源领域的潜在通用特征,并对特征进行抽象和组合,最终识别出目标领域文本的情感类别。

A cross domain emotion classification system based on attention mechanism fusion

【技术实现步骤摘要】
一种基于注意力机制融合的跨领域情感分类系统
本专利技术涉及情感分析和观点挖掘领域,更具体地,涉及一种基于注意力机制融合的跨领域情感分类系统,能够通过跨领域的文本表示学习,学习领域适应的特征表示,较好地进行跨领域情感类别的分析。
技术介绍
情感分类是一项重要而富有挑战性的工作。在有足够标记训练数据的领域取得了显著的成功。然而,标注足够的数据是非常耗费时间和精力的,为情感分类系统适应新领域设置了重大障碍。同时,当用户在不同的领域表达情感时,他们经常使用不同的词语,如果我们直接将一个领域训练的分类器应用到其他领域,由于这些领域之间的差异,其所得到的表现会非常低。因此,跨领域情感文本分类是致力于开发一个通用的情感分类解决方案,我们通过在源领域,即有标签的数据进行训练出分类器,然后应用于目标领域,即无标签领域中对文本情感进行分类,我们称之为跨领域情感分类系统。目前大多数的跨领域情感分类研究属于基于特征的转换,需要手动选择枢轴特征和非枢轴特征。其中结构对应学习(SCL)是试图从非数据透视特征空间到数据透视特征空间获取映射矩阵的典型方法;SFA方法旨在通过对齐不同领域的枢轴特征和非枢轴特征,在源领域与目标领域之间建立桥梁。上述方法都需要在目标域中有大量未标记的数据来帮助构建传输过程。此外,这些方法并没有充分挖掘单词的语义,也没有充分利用数据和领域标签。而近几年深度学习的兴起在跨领域情感分类中取得了较好的成果,其主要是学习情感分类的共同特征和共享参数,其中堆叠降噪自动编码器(SDA)是用于为来自源领域和目标领域的文档生成统一格式的实际特征表示;MSDA方法是保留SDA的强大学习能力,解决SDA计算量大、可扩展性差等问题,但是深度学习方法缺乏可解释性。考虑到文本情感分类时,文本对上下文语义有较强的依赖性,而标准的神经网络模型并不能很好地解决该问题,同时在文本中每个单词对每个句子的贡献不同,每个句子对每个文档的贡献不同,因此需要引入注意力机制来提升文本分类的性能。注意力机制是模仿人脑注意力的特点,即对重要的内容投入较大关注力,而对其他部分投入较少关注力,目前注意力机制在很多领域得到应用,也起到较好的效果。其中软注意力机制是在求注意力分配概率分布的时候,对于输入句子中每个单词都给出一个概率,然后传递给下一层;硬注意力机制是直接从输入剧中找到某个特定的单词,然后把目标句子单词和这个单词对齐,而其他输入句子中的单词硬性认为对其概率为0;局部注意力机制是软注意力机制和硬注意力机制的结合,在每次对齐的时候都要考虑前面的编码的多有隐藏层,所以计算量较大。因此希望找到一种更高效的跨领域情感分类方法,提高跨领域情感分类的精度和减少人工时间精力的消耗。
技术实现思路
本专利技术的目的在于提供一种基于注意力机制融合的跨领域情感分类系统,该系统能够自动抽取出目标领域与源领域的潜在通用特征,并对特征进行抽象和组合,最终识别出目标领域文本的情感类别。为实现上述目的,本专利技术的技术方案是:一种基于注意力机制融合的跨领域情感分类系统,包括:文本预处理模块,用于获取源领域和目标领域文本对应的向量形式;文本语义学习模块,用于学习文本预处理模块获得的文本向量的词语之间的语义依赖关系;注意力机制融合模块,通过将不同的注意力方式进行融合,获得文本向量的词语对文本的综合权重;分层注意模块,分别从词级和句子级计算文本的注意力权重,判断词语对句子表示的权重,句子对文档表示的权重,得到文本表示向量;情感类别输出模块,利用分类函数对分层注意模块输出的文本表示向量进行处理,得到最终的情感分类结果。在本专利技术一实施例中,文本预处理模块利用Word2vec提取源领域与目标领域文本对应的向量形式。在本专利技术一实施例中,文本语义学习模块利用BiGRU来捕获文本向量的词语之间的语义依赖关系。在本专利技术一实施例中,注意力机制融合模块是将Bilinear注意力机制和Dot注意力机制进行结合,更好的计算出词语对句子的贡献程度,句子对文档的贡献程度,更有利于提升在跨领域文本分类的效果。在本专利技术一实施例中,所述的情感类别输出模块采用softmax函数对文本表示向量进行处理,预测各文本的情感类别。在本专利技术一实施例中,在模型的训练阶段,根据信息的前向传播和误差的后向传播将不断地对他们进行调整,逐步优化目标函数。相较于现有技术,本专利技术具有以下有益效果:本专利技术系统能够自动抽取出目标领域与源领域的潜在通用特征,并对特征进行抽象和组合,最终识别出目标领域文本的情感类别。附图说明图1为本专利技术基于注意力机制融合的跨领域情感分类系统的示意配置图。具体实施方式下面结合附图,对本专利技术的技术方案进行具体说明。本专利技术提供了一种基于注意力机制融合的跨领域情感分类系统,包括:文本预处理模块,用于获取源领域和目标领域文本对应的向量形式;文本语义学习模块,用于学习文本预处理模块获得的文本向量的词语之间的语义依赖关系;注意力机制融合模块,通过将不同的注意力方式进行融合,获得文本向量的词语对文本的综合权重;分层注意模块,分别从词级和句子级计算文本的注意力权重,判断词语对句子表示的权重,句子对文档表示的权重,得到文本表示向量;情感类别输出模块,利用分类函数对分层注意模块输出的文本表示向量进行处理,得到最终的情感分类结果。以下为本专利技术的具体实现过程。图1示出了根据本专利技术的实施例,在基于注意力机制融合的跨领域情感分类系统的示意配置图。如图所示,根据本专利技术实施在基于注意力机制融合的跨领域情感分类系统包括:文本预处理模块1,获取源领域和目标领域文本的向量形式;文本语义学习模块2,用于学习词语之间的语义依赖关系;注意力机制融合模块3,将不同的注意力方式进行融合,获得文本中综合的贡献程度;分层注意力模块4,分别从词级和句子级计算文本的注意力权重,判别词语或者句子对文本分类的贡献程度;情感类别输出模块5,利用分类函数得到最终的情感分类结果。下面分别详细描述各模块配置。1)文本预处理模块1首先,描述文本预处理模块1如何得到初始文本向量。为了便于数据的处理、分析与应用,再本专利技术中通过对源领域与目标领域的数据集进行预处理,去除标点符号、过滤停用词并进行分词处理,对获得的词语进行word2vec模型训练,从而得到源领域与目标领域文本对应的向量形式,作为神经网络的输入。2)文本语义学习模块2下面描述文本语义学习模块2是如何将模块1获得的初始文本向量进行学习并获取语义信息。BiGRU是由正反两个GRU模型组成,GRU网络是长短期记忆网络(LSTM)的一种很好的变体,具有较强的长距离语义捕获能力,虽然能获取文本的正向语义信息,但是忽略了未来的上下文信息,因此本专利技术使用BiGRU网络增加了对文本的反向语义信息的学习,从而更好的捕捉双向的语义依赖,在更细粒度的分类时起到更好的作用。3)注意力机制融合模块3下面描述注本文档来自技高网
...

【技术保护点】
1.一种基于注意力机制融合的跨领域情感分类系统,其特征在于,包括:/n文本预处理模块,用于获取源领域和目标领域文本对应的向量形式;/n文本语义学习模块,用于学习文本预处理模块获得的文本向量的词语之间的语义依赖关系;/n注意力机制融合模块,通过将不同的注意力方式进行融合,获得文本向量的词语对文本的综合权重;/n分层注意模块,分别从词级和句子级计算文本的注意力权重,判断词语对句子表示的权重,句子对文档表示的权重,得到文本表示向量;/n情感类别输出模块,利用分类函数对分层注意模块输出的文本表示向量进行处理,得到最终的情感分类结果。/n

【技术特征摘要】
1.一种基于注意力机制融合的跨领域情感分类系统,其特征在于,包括:
文本预处理模块,用于获取源领域和目标领域文本对应的向量形式;
文本语义学习模块,用于学习文本预处理模块获得的文本向量的词语之间的语义依赖关系;
注意力机制融合模块,通过将不同的注意力方式进行融合,获得文本向量的词语对文本的综合权重;
分层注意模块,分别从词级和句子级计算文本的注意力权重,判断词语对句子表示的权重,句子对文档表示的权重,得到文本表示向量;
情感类别输出模块,利用分类函数对分层注意模块输出的文本表示向量进行处理,得到最终的情感分类结果。


2.根据权利要求1所述的一种基于注意力机制融合的跨领域情感分类系统,其特征在于,文本预处理模块利用Word2vec提取源领域与目标领域文本对应的向量形式。


3.根据权利要求1所述的一种基...

【专利技术属性】
技术研发人员:廖祥文陈癸旭陈志豪邓立明陈开志
申请(专利权)人:福州大学
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1