一种跨领域情感分类方法和相关装置制造方法及图纸

技术编号:20622812 阅读:41 留言:0更新日期:2019-03-20 14:32
本发明专利技术提供一种跨领域情感分类方法和相关装置。方法包括:获取目标评论文本数据,并提取目标评论文本数据中的Aspect信息;依据目标评论文本数据和Aspect信息,获得评论单词序列和Aspect单词序列;将评论单词序列和Aspect单词序列输入至预先训练好的模型中;所述模型是根据评论文本数据和与评论文本数据对应的Aspect信息,使用交互式注意力网络进行建模,并通过对有标签的评论文本数据和无标签的评论文本数据进行训练得到的,所述模型具备域分类的能力和情感分类的能力;获取模型输出的用于表示所述目标评论文本数据的情感类别的结果。本发明专利技术能够提高跨领域情感分类的准确性。

A Cross-domain Affective Classification Method and Related Devices

The invention provides a cross-domain emotional classification method and a related device. The methods include: obtaining target comment text data and extracting Aspect information from target comment text data; obtaining comment word sequence and Aspect word sequence based on target comment text data and Aspect information; inputting comment word sequence and Aspect word sequence into a pre-trained model; the model corresponds to comment text data and comment text data according to the comment text data. Aspect information is modeled using an interactive attention network and trained by tagged and unlabeled comment text data. The model has the ability of domain classification and emotional classification. The output of the model is used to represent the emotional category of the target comment text data. The invention can improve the accuracy of cross-domain emotional classification.

【技术实现步骤摘要】
一种跨领域情感分类方法和相关装置
本专利技术涉及机器学习和文本数据挖掘
,尤其涉及一种跨领域情感分类方法和相关装置。
技术介绍
情感分析或意见挖掘是针对人们对诸如产品、服务、组织等实体所表达的观点、情绪、态度的挖掘与评估。该领域的发展和快速起步得益于网络上的社交媒体,例如产品评论、短文本描述等。近年来,情感分析已经成长为自然语言处理中最活跃的研究领域之一,在数据挖掘、Web挖掘、文本挖掘和信息检索方面有着广泛的研究。以产品为例,对应该产品的评论信息会出现在网络上的公共论坛中,但是互联网中多数的评论是没有标签的,这就使得传统有监督的机器学习方法无法很好地被运用。为了解决这种大数据与少标签之间的矛盾,跨领域的情感分类被提出并被广泛研究。跨领域的情感分类主要是针对某个领域(目标域)内缺少有标签的数据的情况,由此引入一个有足够标签信息的领域(源域)来训练模型,通过领域之间的知识学习与迁移,从而能够有效地将无标签的目标域中的数据进行情感的正负分类。目前,关于跨领域情感分类的方法主要包括以下两种方法:1)基于传统机器学习方法的共享特征手动提取分析。基于传统机器学习的工作旨在挖掘出领域之间的关系,并将这种关系形式化为共享特征。在文本领域,为了使其更具有解释性,研究者通常将这种共享特征称之为领域间共有的情感词汇。经过先前工作的分析与研究,验证了不同领域之间共享的一些知识确实能够帮助提高跨领域情感迁移的效果。2)基于神经网络的共享特征自动识别及提取分析。基于神经网络的跨领域情感分类结合了传统方法中常用的特征提取方式,同时发挥深度学习的性能,利用不同神经网络结构(如记忆网络、对抗网络)自动提取出领域之间的共享特征。这种方法不仅能够更加充分地提取出不同领域之间的共享特征,还能够增强领域间情感迁移的解释性。然而,本专利技术的申请人发现,虽然上述两种方法都能够有效提取出不同领域之间的共享特征,完成跨领域的情感迁移,但是上述两种方法都没有充分考虑到文本具有的一些其他方面特征,该其他方面的特征对于情感分类的结果有较大影响,从而可能导致情感分类结果不准确的问题。例如:对某件产品的评论中可能包含对该产品的多个方面的描述,而产品的不同方面对产品的影响必然是不同的,若将这些不同方面的特征赋予相同的权重,则会大大降低对该产品评论所包含情感倾向的判断准确度。同理,对于不同领域来说,必然存在一些相似的方面信息(例如:不同类别的商品评论中会存在对于其“外观”的评价),而这些方面信息因领域不同也必然有着不同的影响。
技术实现思路
有鉴于此,本专利技术提供一种跨领域情感分类方法和相关装置,以提高跨领域情感分类方法的准确性。技术方案如下:基于本专利技术的一方面,本专利技术提供一种跨领域情感分类方法,包括:获取目标评论文本数据,并提取所述目标评论文本数据中的方面Aspect信息;其中所述目标评论文本数据无标签;依据所述目标评论文本数据和所述Aspect信息,获得所述目标评论文本数据对应的评论单词序列和Aspect单词序列;将所述评论单词序列和所述Aspect单词序列输入至预先训练好的模型中;所述模型是根据评论文本数据和与所述评论文本数据对应的Aspect信息,使用交互式注意力网络进行建模,并通过对有标签的评论文本数据和无标签的评论文本数据进行训练得到的,所述模型具备域分类的能力和情感分类的能力;获取所述模型输出的用于表示所述目标评论文本数据的情感类别的结果。可选地,所述模型采用如下方法训练得到:分别从源域和目标域中获取多个评论文本数据,将所获取的多个评论文本数据作为待训练的多个样本评论文本数据,并分别提取各个评论文本数据中的Aspect信息;其中Aspect信息与评论文本数据一一对应,所述源域中的部分评论文本数据有标签,部分评论文本数据无标签,所述目标域中的评论文本数据无标签;创建从源域到目标域的训练任务,所述训练任务包含目标样本评论文本数据,所述目标样本评论文本数据包括所述源域中有标签的样本评论文本数据、所述源域中无标签的样本评论文本数据和所述目标域中无标签的样本评论文本数据;采用词嵌入方法,获得所述目标样本评论文本数据对应的评论文本的语义向量表征和Aspect单词序列的向量表征;将所述评论文本的语义向量表征通过Bi-LSTM模型的学习,得到评论文本的隐状态表示,将所述Aspect单词序列的向量表征通过所述Bi-LSTM模型的学习,得到Aspect单词序列的隐状态表示;分别对所述评论文本的隐状态表示和所述Aspect单词序列的隐状态表示进行池化处理,得到评论文本隐状态池化后的向量表示和Aspect单词序列隐状态池化后的向量表示;依据所述评论文本的隐状态表示和所述Aspect单词序列隐状态池化后的向量表示,得到所述目标样本评论文本数据的最终表示;依据所述Aspect单词序列的隐状态表示和所述评论文本隐状态池化后的向量表示,得到所述Aspect信息的最终表示;利用公式对所述目标样本评论文本数据的最终表示进行领域分类的训练,其中G(x)=x,利用公式对所述Aspect信息的最终表示进行情感分类的训练。可选地,所述将所述评论文本的语义向量表征通过Bi-LSTM模型的学习,得到评论文本的隐状态表示,将所述Aspect单词序列的向量表征通过所述Bi-LSTM模型的学习,得到Aspect单词序列的隐状态表示包括:将所述评论文本的语义向量表征作为所述Bi-LSTM模型的输入,对向量单元序列c={c1,c2,c3...cn}以及隐状态h={h1,h2,h3...hn}进行迭代更新;其中t为1到n中的任意一个数,n为正整数,所述迭代更新的方式包括:ht=ot·tanh(ct)其中it、ft、ot分别为第t次迭代过程中的输入门、遗忘门和输出门,为所述评论文本的语义向量表征,ct是记忆单元,ht是最终的状态输出,即隐状态表示,tanh()为激活函数,W*、b*分别为权重矩阵的偏置项。可选地,所述评论文本的隐状态表示为所述Aspect单词序列的隐状态表示为所述评论文本隐状态池化后的向量表示为所述Aspect单词序列隐状态池化后的向量表示为n、m均为正整数;依据所述评论文本的隐状态表示和所述Aspect单词序列隐状态池化后的向量表示,得到所述目标样本评论文本数据的最终表示包括:将所述评论文本的隐状态表示与所述Aspect单词序列隐状态池化后的向量表示进行拼接,得到一个新的表征向量采用公式计算每个Aspect单词的隐向量的权重得分;其中将得到的各个Aspect单词的隐向量的权重得分相乘后累加,得到所述目标样本评论文本数据的最终表示Sr,其中可选地,依据所述Aspect单词序列的隐状态表示和所述评论文本隐状态池化后的向量表示,得到所述Aspect信息的最终表示包括:采用公式计算得到各个Aspect的注意力权重得分;其中将得到的各个Aspect的注意力权重得分相乘后累加,得到所述Aspect信息的最终表示Ar,其中可选地,所述模型的训练方法还包括:利用如下公式分别对y's和y'd进行训练;其中ys和yd分别为域和情感的真实标签,为源域中有标签评论文本数据,Nd为源域和目标域中所有的评论文本数据;判断L的值是否满足预设条件,其中L=Lsen+Ldom+ρLreg,ρ是正则化参数,Lreg是正本文档来自技高网
...

【技术保护点】
1.一种跨领域情感分类方法,其特征在于,包括:获取目标评论文本数据,并提取所述目标评论文本数据中的方面Aspect信息;其中所述目标评论文本数据无标签;依据所述目标评论文本数据和所述Aspect信息,获得所述目标评论文本数据对应的评论单词序列和Aspect单词序列;将所述评论单词序列和所述Aspect单词序列输入至预先训练好的模型中;所述模型是根据评论文本数据和与所述评论文本数据对应的Aspect信息,使用交互式注意力网络进行建模,并通过对有标签的评论文本数据和无标签的评论文本数据进行训练得到的,所述模型具备域分类的能力和情感分类的能力;获取所述模型输出的用于表示所述目标评论文本数据的情感类别的结果。

【技术特征摘要】
1.一种跨领域情感分类方法,其特征在于,包括:获取目标评论文本数据,并提取所述目标评论文本数据中的方面Aspect信息;其中所述目标评论文本数据无标签;依据所述目标评论文本数据和所述Aspect信息,获得所述目标评论文本数据对应的评论单词序列和Aspect单词序列;将所述评论单词序列和所述Aspect单词序列输入至预先训练好的模型中;所述模型是根据评论文本数据和与所述评论文本数据对应的Aspect信息,使用交互式注意力网络进行建模,并通过对有标签的评论文本数据和无标签的评论文本数据进行训练得到的,所述模型具备域分类的能力和情感分类的能力;获取所述模型输出的用于表示所述目标评论文本数据的情感类别的结果。2.根据权利要求1所述的方法,其特征在于,所述模型采用如下方法训练得到:分别从源域和目标域中获取多个评论文本数据,将所获取的多个评论文本数据作为待训练的多个样本评论文本数据,并分别提取各个评论文本数据中的Aspect信息;其中Aspect信息与评论文本数据一一对应,所述源域中的部分评论文本数据有标签,部分评论文本数据无标签,所述目标域中的评论文本数据无标签;创建从源域到目标域的训练任务,所述训练任务包含目标样本评论文本数据,所述目标样本评论文本数据包括所述源域中有标签的样本评论文本数据、所述源域中无标签的样本评论文本数据和所述目标域中无标签的样本评论文本数据;采用词嵌入方法,获得所述目标样本评论文本数据对应的评论文本的语义向量表征和Aspect单词序列的向量表征;将所述评论文本的语义向量表征通过Bi-LSTM模型的学习,得到评论文本的隐状态表示,将所述Aspect单词序列的向量表征通过所述Bi-LSTM模型的学习,得到Aspect单词序列的隐状态表示;分别对所述评论文本的隐状态表示和所述Aspect单词序列的隐状态表示进行池化处理,得到评论文本隐状态池化后的向量表示和Aspect单词序列隐状态池化后的向量表示;依据所述评论文本的隐状态表示和所述Aspect单词序列隐状态池化后的向量表示,得到所述目标样本评论文本数据的最终表示;依据所述Aspect单词序列的隐状态表示和所述评论文本隐状态池化后的向量表示,得到所述Aspect信息的最终表示;利用公式对所述目标样本评论文本数据的最终表示进行领域分类的训练,其中G(x)=x,利用公式对所述Aspect信息的最终表示进行情感分类的训练。3.根据权利要求2所述的方法,其特征在于,所述将所述评论文本的语义向量表征通过Bi-LSTM模型的学习,得到评论文本的隐状态表示,将所述Aspect单词序列的向量表征通过所述Bi-LSTM模型的学习,得到Aspect单词序列的隐状态表示包括:将所述评论文本的语义向量表征作为所述Bi-LSTM模型的输入,对向量单元序列c={c1,c2,c3...cn}以及隐状态h={h1,h2,h3...hn}进行迭代更新;其中t为1到n中的任意一个数,n为正整数,所述迭代更新的方式包括:ht=ot·tanh(ct)其中it、ft、ot分别为第t次迭代过程中的输入门、遗忘门和输出门,为所述评论文本的语义向量表征,ct是记忆单元,ht是最终的状态输出,即隐状态表示,tanh()为激活函数,W*、b*分别为权重矩阵的偏置项。4.根据权利要求2所述的方法,其特征在于,所述评论文本的隐状态表示为所述Aspect单词序列的隐状态表示为所述评论文本隐状态池化后的向量表示为所述Aspect单词序列隐状态池化后的向量表示为n、m均为正整数;依据所述评论文本的隐状态表示和所述Aspect单词序列隐状态池化后的向量表示,得到所述目标样本评论文本数据的最终表示包括:将所述评论文本的隐状态表示与所述Aspect单词序列隐状态池化后的向量表示进行拼接,得到一个新的表征向量采用公式计算每个Aspect单词的隐向量的权重得分;其中将得到的各个Aspect单词的隐向量的权重得分相乘后累加,得到所述目标样本评论文本数据的最终表示Sr,其中5.根据权利要求4所述的方法,其特征在于,依据所述Aspect...

【专利技术属性】
技术研发人员:陈恩红刘淇张凯赵洪科章和夫
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1