The invention provides a cross-domain emotional classification method and a related device. The methods include: obtaining target comment text data and extracting Aspect information from target comment text data; obtaining comment word sequence and Aspect word sequence based on target comment text data and Aspect information; inputting comment word sequence and Aspect word sequence into a pre-trained model; the model corresponds to comment text data and comment text data according to the comment text data. Aspect information is modeled using an interactive attention network and trained by tagged and unlabeled comment text data. The model has the ability of domain classification and emotional classification. The output of the model is used to represent the emotional category of the target comment text data. The invention can improve the accuracy of cross-domain emotional classification.
【技术实现步骤摘要】
一种跨领域情感分类方法和相关装置
本专利技术涉及机器学习和文本数据挖掘
,尤其涉及一种跨领域情感分类方法和相关装置。
技术介绍
情感分析或意见挖掘是针对人们对诸如产品、服务、组织等实体所表达的观点、情绪、态度的挖掘与评估。该领域的发展和快速起步得益于网络上的社交媒体,例如产品评论、短文本描述等。近年来,情感分析已经成长为自然语言处理中最活跃的研究领域之一,在数据挖掘、Web挖掘、文本挖掘和信息检索方面有着广泛的研究。以产品为例,对应该产品的评论信息会出现在网络上的公共论坛中,但是互联网中多数的评论是没有标签的,这就使得传统有监督的机器学习方法无法很好地被运用。为了解决这种大数据与少标签之间的矛盾,跨领域的情感分类被提出并被广泛研究。跨领域的情感分类主要是针对某个领域(目标域)内缺少有标签的数据的情况,由此引入一个有足够标签信息的领域(源域)来训练模型,通过领域之间的知识学习与迁移,从而能够有效地将无标签的目标域中的数据进行情感的正负分类。目前,关于跨领域情感分类的方法主要包括以下两种方法:1)基于传统机器学习方法的共享特征手动提取分析。基于传统机器学习的工作旨在挖掘出领域之间的关系,并将这种关系形式化为共享特征。在文本领域,为了使其更具有解释性,研究者通常将这种共享特征称之为领域间共有的情感词汇。经过先前工作的分析与研究,验证了不同领域之间共享的一些知识确实能够帮助提高跨领域情感迁移的效果。2)基于神经网络的共享特征自动识别及提取分析。基于神经网络的跨领域情感分类结合了传统方法中常用的特征提取方式,同时发挥深度学习的性能,利用不同神经网络结构(如记忆 ...
【技术保护点】
1.一种跨领域情感分类方法,其特征在于,包括:获取目标评论文本数据,并提取所述目标评论文本数据中的方面Aspect信息;其中所述目标评论文本数据无标签;依据所述目标评论文本数据和所述Aspect信息,获得所述目标评论文本数据对应的评论单词序列和Aspect单词序列;将所述评论单词序列和所述Aspect单词序列输入至预先训练好的模型中;所述模型是根据评论文本数据和与所述评论文本数据对应的Aspect信息,使用交互式注意力网络进行建模,并通过对有标签的评论文本数据和无标签的评论文本数据进行训练得到的,所述模型具备域分类的能力和情感分类的能力;获取所述模型输出的用于表示所述目标评论文本数据的情感类别的结果。
【技术特征摘要】
1.一种跨领域情感分类方法,其特征在于,包括:获取目标评论文本数据,并提取所述目标评论文本数据中的方面Aspect信息;其中所述目标评论文本数据无标签;依据所述目标评论文本数据和所述Aspect信息,获得所述目标评论文本数据对应的评论单词序列和Aspect单词序列;将所述评论单词序列和所述Aspect单词序列输入至预先训练好的模型中;所述模型是根据评论文本数据和与所述评论文本数据对应的Aspect信息,使用交互式注意力网络进行建模,并通过对有标签的评论文本数据和无标签的评论文本数据进行训练得到的,所述模型具备域分类的能力和情感分类的能力;获取所述模型输出的用于表示所述目标评论文本数据的情感类别的结果。2.根据权利要求1所述的方法,其特征在于,所述模型采用如下方法训练得到:分别从源域和目标域中获取多个评论文本数据,将所获取的多个评论文本数据作为待训练的多个样本评论文本数据,并分别提取各个评论文本数据中的Aspect信息;其中Aspect信息与评论文本数据一一对应,所述源域中的部分评论文本数据有标签,部分评论文本数据无标签,所述目标域中的评论文本数据无标签;创建从源域到目标域的训练任务,所述训练任务包含目标样本评论文本数据,所述目标样本评论文本数据包括所述源域中有标签的样本评论文本数据、所述源域中无标签的样本评论文本数据和所述目标域中无标签的样本评论文本数据;采用词嵌入方法,获得所述目标样本评论文本数据对应的评论文本的语义向量表征和Aspect单词序列的向量表征;将所述评论文本的语义向量表征通过Bi-LSTM模型的学习,得到评论文本的隐状态表示,将所述Aspect单词序列的向量表征通过所述Bi-LSTM模型的学习,得到Aspect单词序列的隐状态表示;分别对所述评论文本的隐状态表示和所述Aspect单词序列的隐状态表示进行池化处理,得到评论文本隐状态池化后的向量表示和Aspect单词序列隐状态池化后的向量表示;依据所述评论文本的隐状态表示和所述Aspect单词序列隐状态池化后的向量表示,得到所述目标样本评论文本数据的最终表示;依据所述Aspect单词序列的隐状态表示和所述评论文本隐状态池化后的向量表示,得到所述Aspect信息的最终表示;利用公式对所述目标样本评论文本数据的最终表示进行领域分类的训练,其中G(x)=x,利用公式对所述Aspect信息的最终表示进行情感分类的训练。3.根据权利要求2所述的方法,其特征在于,所述将所述评论文本的语义向量表征通过Bi-LSTM模型的学习,得到评论文本的隐状态表示,将所述Aspect单词序列的向量表征通过所述Bi-LSTM模型的学习,得到Aspect单词序列的隐状态表示包括:将所述评论文本的语义向量表征作为所述Bi-LSTM模型的输入,对向量单元序列c={c1,c2,c3...cn}以及隐状态h={h1,h2,h3...hn}进行迭代更新;其中t为1到n中的任意一个数,n为正整数,所述迭代更新的方式包括:ht=ot·tanh(ct)其中it、ft、ot分别为第t次迭代过程中的输入门、遗忘门和输出门,为所述评论文本的语义向量表征,ct是记忆单元,ht是最终的状态输出,即隐状态表示,tanh()为激活函数,W*、b*分别为权重矩阵的偏置项。4.根据权利要求2所述的方法,其特征在于,所述评论文本的隐状态表示为所述Aspect单词序列的隐状态表示为所述评论文本隐状态池化后的向量表示为所述Aspect单词序列隐状态池化后的向量表示为n、m均为正整数;依据所述评论文本的隐状态表示和所述Aspect单词序列隐状态池化后的向量表示,得到所述目标样本评论文本数据的最终表示包括:将所述评论文本的隐状态表示与所述Aspect单词序列隐状态池化后的向量表示进行拼接,得到一个新的表征向量采用公式计算每个Aspect单词的隐向量的权重得分;其中将得到的各个Aspect单词的隐向量的权重得分相乘后累加,得到所述目标样本评论文本数据的最终表示Sr,其中5.根据权利要求4所述的方法,其特征在于,依据所述Aspect...
【专利技术属性】
技术研发人员:陈恩红,刘淇,张凯,赵洪科,章和夫,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。