当前位置: 首页 > 专利查询>清华大学专利>正文

结合用户和产品信息的神经网络情感分析方法技术

技术编号:14595798 阅读:56 留言:0更新日期:2017-02-09 00:24
本发明专利技术提供一种结合用户和产品信息的神经网络情感分析方法,包括:获取待分析的文本段信息、用户信息和待评目标信息;根据文本段信息和长短期记忆神经网络模型构建句子、文本段的语义向量;根据句子和文本段的语义向量,以及用户信息和待评目标信息获得句子和文本段的增强向量;根据文本段的增强向量获得文本段的情感分类。本发明专利技术提供的结合用户和产品信息的神经网络情感分析方法,通过结合用户和产品的信息,提出了一个有效的神经网络情感分类模型。在文本的词语层级和句子层级分别结合了用户和产品的特征信息引入注意力机制,使得情感分类性能大大提升。

Neural network emotion analysis method based on user and product information

The present invention provides a combination of user and product information emotional neural network analysis method, including: obtaining of the text information, user information and the target information; according to the semantic vector text constructing sentences, text segment information and long term memory neural network model; according to the semantic vector of sentences and text segments. And the user information and the target information obtained to evaluate enhanced vector sentences and text segments; based on the enhanced vector emotion classification text text. The present invention provides a neural network emotion analysis method which combines user and product information. At the word level and sentence level, we combine the characteristics of user and product information into the attention mechanism, which greatly improves the performance of emotional classification.

【技术实现步骤摘要】

本专利技术涉及自然语言处理以及情感分析领域,尤其涉及一种基于注意力机制结合用户和产品信息的神经网络情感分析模型。
技术介绍
情感分析任务旨在通过人们的语言文字分析人们所表达的情感或者挖掘“用户”的意见,是数据挖掘领域和自然语言处理领域的一项重要任务。近年来,由于互联网评论网站的快速成长,评论文本数据海量出现,情感分析任务吸引了越来越多研究者的注意。本专利技术解决的重点问题是情感分析任务中的情感分类任务。情感分类任务从文本的结构角度划分,可以分为三个级别:词语级别、句子级别、文本段级别。词语级别的情感分类主要是对给定词语的情感极性划分,例如“积极”、“消极”或者不同等级情感强度;句子级别情感分类是对给定的一句话预测其情感倾向;文本段级别情感分类是对用户所表达的完整文本段进行情感倾向预测。文本段级别情感分类是情感分类任务中至关重要的一个环节,因为“用户”表达的“评论”经常是以文本段的形式出现,所以文本段级别的情感分类具有更广阔的应用价值;同时大量词语级别和句子级别情感分类研究的最终目的也是为了预测文本段级别的情感倾向。文本段级别的情感分类任务假设一段“评论”是一个特定“用户”表达的对一个特定“产品”的情感,同时,这里所提及的“评论”、“用户”、“产品”都是一个形象化的称呼,“评论”可以指任意类型文本段,“用户”指文本段的生成者,“产品”指文本段描述的目标。现阶段大多数工作都把情感分类任务看作文本分类任务的一个特殊任务。这些工作把不同的情感极性或者情感强度视为不同的分类,随后采用机器学习算法提取相应特征如“词袋”向量,训练分类器对文本段进行情感分类。由于分类器的性能强烈依赖于所提取特征的质量,所以这类研究的重心基本都放在如何从文本或者外部的情感词典提取更行之有效的特征。近些年来深度神经网络模型在计算机视觉、语音识别和自然语言处理领域得到了成功的应用,一些研究者受此启发,将神经网络应用到了情感分析领域,提出了基于神经网络的情感分析模型,这种模型能够自主学习文本的低维特征向量,不需要额外的特征提取环节。目前的大多数此类神经网络情感分析模型把一句话或者一段文本作为事先构建好的神经网络的输入,随之即生成这句话或者这段文本的语义特征向量。但是这样的神经网络情感分类模型只利用了文本信息,忽略了重要的用户和产品特征信息,而用户和产品的特征属性往往对预测文本的情感强度具有重大的意义。为了在情感分类任务中吸收用户和产品的信息,现有工作在神经网络中把每个用户和产品表示成一个文本修饰矩阵和表示向量,在词向量输入层利用用户和产品的文本修饰矩阵修正每个词语的向量表示,在文本表示输出层将文本表示向量与用户、产品表示向量级联生成新的文本表示向量,作为文本特征向量进行分类。这种策略一定程度上提升了预测文本段情感分类任务的性能,但是依然存在着一些问题:(1)每个用户和产品的文本修饰矩阵在有限的数据下很难被训练完全。尽管网络上拥有着海量评论数据,但对于单一的用户而言,用户的评论数据往往只有几十条左右,这种小量级的数据很容易导致文本修饰矩阵训练得不充分。(2)这种方法只在词语层的情感倾向判断上利用了用户和产品信息的特征属性,而用户和产品的特征属性往往不仅反映在词语层面,也反映在句子层面。例如,在Yelp数据上的一条两星商铺评论(Yelp评论打分为五星制,星级越高表示越满意),“一个很好的吃牛排的地方,我是这里夏威夷披萨的忠实粉丝…但是我不想为两个人的晚餐花费100美元”,我们可以发现,这条评论收获两星差评的主要原因来源于后一句“但是我不想为两个人的晚餐花费100美元”的情感倾向,而与前一句的情感倾向相关性不大。综上所述,神经网络模型在情感分析领域,尤其是情感分类任务上取得了良好的效果,但是如何在神经网络情感分类模型中更行之有效地吸收用户和产品特征信息,以得到更准确的情感分类结果依然是一个十分重要的待解决问题。
技术实现思路
本专利技术提供一种结合用户和产品信息的神经网络情感分析方法,用于解决现有技术中不能很好的在神经网络情感分类模型中更行之有效地吸收用户和产品特征信息,以得到更准确的情感分类结果的问题。本专利技术提供一种结合用户和产品信息的神经网络情感分析方法,包括:获取待分析的文本段信息、用户信息和待评目标信息;根据所述文本段信息和长短期记忆神经网络模型在词语层面、句子层面上构建句子、文本段的语义向量;根据所述句子和文本段的语义向量,以及用户信息和待评目标信息获得句子和文本段的增强向量;根据文本段的增强向量获得文本段的情感分类。优选地,所述根据所述文本段信息和长短期记忆神经网络模型在词语层面、句子层面上构建句子、文本段的语义向量,包括:采用文本深度表示模型在相应领域文本语料库中训练语言模型获得词向量;根据所述词向量和语义分析算式获得句子的语义向量,所述语义分析算法为:每一步给定当前输入词向量使用上一步的隐状态和记忆单元状态来得到这一步的隐状态和记忆单元状态ijifjioji=σσσ(W·[hj-1i,wji]+b),]]>其中,i,f,o表示长短期记忆神经网络的输入、遗忘和输出门,⊙表示逐位相乘,σ表示sigmoid函数,W和b表示待训练的参数;为词向量,将得到的隐状态通过一个平均池化层得到当前句子的语义向量;根据所述句子的语义向量和语义分析算式获得文本段的语义向量,所述语义分析算法为:每一步给定当前输入句子的语义向量使用上一步的隐状态和记忆单元状态来得到这一步的隐状态和记忆单元状态ijifjioji=σσσ(W·[hj-1i,sji]+b),]]>c^ji=tanh(W·[hj-1i,sji]+b)]]>其中,i,f,o表示长短期记忆神经网络的输入、遗忘和输出门,⊙表示逐位相乘,σ表示sigmoid函数,W和b表示待训练的参数;为句子的语义向量,将得到的隐状态通过一个平均池化层得到文本段的语义向量。优选地,所述根据所述句子和文本段的语义向量,以及用户信息和待评目标信息获得句子和文本段的增强向量,包括:根据用户信息和待评目标信息分别映射获得用户特征向量和目标特征向量;根据用户特征向量和目标特征向量和关键词语的重要性参数值获得句子的增强向量,具体为:si=Σj=1liαjihji;]]>其中,表示句子中第j个词的重要性参数值;表示词向量的隐状态;si表示句子的增强向量;根据用户特征向量和目标特征向量、关键句子的重要性参数值和句子的增强向量获得文本段的增强向量,具体为:d=Σj=1liβisi.]]>其中,βi表示句子中第j个句子的重要性参数值;si表示句子增强向量的隐状态;d表示文本段的增强向量优选地,αji=exp(e(hji,u,p))Σk=1liexp(e(hji,u,p))]]>e(hji,u,p)=vTtanh(WHhji+WUu+WPp+b)]]>其中,WH、WU和WP是词语层级神经网络的权重矩阵,v是权重向量,vT表示v的转置;用户特征向量和目标特征向量u、p;b表示待训练的参本文档来自技高网
...

【技术保护点】
一种结合用户和产品信息的神经网络情感分析方法,其特征在于,包括:获取待分析的文本段信息、用户信息和待评目标信息;根据所述文本段信息和长短期记忆神经网络模型在词语层面、句子层面上构建句子、文本段的语义向量;根据所述句子和文本段的语义向量,以及用户信息和待评目标信息获得句子和文本段的增强向量;根据文本段的增强向量获得文本段的情感分类并输出显示。

【技术特征摘要】
1.一种结合用户和产品信息的神经网络情感分析方法,其特征在于,包括:获取待分析的文本段信息、用户信息和待评目标信息;根据所述文本段信息和长短期记忆神经网络模型在词语层面、句子层面上构建句子、文本段的语义向量;根据所述句子和文本段的语义向量,以及用户信息和待评目标信息获得句子和文本段的增强向量;根据文本段的增强向量获得文本段的情感分类并输出显示。2.根据权利要求1所述的方法,其特征在于,根据所述文本段信息和长短期记忆神经网络模型在词语层面、句子层面上构建句子、文本段的语义向量,包括:采用文本深度表示模型在相应领域文本语料库中训练语言模型获得词向量;根据所述词向量和语义分析算式获得句子的语义向量,所述语义分析算法为:每一步给定当前输入词向量使用上一步的隐状态和记忆单元状态来得到这一步的隐状态和记忆单元状态ijifjioji=σσσ(W·[hj-1i,wji]+b),]]>c^ji=tanh(W·[hj-1i,wji]+b)]]>其中,i,f,o表示长短期记忆神经网络的输入、遗忘和输出门,⊙表示逐位相乘,σ表示sigmoid函数,W和b表示待训练的参数;为词向量,将得到的隐状态通过一个平均池化层得到当前句子的语义向量;根据所述句子的语义向量和语义分析算式获得文本段的语义向量,所述语义分析算法为:每一步给定当前输入句子的语义向量使用上一步的隐状态和记忆单元状态来得到这一步的隐状态和记忆单元状态ijifjioji=σσσ(W·[hj-1i,sji]+b),]]>c^ji=tanh(W·[hj-1i,sji]+b)]]>其中,i,f,o表示长短期记忆神经网络的输入、遗忘和输出门,⊙表示逐位相乘,σ表示sigmoid函数,W和b表示待训练的参数;为句子的语义向量,将得到的隐状态通过一个平均池化层得到文本段的语义向量。3.根据权利要求2所述的方法,其特征在于,所述根据所述句子和文本段的语义向量,以及用户信息和待评目标信息获得句子和文本段的增强向量,包括:根据用户信息和待评目标信息分别映射获得用户特征向量和目标特征向量;根据用户特征向量和...

【专利技术属性】
技术研发人员:孙茂松陈慧敏刘知远
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1