基于协同过滤注意力机制的文本情感识别系统技术方案

技术编号:18658008 阅读:24 留言:0更新日期:2018-08-11 14:26
本发明专利技术涉及自然语言处理领域,具体涉及一种基于协同过滤注意力机制的文本情感识别系统,目的在于提高情感识别的正确性。本发明专利技术的情感识别系统包括:文本预处理模块、文本向量化模块、用户兴趣分析模块、句子特征提取模块、文档特征提取模块和情感分类模块。文本预处理模块对待处理的文本进行预处理;文本向量化模块生成文本的词向量表示;用户兴趣分析模块根据用户对已知产品的评分数据提取出模型注意力机制;句子特征提取模块接收文本的词向量表示和注意力机制提取句子特征;文档特征提取模块接收句子特征和注意力机制提取文档特征;情感分类模块将文档特征输入分类器进行情感类型识别。因此,文本特征的描述更加准确,提高了情感识别的效果。

Text emotion recognition system based on collaborative filtering attention mechanism

The invention relates to the field of natural language processing, in particular to a text emotion recognition system based on Cooperative filtering attention mechanism, aiming at improving the correctness of emotion recognition. The emotion recognition system of the invention comprises a text preprocessing module, a text vectorization module, a user interest analysis module, a sentence feature extraction module, a document feature extraction module and an emotion classification module. The text preprocessing module preprocesses the processed text; the text vectorization module generates the word vector representation of the text; the user interest analysis module extracts the model attention mechanism from the user's rating data of the known products; the sentence feature extraction module receives the word vector representation of the text and the sentence attention mechanism extracts the sentence. Features; document feature extraction module receives sentence features and attention mechanism to extract document features; emotion classification module inputs document features into classifier for emotional type recognition. Therefore, the description of text features is more accurate and improves the effect of emotion recognition.

【技术实现步骤摘要】
基于协同过滤注意力机制的文本情感识别系统
本专利技术涉及自然语言处理领域,具体涉及一种基于协同过滤注意力机制的文本情感识别系统。
技术介绍
情感分析旨在从文本中挖掘出用户对某一热点问题或者产品性能的观点信息,在实际应用中不仅可以帮助电商企业评估产品的市场价值,也可以帮助政府部门做好舆情监控等任务。因此,文本情感分析越来越受到青睐并成为自然语言处理领域的重要课题之一。在传统的情感分析中,研究者们往往只关注评论内容的重要性。根据绝大多数推荐网站上产品评论信息中提供的评价用户信息及其喜好信息,可以发现同一用户评论数据的情感极性与来自不同用户的情感极性相比,更倾向于一致。因此,将用户及被评价的产品信息融入情感分类的任务中至关重要。目前已有的方法中,有的将用户、产品以及评论数据特征基于词袋模型输入不同的分类器中进行探究。也有使用概率模型获取用户的兴趣分布和文本内容分布。而随着深度学习在计算机视觉、语音识别、自然语言处理领域的成功应用,基于深度学习的模型越来越成为情感分析的主流方法。通过神经网络可以提取出文本中更丰富的语义信息以及包含的用户、产品信息。但是目前大多数模型都是将用户和产品信息加入文本中一起输入模型训练,这样不仅使评论内容失去原本的语义,而且导致用户个性等信息也没有被提取出来。
技术实现思路
为了解决现有技术中的上述问题,本专利技术提出了一种基于协同过滤注意力机制的文本情感识别系统,提高了情感识别的效果。本专利技术提出一种基于协同过滤注意力机制的文本情感识别系统,包括:文本预处理模块、文本向量化模块、用户兴趣分析模块、句子特征提取模块、文档特征提取模块、情感分类模块;所述文本预处理模块,用于接收待处理的文本,剔除原始文本中的标点符号以及停用词,生成预处理后的文本数据;所述文本向量化模块,用于接收所述预处理后的文本数据,并生成文本的词向量表示;所述用户兴趣分析模块,根据用户对已知产品的评分数据通过协同过滤算法提取出用户个性矩阵和产品属性矩阵,作为模型注意力机制;所述句子特征提取模块,用于接收所述文本的词向量表示,并输入到第一层长短时记忆模型中,经过变换得到词语级别的隐状态表示;根据所述词语级别的隐状态表示和所述模型注意力机制,提取句子特征;所述文档特征提取模块,用于接收所述句子特征,并输入到第二层长短时记忆模型中,生成句子级别的隐状态表示;根据所述句子级别的隐状态表示和所述模型注意力机制,提取文档特征;所述情感分类模块,用于将所述文档特征输入分类器,进行情感类型识别;其中,所述第一层长短时记忆模型、所述第二层长短时记忆模型,均为经过训练的长短时记忆模型。优选地,所述文本预处理模块,包括:词语切分单元、停用词表修订单元,以及停用词删除单元;所述词语切分单元,用于将所述待处理的文本切分成词语或者字的形式,得到分词后的文本;所述停用词表修订单元,用于根据实验数据,对公开的停用词表进行修改,生成新的停用词表;所述停用词删除单元,用于根据所述新的停用词表,将所述分词后的文本中与情感识别任务无关的词语或者符号删去,得到所述预处理后的文本数据。优选地,所述文本向量化模块,包括:词向量表生成单元和文本向量化单元;所述词向量表生成单元,用于利用公开的语料库训练Word2Vec得到词向量表;所述文本向量化单元,用于根据所述词向量表,将所述预处理后的文本数据转换为数字化结构表示,作为所述文本的词向量表示。优选地,所述用户兴趣分析模块,包括:用户兴趣分布矩阵生成单元、注意力机制生成单元;所述用户兴趣分布矩阵生成单元,用于根据用户对已评价产品的打分数据,计算产品共现矩阵和用户评分矩阵;并根据所述产品共现矩阵和所述用户评分矩阵,预测用户对未评价的产品的评分值,进而生成用户兴趣分布矩阵;所述注意力机制生成单元,用于根据所述用户兴趣分布矩阵,通过奇异值分解法得到用户个性矩阵和产品属性矩阵;其中,所述产品共现矩阵,用于描述两种不同的产品是否共同出现在同一用户已评分过的产品集合中,以及在多少个用户中共同出现过;所述用户评分矩阵,用于描述不同用户分别对已评价产品的评分值;所述用户兴趣分布矩阵,用于描述不同用户分别对已评价产品和/或未评价产品的评分值。优选地,所述句子特征提取模块,包括:词语级别的隐状态生成单元、句子特征生成单元;所述词语级别的隐状态生成单元,用于接收所述文本的词向量表示,并输入到第一层长短时记忆模型中,经过变换得到词语级别的隐状态表示;所述句子特征生成单元,用于根据所述词语级别的隐状态表示和所述模型注意力机制,计算得到句子特征。优选地,所述文档特征提取模块,包括:句子级别的隐状态生成单元、文档特征生成单元;所述句子级别的隐状态生成单元,用于接收所述句子特征,并输入到第二层长短时记忆模型中,生成句子级别的隐状态表示;所述文档特征生成单元,用于根据所述句子级别的隐状态表示和所述模型注意力机制,提取文档特征。优选地,所述用户兴趣分布矩阵生成单元中,“根据所述产品共现矩阵和所述用户评分矩阵,预测用户对未评价的产品的评分值,进而生成用户兴趣分布矩阵”,包括:根据所述产品共现矩阵,计算产品之间的相似度:计算所述用户评分矩阵中最大值与最小值的差值,将所述用户评分矩阵中的各评分值除以所述差值,从而得到归一化的所述用户评分矩阵;根据所述产品之间的相似度和归一化的所述用户评分矩阵,计算每个用户对未评价产品的评分值:根据用户在所述用户评分矩阵中的对应数据,以及计算出的所述用户对未评价产品的评分值,得到用户兴趣分布矩阵;其中,表示产品a与b之间的相似度,<a,b>表示产品a与b共同出现的次数;ab表示使用产品a的用户数与使用产品b的用户数乘积的开方值;i、j分别表示用户已评价过产品的序号和未评价过产品的序号;u表示用户的序号,ruj表示计算出的第u个用户对第j个未评价产品的评分值;P为产品总数;pu为第u个用户已评价产品的个数,P-pu为第u个用户未评价产品的个数;表示第i个已评价产品与第j个未评价产品的相似度;rui表示第u个用户对第i个已评价产品的评分值。优选地,所述注意力机制生成单元中,“根据所述用户兴趣分布矩阵,通过奇异值分解法得到用户个性矩阵和产品属性矩阵”,具体为:利用下式进行计算:A=USVT其中,A表示待分解的用户兴趣分布矩阵;S表示对角矩阵,其行数与矩阵U的列数一致,列数与矩阵VT的行数一致;U与VT是分解后得到的矩阵;U表示所述用户个性矩阵,其行表示用户数量,其列与词向量维度一致;VT表示所述产品属性矩阵V的转置矩阵,其行表示产品数量,其列与词向量维度一致。优选地,所述句子特征提取模块中,“根据所述词语级别的隐状态表示和所述模型注意力机制,提取句子特征”,包括:根据所述词语级别的隐状态表示和所述模型注意力机制,计算句子中每个词语的打分函数:根据各词语的打分函数值,计算句子中每个词语隐状态的权重值:根据所述词语级别的隐状态表示,以及计算出的所述权重值,计算句子的所述句子特征:其中,xmn表示第m个句子中第个n词语的打分函数,用来衡量词语在句子中的重要程度;Wh、Wu和Wv均为权重矩阵;b表示偏置值;U、V分别表示所述用户个性矩阵和所述产品属性矩阵;yw表示权重矩阵,表示yw的转置矩阵;l表示第m个句子的词本文档来自技高网...

【技术保护点】
1.一种基于协同过滤注意力机制的文本情感识别系统,其特征在于,包括:文本预处理模块、文本向量化模块、用户兴趣分析模块、句子特征提取模块、文档特征提取模块、情感分类模块;所述文本预处理模块,用于接收待处理的文本,剔除原始文本中的标点符号以及停用词,生成预处理后的文本数据;所述文本向量化模块,用于接收所述预处理后的文本数据,并生成文本的词向量表示;所述用户兴趣分析模块,根据用户对已知产品的评分数据通过协同过滤算法提取出用户个性矩阵和产品属性矩阵,作为模型注意力机制;所述句子特征提取模块,用于接收所述文本的词向量表示,并输入到第一层长短时记忆模型中,经过变换得到词语级别的隐状态表示;根据所述词语级别的隐状态表示和所述模型注意力机制,提取句子特征;所述文档特征提取模块,用于接收所述句子特征,并输入到第二层长短时记忆模型中,生成句子级别的隐状态表示;根据所述句子级别的隐状态表示和所述模型注意力机制,提取文档特征;所述情感分类模块,用于将所述文档特征输入分类器,进行情感类型识别;其中,所述第一层长短时记忆模型、所述第二层长短时记忆模型,均为经过训练的长短时记忆模型。

【技术特征摘要】
1.一种基于协同过滤注意力机制的文本情感识别系统,其特征在于,包括:文本预处理模块、文本向量化模块、用户兴趣分析模块、句子特征提取模块、文档特征提取模块、情感分类模块;所述文本预处理模块,用于接收待处理的文本,剔除原始文本中的标点符号以及停用词,生成预处理后的文本数据;所述文本向量化模块,用于接收所述预处理后的文本数据,并生成文本的词向量表示;所述用户兴趣分析模块,根据用户对已知产品的评分数据通过协同过滤算法提取出用户个性矩阵和产品属性矩阵,作为模型注意力机制;所述句子特征提取模块,用于接收所述文本的词向量表示,并输入到第一层长短时记忆模型中,经过变换得到词语级别的隐状态表示;根据所述词语级别的隐状态表示和所述模型注意力机制,提取句子特征;所述文档特征提取模块,用于接收所述句子特征,并输入到第二层长短时记忆模型中,生成句子级别的隐状态表示;根据所述句子级别的隐状态表示和所述模型注意力机制,提取文档特征;所述情感分类模块,用于将所述文档特征输入分类器,进行情感类型识别;其中,所述第一层长短时记忆模型、所述第二层长短时记忆模型,均为经过训练的长短时记忆模型。2.根据权利要求1所述的文本情感识别系统,其特征在于,所述文本预处理模块,包括:词语切分单元、停用词表修订单元,以及停用词删除单元;所述词语切分单元,用于将所述待处理的文本切分成词语或者字的形式,得到分词后的文本;所述停用词表修订单元,用于根据实验数据,对公开的停用词表进行修改,生成新的停用词表;所述停用词删除单元,用于根据所述新的停用词表,将所述分词后的文本中与情感识别任务无关的词语或者符号删去,得到所述预处理后的文本数据。3.根据权利要求1所述的文本情感识别系统,其特征在于,所述文本向量化模块,包括:词向量表生成单元和文本向量化单元;所述词向量表生成单元,用于利用公开的语料库训练Word2Vec得到词向量表;所述文本向量化单元,用于根据所述词向量表,将所述预处理后的文本数据转换为数字化结构表示,作为所述文本的词向量表示。4.根据权利要求1所述的文本情感识别系统,其特征在于,所述用户兴趣分析模块,包括:用户兴趣分布矩阵生成单元、注意力机制生成单元;所述用户兴趣分布矩阵生成单元,用于根据用户对已评价产品的打分数据,计算产品共现矩阵和用户评分矩阵;并根据所述产品共现矩阵和所述用户评分矩阵,预测用户对未评价的产品的评分值,进而生成用户兴趣分布矩阵;所述注意力机制生成单元,用于根据所述用户兴趣分布矩阵,通过奇异值分解法得到用户个性矩阵和产品属性矩阵;其中,所述产品共现矩阵,用于描述两种不同的产品是否共同出现在同一用户已评分过的产品集合中,以及在多少个用户中共同出现过;所述用户评分矩阵,用于描述不同用户分别对已评价产品的评分值;所述用户兴趣分布矩阵,用于描述不同用户分别对已评价产品和/或未评价产品的评分值。5.根据权利要求1所述的文本情感识别系统,其特征在于,所述句子特征提取模块,包括:词语级别的隐状态生成单元、句子特征生成单元;所述词语级别的隐状态生成单元,用于接收所述文本的词向量表示,并输入到第一层长短时记忆模型中,经过变换得到词语级别的隐状态表示;所述句子特征生成单元,用于根据所述词语级别的隐状态表示和所述模型注意力机制,计算得到句子特征。6.根据权利要求1所述的文本情感识别系统,其特征在于,所述文档特征提取模块,包括:句子级别的隐状态生成单元、文档特征生成单元;所述句子级别的隐状态生成单元,用于接收所述句子特征,并输入到第二层长短时记忆模型中,生成句子级别的隐状态表示;所述文档特征生成单元,用于根据所述句子级别的隐状态表示和所述模型注意力机制,提取文档特征。7.根据权利要求4所述的文本情感识别系统,其特征在于,所述用...

【专利技术属性】
技术研发人员:陶建华赵冬梅李雅
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1