一种面向推荐服务的情感分析方法技术

技术编号:21850908 阅读:25 留言:0更新日期:2019-08-14 00:24
本发明专利技术涉及一种面向推荐服务的情感分析方法,该方法具体包括:步骤1)推荐服务系统收集包括文本声调或语音音调在内的用户情感语料,并对所述用户情感语料进行处理,获得文本分类第一语料和第二语料;步骤2)采用卡方统计的方法,从第二语料中选出一部分词来构建同义词替换词库,并通过该同义词替换词库来扩展文本分类第一语料;步骤3)采用转换工具,将步骤2)中扩展后的文本分类第一语料转换成带声调的拼音语料,并构建字母表对该拼音语料使用独热编码进行ONE‑HOT量化,输入基于卷积神经网络搭建好的分类器中进行分类,通过结合推荐算法和情感分类结果建模,为用户提供推荐服务。

An Emotional Analysis Method for Recommendation Service

【技术实现步骤摘要】
一种面向推荐服务的情感分析方法
本专利技术属于推荐服务和情感分析
,具体涉及一种面向推荐服务的情感分析方法。
技术介绍
目前,推荐系统如今已经成为了人们生活中必不可少的工具,帮助人们更方便的获取到自己想要的结果。当前,大多数的大型购物网站的推荐系统是基于评分的推荐系统,商家出于商业方面的考虑,往往会通过雇佣人的方式对大型购物网站进行刷分。因此,评分分数的高低并不能很好的帮助用户进行推荐。现实中,由于每个人评分标准不同,有的人倾向给高分,有的人倾向给低分;而评论往往是出自个人的心中所想,一般含有比较有价值的反馈,因而评论更能反映一个用户的个性化需求。推荐系统采用了两种推荐技术:协同过滤(CollaborativeFilteringRecommendation,简写CFR)和内容过滤(ContentBasedRecommendation,简写为CBR)。其中,协同过滤已经被广泛应用于商业化的推荐系统中,协同过滤进一步包括:基于用户的协同推荐和基于项目的协同推荐;根据用户的评分,计算用户或者项目之间的相似度,进而推荐相似邻居或者相似项目。情感在人类智慧中发挥了重要作用;理性的决策、社交、创新和人类的生活都离不开情感。对于情感的分析,实际上就是对信息进行挖掘和分析,通过大众对媒体的评论了解人们对其内容的看法,得到他们的情感倾向。对文本的情感分析事实上也就是对文本中的主观信息进行倾向性分析和强度分析,这些主观信息都反映了大众的喜好以及个人的诉求。针对情感分析的研究已经成为国内外相关领域的研究热点。在中文文本情感分析的研究上,2012年,王振宇等人提出了基于HowNet和PMI的词语情感极性计算,采用了基于同义词的SOPMI算法和HOWNET情感词典来计算语义相似度的算法。2014年,谢松县等人提出了应用语义关系自动构建情感词典,借鉴英文的情感词典资源SentWordNet,提出了根据语义模型自动构建情感词典算法,该方法通过词和义之间的关系进行情感值计算。在过去的研究中,基于词典的情感分析往往以构建情感词典为基础;而中文的情感词典资源很少且不够完善,加上中文语言的“一义多词”和“网络化”的影响,一部中文的情感词典往往很难去解决情感分析中的问题。深度学习是机器学习中一种基于对数据进行表征学习的方法,用于建立、模拟人脑进行分析学习的神经网络,模仿人脑的机制来解释数据,例如图像,声音和文本。近年来,深度学习在图像处理和自然语言处理(NaturalLanguageProcessing,简写NLP)任务上都取得了不俗的成绩。通过神经网络可以完成多个词向量之间的语义合成计算,更能挖掘文本词之间的特性,从而更好地实现文本的情感分类。特别是在短文本分析任务中,由于句子句长的长度有限、结构紧凑、能够独立表达意思,使得卷积神经网络(Convolutionalneuralnetworks,简写CNN)在处理这一类问题上成为可能。2014年,Kim等人将wordembedding与卷积网络结合,并应用在情感分析和文本分类等若干自然语言处理任务中,获得了非常好的效果。2015年,张翔等人提出了从字符层面使用CNN进行文本分类,不需要使用预先训练好的词向量和语法句法结构等信息,并且容易推广到所有语言。中文是一种复杂的,带声调的语言。首先,从语音上来说,四声比西方语言中的重音更复杂。其次,汉字的信息量要比其他语言的信息量更大。目前,深度学习模型针对中文文本情感分类的效果一般。然而,包括协同过滤在内的现有推荐系统没有充分考虑包括文本声调或语音音调在内的用户个人情感倾向。
技术实现思路
本专利技术的目的在于,为解决现有的情感分析方法存在上述缺陷,本专利技术提供出了一种面向推荐服务的情感分析方法,解决了包括协同过滤在内的现有推荐系统由于未充分考虑包括文本声调或语音音调在内的用户个人情感倾向而导致个性化推荐的命中率低下的问题;该方法具体包括:步骤1)推荐服务系统收集包括文本声调或语音音调在内的用户情感语料,并对所述用户情感语料进行处理,获得文本分类第一语料和第二语料;步骤2)采用卡方统计的方法,从第二语料中选出一部分词来构建同义词替换词库,并通过该同义词替换词库来扩展文本分类第一语料;步骤3)采用转换工具,将步骤2)中扩展后的文本分类第一语料转换成带声调的拼音语料,并构建字母表对该拼音语料使用独热编码进行ONE-HOT量化,输入基于卷积神经网络搭建好的分类器中进行分类,通过结合推荐算法和情感分类结果建模,为用户提供推荐服务。其中,ONE-HOT量化是一种现有技术,其过程是:使用N位状态寄存器来对N个状态进行量化,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。在上述技术方案中,所述步骤1)具体包括:采用分词工具对所述用户情感语料进行两次处理:第一,直接对所述用户情感语料进行切分,保留所有词汇,去除标点符号,将包含汉语的语料作为文本分类第一语料;第二,将文本分类第一语料进行分词后,过滤所有标点符号和无意义的特殊词,只保留含有语义信息的词,作为第二语料;其中,所述无意义的特殊词包括:时间词、量词、介词、助词、叹词、语气词和拟声词等。在上述技术方案中,所述步骤1)具体包括:采用结巴分词(jieba-0.39),对语料采取了两次处理;第一,使用结巴分词的精确模式,保留所有词汇,去除标点符号,作为文本分类第一语料;第二,采用结巴分词和自然语言处理与信息检索汉语分词系统(NaturalLanguageProcessingInformationRetrieval,简写NLPIR)兼容的标记法,将文本分类第一语料进行分词后,标注句子中每个词的词性,过滤所有标点符号,和无意义的特殊词只保留含有语义信息的词,作为第二语料。在上述技术方案中,所述步骤2)具体包括:利用卡方统计的方法,从第二语料中选取Top-N个关键词构建同义词词库;其中,N的大小由第二语料的词语数目来决定;其中,所述卡方统计方法是用来衡量两个变量间的相关性,具体为:在文本分类的问题特征选择阶段,主要判断一个特征词和一个类别之间是否相互独立;如果一个特征词和一个分类的类别之间相互独立,则该特征词对于该分类的类别没有表征作用,无法通过该特征词对文本进行分类;如果一个特征词和一个分类的类别之间不相互独立,则该特征词对于该类别有表征作用,进而通过该特征词对文本进行分类。通过开方检验方法判断某个特征词与某个分类的类别是否相关,具体为:通过计算,开方值越大,则对原假设的偏离就越大;其中,将特征词与某个分类的类别不相关作为原假设;计算实际情况与原假设的开方误差,误差越大,则该特征词和该分类的类别的相关度越高,则某个特征词t和某个分类的类别c的开方值的计算公式(1)如下:其中,A是属于该分类的类别且包含该特征词的文档数,B是不属于该分类的类别但包含该特征词的文档数,C是属于该分类的类别但不包含该特征词的文档数,D是不属于该分类的类别也不包含该特征词的文档数。在上述技术方案中,所述步骤2)采用同义词增强方法,扩展文本分类第一语料,具体包括:构建一个哈希映射的集合M,将同义词词库中的Top-N个关键词作为Value,从哈工大同义词词林中找出该关键词对应的同义词作为key。如果文本分类第一语料中的文本包含了集合M本文档来自技高网
...

【技术保护点】
1.一种面向推荐服务的情感分析方法,其特征在于,该方法具体包括:步骤1)推荐服务系统收集包括文本声调或语音音调在内的用户情感语料,并对所述用户情感语料进行处理,获得文本分类第一语料和第二语料;步骤2)采用卡方统计的方法,从第二语料中选出一部分词来构建同义词替换词库,并通过该同义词替换词库来扩展文本分类第一语料;步骤3)采用转换工具,将步骤2)中扩展后的文本分类第一语料转换成带声调的拼音语料,并构建字母表对该拼音语料使用独热编码进行ONE‑HOT量化,输入基于卷积神经网络搭建好的分类器中进行分类,通过结合推荐算法和情感分类结果建模,为用户提供推荐服务。

【技术特征摘要】
1.一种面向推荐服务的情感分析方法,其特征在于,该方法具体包括:步骤1)推荐服务系统收集包括文本声调或语音音调在内的用户情感语料,并对所述用户情感语料进行处理,获得文本分类第一语料和第二语料;步骤2)采用卡方统计的方法,从第二语料中选出一部分词来构建同义词替换词库,并通过该同义词替换词库来扩展文本分类第一语料;步骤3)采用转换工具,将步骤2)中扩展后的文本分类第一语料转换成带声调的拼音语料,并构建字母表对该拼音语料使用独热编码进行ONE-HOT量化,输入基于卷积神经网络搭建好的分类器中进行分类,通过结合推荐算法和情感分类结果建模,为用户提供推荐服务。2.根据权利要求1所述的情感分析方法,其特征在于,所述步骤1)具体包括:采用分词工具对所述用户情感语料进行两次处理:第一,直接对所述用户情感语料进行切分,保留所有词汇,去除标点符号,将包含汉语的语料作为文本分类第一语料;第二,将文本分类第一语料进行分词后,过滤所有标点符号和无意义的特殊词,只保留含有语义信息的词,作为第二语料;其中,所述无意义的特殊词包括:时间词、量词、介词、助词、叹词、语气词和拟声词。3.根据权利要求2所述的情感分析方法,其特征在于,所述步骤1)具体包括:采用结巴分词,对语料采取了两次处理;第一,使用结巴分词的精确模式,保留所有词汇,去除标点符号,将包含汉语的语料作为文本分类第一语料;第二,采用结巴分词和自然语言处理与信息检索汉语分词系统兼容的标记法,将文本分类第一语料进行分词后,标注句子中每个词的词性,过滤所有标点符号,和无意义的特殊词只保留含有语义信息的词,作为第二语料。4.根据权利要求1所述的情感分析方法,其特征在于,所述步骤2)具体包括:利用卡方统计的方法,从第二语料中选取Top-N个关键词构建同义词词库;其中,N的大小由第二语料的词语数目来决定;其中,所述卡方统计方法是用来衡量两个变量间的相关性,具体为:在文本分类的问题特征选择阶段,主要判断一个特征词和一个类别之间是否相互独立;如果一个特征词和一...

【专利技术属性】
技术研发人员:盛益强王星凯赵震宇
申请(专利权)人:中国科学院声学研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1