一种基于评论的情感分析方法及系统技术方案

技术编号:24708171 阅读:72 留言:0更新日期:2020-06-30 23:59
本发明专利技术涉及自然语言处理情感分析领域,特别涉及一种基于评论的情感分析方法,该方法包括:获取数据;根据采集的数据构建情感词典,并对情感词典进行初始化;将获取的数据进行清洗,即对数据进行实时解析与预处理得到预处理后数据;将预处理的数据输入到初始化后的情感词典中,对数据的情感进行情感倾向性分类,得到情感分类结果;本发明专利技术通过利用词典与规则分类方式来提升相关指标,省却了机器学习模型训练时间优点、另外还不易产生过拟合现象、加入了pagerank算法思想与自定义分类规则集成增强了分类结果准确度。

【技术实现步骤摘要】
一种基于评论的情感分析方法及系统
本专利技术涉及自然语言处理情感分析领域,特别涉及一种基于评论的情感分析方法及系统。
技术介绍
自21世纪以来,世界范围内的大多数国家都进行了信息化建设,互联网产业得到了飞速的发展,在这大浪潮中电子商务显得格外引人注目;旅游业也充分利用信息通信技术以及互联网平台,让互联网与其自身进行了深度融合,创造新的发展生态。例如,携程网是国内目前优秀的旅游服务网站,拥有大量的用户评价数据,这些海量的主观评论文本数据中无论用户的年龄、地域、性别有何差异,他们总会在评价中使用自然语言来表达自己的情绪,这也导致了如何对这些评价进行处理分析也成为了一个独特的领域。目前,评论的情感分析方法一般可以通过构造相应的情感词典和利用机器学习算法来对文本进行情感分析、极性分类。授权专利技术专利号为201610475678.4的《一种基于社交网络数据的情感分析方法》公开了一种使用线性支持向量机模型这种机器学习方法提取训练集上的情感类别特征进行训练,最后得到一个稳定的情感分类模型;然后使用该模型对预测数据集内的情感特征进行预测分析,预测目标本文档来自技高网...

【技术保护点】
1.一种基于评论的情感分析方法,其特征在于:获取实时的评论数据,将实时的评论数据输入到训练好的情感分类模型中,得到情感分类结果,根据分类结果确定游客的喜爱偏好,并将喜爱偏好数据存入系统的存储介质中;/n所述情感分类模型的构建过程包括:采用分布式爬虫算法获取评论数据;根据采集的数据与自有语料库构建情感词典;将获取的数据进行实时解析与预处理,得到预处理的数据;利用情感词典对预处理后的数据进行情感倾向性分类,得到训练好的情感分类模型。/n

【技术特征摘要】
1.一种基于评论的情感分析方法,其特征在于:获取实时的评论数据,将实时的评论数据输入到训练好的情感分类模型中,得到情感分类结果,根据分类结果确定游客的喜爱偏好,并将喜爱偏好数据存入系统的存储介质中;
所述情感分类模型的构建过程包括:采用分布式爬虫算法获取评论数据;根据采集的数据与自有语料库构建情感词典;将获取的数据进行实时解析与预处理,得到预处理的数据;利用情感词典对预处理后的数据进行情感倾向性分类,得到训练好的情感分类模型。


2.根据权利要求1所述的一种基于评论的情感分析方法,其特征在于,所述构建情感词典的步骤包括:
步骤1:根据情感词汇本体库筛选正负情感极性以及情感强度,得到基础情感词集B;
步骤2:将常用的颜文字和Emoji进行混合,根据按键值将混合的颜文字和Emoji构造成词典,得到颜文字词典;
步骤3:采用颜文字词典将旅行评论领域数据内的特殊表情符还原为对应的汉字,得到汉字集;
步骤4:对汉字集进行去停用词、分词处理,计算处理后分词集的tf-idf值,根据tf-idf值对分词集进行筛选,得到词汇集C;
步骤5:B与C取交集,得到种子情感词集S,将种子情感词集加入情感词典Sent-D中;C与B进行取差集运算,得到候选词集CL;
步骤6:采用颜文词典对搜狗全网新闻数据与旅行评论的混合数据进行表情符号还原操作,并进行去停用词和分词操作;并对得到的词集进行词向量化处理,得到词向量集M-V;
步骤7:利用词向量集M-V计算CLi与Sj调整后的余弦相似性,按相似性的大小进行降序排列;
步骤8:从排列中选择相似性最高的5个种子情感词,若5个种子情感词的情感极性一致,则直接求CLi情感词极性及强度pa,若5个种子情感词的情感极性不一致,则取种子情感词极性数较多的候选词集,计算候选词集CLi情感词极性及强度pa;
步骤9:结合pagerank算法计算CLi情感词极性及强度pb;
步骤10:利用pa与pb加权计算后取得最后的CLi情感词极性及强度p;
步骤11:将候选词的词极性以及计算得到的情感强度加入情感词典Sent-D中;
其中,Emoji表示情感含义符号数据,tf-idf表示评估一个单词在该语料中的重要程度,Sent-D表示情感词典。


3.根据权利要求2所述的一种基于评论的情感分析方法,其特征在于,所述情感强度计算方法步骤包括:
根据5个种子情感词的情感极性求情感强度;
若情感极性一致,则求得候选词CLi情感词强度为:



若情感极性不一致,则取种子情感词极性数较多的候选词集,计算情感词强度:



其中,n为种子情感词极性数较多方的词个数,表示种子情感词Sj的情感强度。


4.根据权利要求2所述的一种基于评论的情感分析方法,其特征在于,所述pagerank算法包括:确定种子集S在情感词汇本体中对应的情感极性矩阵Y;S的情感强度为:X=(x1,x2,...,xn),根据S情感词的情感极性及强度计算S的情感极性向量为:Z=X×Y;
定义义图G=<N,M>,|N|=|S|+|W|,矩阵M的结点间的无向图链接关系为|W|×|N|;根据调整后余弦相似度将M分解为|W|×|S|的矩阵U和|W|×|W|的子矩阵V;将种子词集S的正向词置前,负向词置后;对U、V和Z作归一化处理,并进行迭代计算,得到候选词情感强度及极性向量P;
其中,oi为种子情感词在情感词汇本体库中对应的情感强度,N为结点集合,|S|为种子情感词数,|W|为CL词数。


5.根据权利要求2所述的一种基于评论的情感分析方法,其特征在于,所述情感极性包括:正面情感极性及强度用0~1...

【专利技术属性】
技术研发人员:刘群曹华强张刚强王如琪
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1