一种面向网购评论的新情感词极性计算方法技术

技术编号:24576483 阅读:149 留言:0更新日期:2020-06-21 00:27
本发明专利技术公开一种面向网购评论的新情感词极性计算方法,该方法包括:获取网购平台的商品主体、属性集合及其评论语料;用增强点互信息算法结合评论中出现的星级好评概率计算得出商品主体的满意度;用增强点互信息分别计算得出商品属性的满意度、商品主体与新词的关联度和商品属性与新词的关联度,最后得出新词情感极性的弱标签。分别用朴素贝叶斯公式和增强点互信息计算新词情感权值,并结合弱标签加权求得新情感词极性。本发明专利技术的方案从新词组成、上下文已知情感词的共现和面向网购领域的弱标签这三个层面综合计算新情感词极性。

A new method of calculating the polarity of emotional words for online shopping Reviews

【技术实现步骤摘要】
一种面向网购评论的新情感词极性计算方法
本专利技术涉及文本分析
,具体是一种面向网购评论的新情感词极性计算方法。
技术介绍
随着互联网技术的发展,网络上出现了越来越多的用户原创内容例如网络商店中用户对商品或卖家的评论。这些评论是用户对商品领域内的具体对象的看法和意见。其中,这些看法和意见通常借助情感词表述出来,可能是正向情感、负向情感或中性情感。通过分析评论中的情感词,就能够确定用户对相应对象的认可程度。但是随着时代的发展,用户在评论中会使用一些未被情感词典收录的新情感词,这些新情感词的极性未知。目前,常通过以下两个层面分析新情感词极性:1.利用情感词典,包含新情感词的文本等资源,以新情感词和已知情感词的共现或相似,计算新情感词的极性,但这种方法只是通过上下文计算新词情感极性;2.从新词的组成字是情感词组成字的概率考虑,即通过字的情感权重计算新情感词的极性。这种方法忽视了上下文对词项具体含义的影响,更没有考虑某领域对新词情感极性的影响。为了综合上述两种方法的优点,弥补两者的不足,本专利技术提出一种面向网购评论的新情感词极性计算方法,多层面更准确地分析计算。
技术实现思路
本专利技术的目的是提供一种面向网购评论的新情感词极性计算方法;该方法提出面向商品网购评论的新情感词极性弱标签计算方法,多角度计算新词情感极性,从而能够更全面的计算出新情感词的极性。本专利技术实现专利技术目的采用如下技术方案:本专利技术提供的一种面向网购评论的新情感词极性计算方法,其特征在于:从词组成角度用朴素贝叶斯公式计算新词组成字是情感词组成字的概率,进而计算出新词情感权值,从新词与已知情感词共现的角度,用增强点互信息计算新词情感权值,结合面向购物领域的新词情感弱标签加权求得新情感词极性。作为优选,上述的面向购物领域的新词情感弱标签,其特征在于:用增强点互信息算法结合评论中出现的星级好评概率计算得出商品主体的满意度;用增强点互信息计算得出商品属性的满意度、商品主体与新词的关联度和商品属性与新词的关联度,最后加权计算出新词情感极性的弱标签。本专利技术与现有技术相比,其有益效果体现在:本方案不仅从上下文角度考虑新情感词与各已知情感词之间的同现关系,也从新情感词组成角度,面向商品购物领域的弱标签多角度综合计算新情感词的极值。避免了只从上下文角度计算新情感词的不足,或只从新情感词的构成计算其情感极性的弊端。附图说明图1是本专利技术的总体流程图;图2是弱标签S1计算流程图;图3是候选情感词权重S2计算流程图;图4候选情感词权重S3计算流程图;图5新情感词极值S计算流程图。具体实施方式以下结合附图与具体实施步骤对本专利技术做进一步解释说明,如图1所示,本专利技术的总体流程包含以下步骤。步骤1:选择一定数量的网购评论语料,对初始文本数据执行预处理操作,包括分词,词性标注,以及新词发现,从而确定候选情感词。步骤2:如图2所示,获取网购平台的商品对象作为主体集合,获取商品的属性作为属性集合。通过增强点互信息算法,计算商品主体满意度F1,属性满意度F2,主体与候选情感词关联度Con1,属性与候选情感词关联度Con2,最后计算面向购物领域的候选词情感极性弱标签S1.其中增强点互信息表达式为其中P(wi,wj)表示词wi和词wj同时出现在一个网购评论的概率,P(wi)表示词wi单独出现的概率,P(wj)表示词wj单独出现的概率。其中di=|posi-posj|,posi和posj分别表示词语i和词语j之间的词间距其中F1(Zi)为主体Zi的满意度,wp和wn分别表示情感字典中正向情感词和负向情感词,g1(Zi)表示关于商品主体Zi的评论中四星五星好评概率,g2(Zi)表示关于商品主体Zi的评论中一星和二星评分概率,DWPMI(Zi,wp)表示主体与正向情感词集中的每个词DWPMI数值之和,DWPMI(Zi,wn)表示主体与负向情感词集中的每个词DWPMI数值之和。其中F2(Mi)为属性Mi的满意度,wp和wn分别表示情感字典中正向情感词和负向情感词,DWPMI(Mi,wp)表示属性与正向情感词集中的每个词DWPMI数值之和,DWPMI(Mi,wn)表示属性与负向情感词集中的每个词DWPMI数值之和。Con1(vi)=DWPMI(vi,Zi),Con2(vi)=DWPMI(vi,Mi)其中,vi为候选情感词,Con1(vi)为主体Zi与候选词vi的关联度,Con2(vi)为属性Mi与候选词vi的关联度。由此计算候选词vi的情感极性弱标签其中,Wz表示商品主体词集,Wm表示商品对象的属性词集合。步骤3:如图2所示,从组成字角度,计算出新词候选情感词的情感权重。通过网购评论语料及一部情感词典,有正情感词S正和负情感词S负之分。假设Ci表示一个字,C1...Ci...Cn表示一个候选情感词,S′表示已知情感词,有正情感词S正和负情感词S负之分,Freg表示语料中出现的频率。对于一个未知情感的候选情感词C1...Ci...Cn,判断其是否为情感词及情感倾向性程度的推导过程如下。由贝叶斯公式得式(1)。由式(1)可计算情感词S′中每个组成字Ci的概率P(Ci|S′),即字的情感权重。由于情感词有正情感词S正和负情感词S负两种情况,所以每个组成字都会有正情感和负情感之分。由式(2)可计算语料中情感词的分布。其中,N表示语料中词的集合,Wi表示语料中的任意词。P(S′)表示情感词S′的概率。用S2表示候选情感词的情感权重值。候选情感词C1...Ci...Cn是情感词的概率用P(S′|C1...Ci...Cn)表示。因为是对一个情感倾向性未知的候选词C1...Ci...Cn计算其情感权重,所以无论它是正情感倾向还是负情感倾向,P(C1...Ci...Cn)是定值,可忽略不计。其次,因为P(C1...Ci...Cn|S′)是难以计算的,则假设C1...Ci...Cn每个字是情感词组成字的概率是条件独立的,则可以表示成式(3)。利用式(1)和式(2)计算得出P(Ci|S′)及P(S′),并代入式(3),就可计算出候选情感词的情感权重S2。为了更好地表示结果,对其取log,表达式如式(4)。由于每一个候选情感词都有正情感权重S2正和负情感权重S2负,即正面情感倾向概率和负面情感倾向概率,用两者的差值表示最终的新情感词权重S2,即S2=S2正-S2负(5)这里的S2表示由词组成得到的最终候选情感词权重。当遇到一种特殊情况:若语料中的情感词中并未出现候选词词C1...Ci...Cn中的某个字Ci,则P(Ci|S′)会计算为0,此时需要进行数据平移,表示如式(6)。其中δ应当取很小的数值,这里取为词典中的中文汉字总数的倒数。表达式(6)表示给候选词中任意一个字Ci的词频加一个很小的值,避免某个字词频或本文档来自技高网...

【技术保护点】
1.一种面向网购评论的新情感词极性计算方法,其特征在于:从词组成角度用朴素贝叶斯公式计算新词组成字是情感词组成字的概率,进而计算出新词情感权值,从新词与已知情感词共现的角度,用增强点互信息计算新词情感权值,结合面向购物领域的新词情感弱标签加权求得新情感词极性。/n

【技术特征摘要】
1.一种面向网购评论的新情感词极性计算方法,其特征在于:从词组成角度用朴素贝叶斯公式计算新词组成字是情感词组成字的概率,进而计算出新词情感权值,从新词与已知情感词共现的角度,用增强点互信息计算新词情感权值,结合面向购物领域的新词情感弱标签加权求得新情感词极性。<...

【专利技术属性】
技术研发人员:张顺香余宏斌许汗清王侨云朱海洋
申请(专利权)人:安徽理工大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1