基于细粒度属性分类的感情分析引擎制造技术

技术编号:12027879 阅读:275 留言:0更新日期:2015-09-10 12:51
本发明专利技术提出基于细粒度属性分类的感情分析引擎,采用的模型为最大熵模型,该系统的情感极性强度量化方法的算法思路:先利用已有的情感词典通过字频统计的方法,计算出每个字的情感倾向值;然后利用字的情感倾向值设计相应的公式进行词的情感倾向值计算,适用于网络中的微博和微信等,针对评论中可能存在情感词缺少对象属性的情况,究通过计算PMI值来确定评价对象属性类与情感词之间的关联概率,实现对缺失评价对象属性的情感信息进行合理属性类的指派,使情感汇总计算更为合理有效。而且感观性能优。

【技术实现步骤摘要】

本专利技术涉及网络的微博和微信评论
,尤其涉及基于细粒度属性分类的感 情分析引擎。
技术介绍
目前,与情感词相类似,评价对象属性的描述也是多种多样,同一类对象属性,可 以有多种语言表达虽然这些词语不相同,但描述的含义、概念是基本相同的。细粒度情 感计算工作之前,评价对象必须确定好属性类别,以方便情感汇总统计。所以属性分类 (attribute classification)工作对细粒度情感分析十分重要,要在实际应用中实现有效 的属性分类还比较困难。所以如何有效、正确的进行属性分类是细n粒度情感计算、情感汇 总的首要工作。已有不少研究者进行了产品属性分类的相关研究。 现在网络微博和微信评论已成为我们生活中的一部分,在开发中采用通过有监督 学习方法对属性分类进行研究,在特征设计时主要利用了属性识别结果及其上下文词汇信 息,以及属性识别结果对应的词性标注信息及其上下文词性标注信息。由于细粒度情感标 注语料的资源少、标注工作量大的特点,在实际的开发过程中存在工作量等问题,存在着不 足 综上所述,针对现有技术存在的不足,特别需要基于细粒度属性分类的感情分析 引擎,以解决现有技术的不足。
技术实现思路
本专利技术的目的是提供基于细粒度属性分类的感情分析引擎,实现对缺失评价对象 属性的情感信息进行合理属性类的指派,使情感汇总计算更为合理有效。 本专利技术为解决其技术问题所采用的技术方案是, 基于细粒度属性分类的感情分析引擎,采用的模型为最大熵模型,该系统的情感 极性强度量化方法的算法思路:先利用已有的情感词典通过字频统计的方法,计算出每个 字的情感倾向值;然后利用字的情感倾向值设计相应的公式进行词的情感倾向值计算;步 骤如下: 首先统计每个字的在情感词典中作为褒义词和贬义词的权重, 其中,Pci为字ci作为褒义词的权重,Nci为字ci作为贬义词的权重,fPd为字 ci出现在褒义词表中的频率,frid为字ci出现在贬义词表中的频率,利用以上公示可以计 算出每个字作为褒义词和贬义词的权重,n为褒义词表中出现的所有字的个数,m为贬义词 表中出现的所有字的个数,为了平衡情感词典中褒义词与贬义词之间的词数差异性,以上 两个公式对每个字在褒贬词表中出现的频率进行了归一化处理; 最后可以利用一下计算出字ci的情感倾向值Sci Sci=(Pci-Nci) 如果Sci的值为正数,ci是褒义字,负数则是贬义字,接近于0的话,说明ci趋向 于是中性,当计算新词w的情感倾向值时,如果该词由字Cl、C2、C3…Cp组成的话,只要计 算每个字的平均情感值,如下公式所示,其中P为词w中字的个数,如果字cj没有情感值, 贝U Scj取值为0 ; 如果Sw的值为正,说明词w的情感为褒义,Sw的值为负则词w为贬义词,Sw的值 接近〇的话,说明词w为中性词,或者叫非情感词。 进一步,基于情感词分类计算的极性强度量化方法:情感词的极性强度量化工作 完全可以通过分类计算达到更好的效果,我们对情感词分为两大类处理,第一类是基础情 感词,也就是首字不含有否定词、程度修饰词且字数不超过2个字的情感词;第二类是复合 情感词,其首字含有否定词或程度修饰词的情感词或包含2个字以上的情感词,在基础情 感词的极性强度量化计算工作中,我们首先计算出字的情感值,然后设计相关规则计算出 词的情感值;在复合情感词的计算工作中,学习相应的语言学知识,设计相应的规则方法, 利用词与词的组合关系进行复合计算。 进一步,基础词的情感值计算方法:分析基础情感词的构造特点,我们不难发现其 情感倾向值往往约等于所有字情感倾向值中的最大值,在计算基础词的情感倾向值时,我 们主要 Sw=sign (Sci) *Max (abs (Sci)) 其中Max (abs (Sa))为所有字中最大的情感值的绝对值,sign(SJ则为该字的符 号值,如果该字的情感值大于〇,则为+1,如果小于〇,则为-1。 进一步,复合情感词的极性强度量化计算方法:复合情感词其往往由基础情感词、 否定词、程度修饰词等多类词汇组合而成,复合情感词分为五类: (1)基础情感词的叠词,这类词我们可以通过寻找词根的方法找到基础情感词的 情感倾向值,由于叠词一般来说对原词的情感值影响不大,为了简化问题,我们直接取基础 词的情感值; (2)基础情感词+基础情感词,这类组合词的计算我们采用求平均值的方法实现; (3)否定词+基础情感词,这类组合词的计算可通过对基础情感词的情感倾向值 取反运算来实现; (4)程度修饰词+基础情感词,这类组合词的计算可以先获得基础词的情感值,然 后根据事先定义的不同程度修饰词的作用强度获得相应的作用系数(取值范围为〇. 5、0. 7、 0.9、1. 1、1.3、1.5),该组合词的最终情感倾向值为两者的乘积,如果该值超出了词的情感 倾向值范围,我们就取最大极值; (5)否定词+程度修饰词+基础情感词/程度修饰词+否定词+基础情感词,这类 组合词的计算相对比较复杂,前两者之间的位置关系直接影响情感词的倾向值计算,我们 利用公式来实现该类复合词的情感倾向值求解; 其中Swi为基础词的情感值,Dwi为程度词的作用系数(范围为0. 55、0. 75、0. 95、 1.15、1.35、1.55),为程度词反作用系数,以§11(51^)也就是作用系数1)?1的范围情感值的 符号值,如果该词的情感值大于〇,则为+1,如果小于〇,则为-1,abs(Swi)为情感值的绝对 值; 基于不同领域的情感未定词极性强度量化计算还存在248个情感未定词,由于这 些词的极性及其情感倾向值往往跟具体应用领域相关,所以不能给出明确的情感值信息, 人工标注时被统一标记为〇,这些情感词只能跟具体应用领域关联,才能给出较为合理的情 感值,们首先安排学生对这229个情感未定词在酒店领域的情感倾向值进行人工标注,然 后利用已区分褒贬的评论进行情感未定词的极性判定及极性强度量化计算,使用公式来实 现情感未定词的极性判定及极性强度量化计算; 其中,Pwi为词wi作为褒义词的权重,Nwi为词wi作为贬义词的权重,fpwi为词 wi出现在褒义评论中的频率,fnwi为词wi出现在贬义评论中的频率。 进一步,最大熵模型是一个比较成熟的统计模型,适合于解决分类问题,其基本思 想是,给定一个已知事件集,在已知事件集上挖掘出潜在的约束条件,选择一种模型,而把 所有未知的事件排除在外,这个模型必须满足已知的约束条件,同时对未知事件,尽可能使 其分布均匀,假设d表示某一具体事件,c表示该事件被分类的结果,我们引入了特征函数 (有时简称为特征)的概念,特征函数一般为二值函数,对于分类问题,可选择"特征一一类 另IJ"对作为一个特征函数,比如对于特征w和类别c',它的特征函数如公式: 给定特征集合后,首要的任务是基于训练集合计算每个特征的期望值,每个特征 的限制条件都要求这个经验期望(empiricalexpection)与模型中的理想特征期望值相 同,在所有满足限制的概率分布模型中,选取满足使熵值最大化的分布; 利用最大熵模型得出在特征限制条件限制下具有最优的概率分布,即概率值P (c|d),根据最大熵原理,概率值P(c|d)的取值符合以下公式的指数模本文档来自技高网...

【技术保护点】
基于细粒度属性分类的感情分析引擎,其特征在于,采用的模型为最大熵模型,该系统的情感极性强度量化方法的算法思路:先利用已有的情感词典通过字频统计的方法,计算出每个字的情感倾向值;然后利用字的情感倾向值设计相应的公式进行词的情感倾向值计算;步骤如下:首先统计每个字的在情感词典中作为褒义词和贬义词的权重,Pci=fpci/Σj=1nfpcjfpci/Σj=1nfpcj+fnci/Σj=1mfncj]]>Nci=fnci/Σj=1mfncjfpci/Σj=1nfpcj+fnci/Σj=1mfncj]]>其中,Pci为字ci作为褒义词的权重,Nci为字ci作为贬义词的权重,fpci为字ci出现在褒义词表中的频率,fnci为字ci出现在贬义词表中的频率,利用以上公示可以计算出每个字作为褒义词和贬义词的权重,n为褒义词表中出现的所有字的个数,m为贬义词表中出现的所有字的个数,为了平衡情感词典中褒义词与贬义词之间的词数差异性,以上两个公式对每个字在褒贬词表中出现的频率进行了归一化处理;最后可以利用一下计算出字ci的情感倾向值SciSci=(Pci‑Nci)如果Sci的值为正数,ci是褒义字,负数则是贬义字,接近于0的话,说明ci趋向于是中性,当计算新词w的情感倾向值时,如果该词由字C1、C2、C3…Cp组成的话,只要计算每个字的平均情感值,如下公式所示,其中p为词w中字的个数,如果字cj没有情感值,则Scj取值为0;Sw=Σj=1pScjp]]>如果Sw的值为正,说明词w的情感为褒义,Sw的值为负则词w为贬义词,Sw的值接近0的话,说明词w为中性词,或者叫非情感词。...

【技术特征摘要】

【专利技术属性】
技术研发人员:李臻纪敏
申请(专利权)人:上海市玻森数据科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1