一种情感词典建立与情感计算方法技术

技术编号:10519500 阅读:328 留言:0更新日期:2014-10-08 17:25
本发明专利技术公开了一种情感词典建立与情感计算方法,采用高质量的人工标记中文语料库Ren-CECps作为初始种子情感词,结合同义词词林及互联网中文文本语料(未标记)进行情感同义词扩充,并在情感计算方法上使用核函数方法,解决了情感计算过程中的训练时间久、准确率低的问题。

【技术实现步骤摘要】

本专利技术涉及情感计算及文本情感分析方法领域,具体是一种情感词典建立与情感 计算方法。
技术介绍
在文本情感计算领域,常常使用情感词作为文本特征词,情感词数量及质量的 好坏严重影响文本情感特征的表示质量好坏。一般的文本情感特征词多采用文本段的 形容词、副词及少量名词作为特征词;常规情感计算方法多采用SVM(Support Vector Machine)、朴素贝叶斯方法。 传统的情感词典受限情感词的数量、无情感类别标记及无情感强度值标注,在数 量及质量上均大大影响了文本情感特征的表示;分类算法也面临着训练时间久、准确率低 的困扰。
技术实现思路
本专利技术的目的是提供,以解决现有技术存在的 问题。 为了达到上述目的,本专利技术所采用的技术方案为: -种情感词典建立与情感计算方法,其特征在于:包括以下步骤: (1)、获取情感词信息: 解析中文情感语料库Ren-CECps,从中文情感语料库Ren-CECps中提取情感词信 息; 所述中文情感语料库Ren-CECps由带有人工情感特征标注的段落和文本组成,所 有文本均进行了词性标注,并以XML格式保存; 所述情感词信息包括:情感词汇本体,记为n>0 ;情感词所属情感类别,记 为,情感词所属情感类别共有八种类别,1 < j < 8 ;对应情感类别下的情感强度值,记 为 Eintensity,〇. 〇 ^ Eintensity € 1. 0 ; 所述情感类别共八种,包括:高兴j〇y,记为足^,;憎恨hate,记为£^卜喜爱 love,记为足悲伤sorrow,记为五;焦虑anxiety,记为見-;生气anger, 记为5^ ; 惊讶surprise,记为民*,7 ;期望expect,记为尽; 解析中文情感语料库Ren-CECps后得到的情感词信息格式如公式(1)所示: 本文档来自技高网...

【技术保护点】
一种情感词典建立与情感计算方法,其特征在于:包括以下步骤:(1)、获取情感词信息:解析中文情感语料库Ren‑CECps,从中文情感语料库Ren‑CECps中提取情感词信息;所述中文情感语料库Ren‑CECps由带有人工情感特征标注的段落和文本组成,所有文本均进行了词性标注,并以XML格式保存;所述情感词信息包括:情感词汇本体,记为n>0;情感词所属情感类别,记为情感词所属情感类别共有八种类别,1≤j≤8;对应情感类别下的情感强度值,记为Eintensity,0.0≤Eintensity≤1.0;所述情感类别共八种,包括:高兴joy,记为憎恨hate,记为喜爱love,记为悲伤sorrow,记为焦虑anxiety,记为生气anger,记为惊讶surprise,记为期望expect,记为解析中文情感语料库Ren‑CECps后得到的情感词信息格式如公式(1)所示:Ewordn,Eclassj|Eintensity---(1)]]>将解析后得到的情感词信息按照公式(1)的情感词信息格式以UTF‑8格式逐条保存在本地的TXT文本里,此文本即为初始情感词典,记为Linitial;(2)、情感词去重及情感类别、情感强度值归一化:由于初始情感词典中的情感词在中文情感语料库Ren‑CECps中拥有不同的情感类别或情感强度值,因此需要归一化情感词信息,对某一个情感词的归一化规则如下:(a)、对于标注为不同的情感类别的情感词,所有标注的情感类别均作为该情感词的情感类别;(b)、对于相同情感类别下标注的情感强度不同的情况,采用公式(2)进行情感强度值归一化;Eintensity‾=Σi=1mNi(Eintensity)iN---(2)]]>其中,表示情感词的最终情感强度值;N表示情感词在情感类别下出现的总次数;(Eintensity)i表示人工标注的情感强度值;Ni表示在该情感强度值下词出现的总次数;(3)、根据同义词词林扩充初始情感词典Linitial;所述同义词词林为哈工大信息检索研究中心推出的开放语料,同义词词林词典的“类别‑词”编码格式为:类别编码=词1、词2、词x……;过程如下:(3.1)、依次遍历同义词词林中各行情感词汇本体词x,存储为HashMap_1<类别,词x>;遍历初始情感词典Linitial,存储为HashMap_2<类别,>;(3.2)、使用HashMap_2中的情感词汇本体依次匹配HashMap_1中的情感词汇本体词x,若=词x,则与词x同一类别编码的词的情感信息均为情感词汇本体所对应的情感词信息,此时,将HashMap_2中当前匹配的词与添加上情感信息的词x及其同一类别词逐行存储到本地文本中,记为Ladvance;随后使用HashMap_2中下一个词进行上述过程,直到HashMap_2中的最后一个词;(3.3)、对步骤(3.1)中的情感词词典Ladvance去重,对于同一情感词不同情感类别的情况,取所有情感类别的交集,此过程后的情感词典记为Ladvance′;(4)、使用互联网中文文本语料扩充情感词典Ladvance′,过程如下:(4.1)、采用共现频率方法扩充情感词,共现频率方法计算工具使用word2vec;(4.2)、依次取情感词典Ladvance′中的情感词计算共现词,计算的候选词中取前3个为扩充情感词;(4.3)、选定的3个作为扩展情感词的候选词的情感信息与当前进行共现频率计算的词保持一致时,依次进行下一个情感词共现候选词计算,直至最后一个情感词为止;(4.4)、采用步骤(3)中(3.3)中的方法,对扩展情感词的候选词进行去重、归一化处理,得到的情感词典即为最终的可用情感词典,记为Lultimate;(5)、建立文本及词典情感矩阵,过程如下:(5.1)、解析中文情感语料库Ren‑CECps,按照文档情感类别建立Term‑Document矩阵,简称T‑D矩阵;所述T‑D矩阵其列表示情感词典Lultimate中各情感词,其行表示当前情感类别下的某个文档,T‑D矩阵中的元素表示情感词典中的情感词在对应的文档中的tf·idf值;情感类高兴joy的T‑D矩阵记为Djoy,情感类憎恨hate的T‑D矩阵记为Dhate,情感类喜爱love的T‑D矩阵记为Dlove,情感类悲伤sorrow的T‑D矩阵记为Dsorrow,情感类焦虑anxiety的T‑D矩阵记为Danxiety,情感类生气anger的T‑D矩阵记为Danger,情感类惊讶surprise的T‑D矩阵记为Dsurprise,情感类期望expect的T‑D矩阵记为Dexpect;以上八个情感类T‑D矩阵统一记为D;(5.2)、解析步骤(4)中建立的情感词典Lultimate,建立词典情感矩阵;其中词典情感矩阵的行...

【技术特征摘要】
1. 一种情感词典建立与情感计算方法,其特征在于:包括以下步骤: (1) 、获取情感词信息: 解析中文情感语料库Ren-CECps,从中文情感语料库Ren-CECps中提取情感词信息; 所述中文情感语料库Ren-CECps由带有人工情感特征标注的段落和文本组成,所有文 本均进行了词性标注,并以XML格式保存; 所述情感词信息包括:情感词汇本体,记为及_;,n>0 ;情感词所属情感类别,记为 五如,.,情感词所属情感类别共有八种类别,1彡j彡8 ;对应情感类别下的情感强度值,记为 Eintensity'O· 〇 ^ Eintensity € 1· 〇 ; 所述情感类别共八种,包括:高兴joy,记为足,% Wl^Shate,记为及;喜爱love, 记为足;悲伤sorrow,记为£^4 ;焦虑anxiety,记为足一;生气anger,记为;惊讶 surprise,记为;期望 expect,记为尽; 解析中文情感语料库Ren-CECps后得到的情感词信息格式如公式(1)所示:(1) 将解析后得到的情感词信息按照公式(1)的情感词信息格式以UTF-8格式逐条保存在 本地的TXT文本里,此文本即为初始情感词典,记为Linitial ; (2) 、情感词去重及情感类别、情感强度值归一化: 由于初始情感词典中的情感词在中文情感语料库Ren-CECps中拥有不同的情感类别 或情感强度值,因此需要归一化情感词信息,对某一个情感词的归一化规则如下: (a) 、对于标注为不同的情感类别的情感词,所有标注的情感类别均作为该情感词的情 感类别; (b) 、对于相同情感类别下标注的情感强度不同的情况,采用公式(2)进行情感强度值 归一化;(2) 其中,表示情感词坟 < 的最终情感强度值;N表示情感词在情感类别 下出现的总次数;(Eintmsity) i表示人工标注的情感强度值;队表示在该情感强度值下 词£_/,出现的总次数; ⑶、根据同义词词林扩充初始情感词典Linitial ;所述同义词词林为哈工大信息检索研 究中心推出的开放语料,同义词词林词典的类别-词编码格式为:类别编码=词1、词2、 词X......;过程如下: (3. 1)、依次遍历同义词词林中各行情感词汇本体词X,存储为HashMap_l〈类别,词x> ; 遍历初始情感词典Linitial,存储为HashMap_2〈类别> ; (3. 2)、使用HashMap_2中的情感词汇本体依次匹配HashMap_l中的情感词汇本 体词X,若=词X,则与词X同一类别编码的词的情感信息均为情感词汇本体所对 应的情感词信息,此时,将HashMap_2中当前匹配的词坟< 与添加上情感信息的词X及其 同一类别词逐行存储到本地文本中,记为Ladva_ ;随后使用HashMap_2中下一个词进行上述 过程,直到HashMap_2中的最后一个词; (3. 3)、对步骤(3.1)中的情感词词典1^_。6去重,对于同一情感词不同情感类别的情 况,取所有情感类别的交集,此过程后的情感词典记为LadvanJ ; (4) 、使用互联网中文文本语料扩充情感词典Ladvan...

【专利技术属性】
技术研发人员:全昌勤任福继刘宁
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1