一种基于情感词典与微博文本数据的七情感分类方法技术

技术编号:22974703 阅读:75 留言:0更新日期:2019-12-31 23:25
本发明专利技术公布了一种基于情感词典与微博文本数据的七情感分类方法。包括以下步骤:首先,利用python爬虫以“粮食安全”为关键词从微博获取37033条文本数据。同时,使用喜怒哀乐爱恶惧等关键词的二阶近义词并添加知网Hownet正负面情感词典中的一些新词获得七情感词典。然后分别处理得到停用词典,否定词典以及程度词典。最后,将处理过后的文本数据进行通过各个词典算出相对分数进行分类。本发明专利技术基于情感词典进行七种情感的分类,有效的解决了以往方法中只有正负与中性的问题,并可以将结果作为深度学习情感分类的训练集使用解决人工打标签问题。

A seven emotion classification method based on emotion dictionary and microblog text data

【技术实现步骤摘要】
一种基于情感词典与微博文本数据的七情感分类方法
本专利技术属于文本情感分析领域,具体涉及到一种基于情感词典与微博文本数据的七情感分类方法。
技术介绍
情感分析技术是自然语言处理(NaturalLanguageProcessing,NLP)的一个重要应用领域,可用于快速掌握民众对某一热点事件或者商品服务的态度,用于引导舆论改进服务。在进行情感分类时有两种主流方法:情感词典和机器学习。基于情感知识构建情感词典,进而用词典对文本进行分类,虽然前期需要做大量情感词典的准备工作,但因为具有适用范围广且耗时短的特点被广泛使用。早在1998年,Whissel就要求受试者用5个单词描述各种术语,建立了第一个情感词典。在之后的二十年中,众多学者在其基础上进行了各种扩充完善,Whissel也对自己构建的情感词典进行了修订,来进一步适应自然语言的要求。因为情感词典最早出现在国外,故而英文词典积累了丰富的资源,于是李寿山等通过翻译英文词典来构造了最早的中文情感词典。上述情感词典都是最基础的,包含词汇少导致情感词覆盖率低,难以识别同义词,且主要依赖于人共本文档来自技高网...

【技术保护点】
1.一种基于情感词典与微博文本数据的七情感分类方法,其特征在于:包括以下步骤,/n步骤(A)对原始文本数据预处理;/n步骤(B)情感词检测;/n步骤(C)人称词检测;/n步骤(D)否定词和程度词检测;/n步骤(E)情感分值计算。/n

【技术特征摘要】
1.一种基于情感词典与微博文本数据的七情感分类方法,其特征在于:包括以下步骤,
步骤(A)对原始文本数据预处理;
步骤(B)情感词检测;
步骤(C)人称词检测;
步骤(D)否定词和程度词检测;
步骤(E)情感分值计算。


2.根据权利要求1所述的一种基于情感词典与微博文本数据的七情感分类方法,其特征在于:步骤(A),对原始文本数据预处理,在数据预处理阶段,有两个重要任务:一是整理获取的微博数据集,删去无用的格式字符,时间,用户名等信息,并将其排列成需要的形式;二是分词并去除停用词,在这个阶段使用Python中的jieba库对文本进行分词处理,再参照停用词典去除其中的标点符号,连词,无意义词等对情绪没有影响的词。


3.根据权利要求1所述的一种基于情感词典与微博文本数据的七情感分类方法,其特征在于:步骤(B),情感词检测,情感词局部示意如表1;
表1情感词典局部示例









词汇
情感分类
情感权重(强烈程度)


爱慕

3


抱怨

2


大快人心

3


沉重

1


担忧

2


瞪眼

2






对每一段文本数据处理好后,会得到一组词,将这组词遍历与情感词典进行对比,检测出情感词对应的情感以及权重;如检测到多个情感词,则分别记录;如未检测到六种中的任一情感,则将该段文本数据分类为喜(平静),对应分数为100。


4.根据权利要求1所述的一种基于情感词典与微博文本数据的七情感分类方法,其特征在于:步骤(C),人称词检测,在文本中,人称也会对情感的强烈程度有影响,第三人称(他们,它,某个具体名字等以及没有人称代词时)最为客观,而第一人称(我,我们等)最为主观;在这种分类算法中,要先检测出情感词所属的主语是第几人称,并据此给出权重,人称权重值P见表2。
表2人称权重值








人称
人称权重值P


第一...

【专利技术属性】
技术研发人员:肖乐轩辕敏峥段梦诗
申请(专利权)人:河南工业大学
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1