【技术实现步骤摘要】
一种基于情感词典与微博文本数据的七情感分类方法
本专利技术属于文本情感分析领域,具体涉及到一种基于情感词典与微博文本数据的七情感分类方法。
技术介绍
情感分析技术是自然语言处理(NaturalLanguageProcessing,NLP)的一个重要应用领域,可用于快速掌握民众对某一热点事件或者商品服务的态度,用于引导舆论改进服务。在进行情感分类时有两种主流方法:情感词典和机器学习。基于情感知识构建情感词典,进而用词典对文本进行分类,虽然前期需要做大量情感词典的准备工作,但因为具有适用范围广且耗时短的特点被广泛使用。早在1998年,Whissel就要求受试者用5个单词描述各种术语,建立了第一个情感词典。在之后的二十年中,众多学者在其基础上进行了各种扩充完善,Whissel也对自己构建的情感词典进行了修订,来进一步适应自然语言的要求。因为情感词典最早出现在国外,故而英文词典积累了丰富的资源,于是李寿山等通过翻译英文词典来构造了最早的中文情感词典。上述情感词典都是最基础的,包含词汇少导致情感词覆盖率低,难以识别同义 ...
【技术保护点】
1.一种基于情感词典与微博文本数据的七情感分类方法,其特征在于:包括以下步骤,/n步骤(A)对原始文本数据预处理;/n步骤(B)情感词检测;/n步骤(C)人称词检测;/n步骤(D)否定词和程度词检测;/n步骤(E)情感分值计算。/n
【技术特征摘要】
1.一种基于情感词典与微博文本数据的七情感分类方法,其特征在于:包括以下步骤,
步骤(A)对原始文本数据预处理;
步骤(B)情感词检测;
步骤(C)人称词检测;
步骤(D)否定词和程度词检测;
步骤(E)情感分值计算。
2.根据权利要求1所述的一种基于情感词典与微博文本数据的七情感分类方法,其特征在于:步骤(A),对原始文本数据预处理,在数据预处理阶段,有两个重要任务:一是整理获取的微博数据集,删去无用的格式字符,时间,用户名等信息,并将其排列成需要的形式;二是分词并去除停用词,在这个阶段使用Python中的jieba库对文本进行分词处理,再参照停用词典去除其中的标点符号,连词,无意义词等对情绪没有影响的词。
3.根据权利要求1所述的一种基于情感词典与微博文本数据的七情感分类方法,其特征在于:步骤(B),情感词检测,情感词局部示意如表1;
表1情感词典局部示例
词汇
情感分类
情感权重(强烈程度)
爱慕
爱
3
抱怨
恶
2
大快人心
乐
3
沉重
哀
1
担忧
惧
2
瞪眼
怒
2
对每一段文本数据处理好后,会得到一组词,将这组词遍历与情感词典进行对比,检测出情感词对应的情感以及权重;如检测到多个情感词,则分别记录;如未检测到六种中的任一情感,则将该段文本数据分类为喜(平静),对应分数为100。
4.根据权利要求1所述的一种基于情感词典与微博文本数据的七情感分类方法,其特征在于:步骤(C),人称词检测,在文本中,人称也会对情感的强烈程度有影响,第三人称(他们,它,某个具体名字等以及没有人称代词时)最为客观,而第一人称(我,我们等)最为主观;在这种分类算法中,要先检测出情感词所属的主语是第几人称,并据此给出权重,人称权重值P见表2。
表2人称权重值
人称
人称权重值P
第一...
【专利技术属性】
技术研发人员:肖乐,轩辕敏峥,段梦诗,
申请(专利权)人:河南工业大学,
类型:发明
国别省市:河南;41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。