【技术实现步骤摘要】
基于社会媒体的多层级情感分析方法
本专利技术涉及自然语言处理领域,特别涉及一种基于社会媒体的多层级情感分析方法。
技术介绍
社会媒体中蕴含着大量的网民情感信息,其中的价值已引起科技界、企业界、新闻界以及各国政府的高度重视。网民情感往往以评论发帖的形式呈现,分析其中的发帖内容可以帮助决策者实时掌握大众对于公共事件的情感态度。而基于社会媒体的情感分析方法,可用于社交媒体情感分析,大众对公共事件情感态度实时分析,舆情监控。社会媒体情感的研究主要是对网络媒体情感的倾向性进行计算,利用自然语言处理、文本分析、计算语言学的方法,从文本中挖掘人们的观点、情感、评价、态度和情绪。其基本部署是通过一些知识库和统计学原理,构建系统,对网络文本进行分类,能够得出它的极性和极性的强度。其极性可以分为正向极性和负向极性,极性强度可以分为强、中和弱;判别词语的情感极性是文本情感分析的基础,词语的情感极性判别主要有基于语料库和基于词典两种方法。对于基于词典的方法,有基于语义相似度或者层次结构来判别词语的情感极性中文词典HowNet,基于文本情感二元划分方法的中文词语数据库NTUSD。但是,当前 ...
【技术保护点】
1.一种基于社会媒体的多层级情感分析方法,其特征在于,所述方法包括:获取社会媒体中待进行情感分析的文本信息;对所述文本信息进行情感特征分析,根据情感特征分析结果确定所述文本信息的情感,所述情感特征分析包括基于情感词典对所述文本信息进行情感分析,以及基于情感分析模型对所述文本信息进行情感分析;其中,所述基于情感词典对所述文本信息进行情感分析,包括:对所述文本信息进行分词处理,根据分词处理结果从所述文本信息中提取情感词;根据预设的情感词典确定各所述情感词的情感取向;根据具有相同情感取向的情感词的数目,确定所述文本信息的情感。
【技术特征摘要】
1.一种基于社会媒体的多层级情感分析方法,其特征在于,所述方法包括:获取社会媒体中待进行情感分析的文本信息;对所述文本信息进行情感特征分析,根据情感特征分析结果确定所述文本信息的情感,所述情感特征分析包括基于情感词典对所述文本信息进行情感分析,以及基于情感分析模型对所述文本信息进行情感分析;其中,所述基于情感词典对所述文本信息进行情感分析,包括:对所述文本信息进行分词处理,根据分词处理结果从所述文本信息中提取情感词;根据预设的情感词典确定各所述情感词的情感取向;根据具有相同情感取向的情感词的数目,确定所述文本信息的情感。2.根据权利要求1所述的基于社会媒体的多层级情感分析方法,其特征在于,所述情感词包括正向情感指示词和负向情感指示词,以及所述根据具有相同情感取向的情感词的数目,确定所述文本信息的情感,包括:分别判断所述情感信息中正向情感指示词和负向情感指示词的数目;根据所述正向情感指示词和负向情感指示词的数目的差值确定所述文本信息的情感;其中,所述差值为正,确定所述文本信息表达正向情感,所述差值为负,确定所述文本信息表达负向情感。3.根据权利要求2所述的基于社会媒体的多层级情感分析方法,其特征在于,所述预设的情感词典包括正面情感库和负面情感库,所述情感词典的扩充方法包括:通过如下公式统计候选情感词分别在正面情感样本和负面情感样本中的情感得分:其中,w表示词语,a表示词语w在正面文章中出现的次数,b表示词语w在其它类文章中出现的次数,notw表示w的否定词,c表示w的否定词在正面文章中出现的次数,d表示w的否定词在负面文章中出现的次数,Pr(w)=(a+b)/n,n=a+b+c+d,n!=a+c;将在所述正面情感样本中的情感得分大于第一阈值,以及在负面情感样本中的情感得分小于第二阈值的所述候选情感词,确定为正向情感指示词;将所述正向情感指示词加入到所述正面情感库;所述第一阈值为正值,所述第二阈值为负值;将在所述负面情感样本中的情感得...
【专利技术属性】
技术研发人员:曾大军,郑晓龙,何赛克,张曈,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。