当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于主题识别和集成学习的微博情感分析方法技术

技术编号:19009125 阅读:134 留言:0更新日期:2018-09-22 09:00
本发明专利技术公开了一种基于主题识别和集成学习的微博情感分析方法,该方法包括以下步骤:收集微博数据并进行人工标注;通过文本数据处理方法对微博文本进行预处理;通过LDA主题相关性指标选择最优文本主题数并用LDA挖掘文本主题;结合情感词典构建用于微博情感分析的主题特征、情感特征和句式特征;将上述特征作为训练AdaBoost算法的输入特征变量以建立微博情感分析分类器。本发明专利技术方法通过深入挖掘了微博文本语义信息,有效提高了文本情感分类精度。

A sentiment analysis method based on topic identification and ensemble learning for micro-blog

The invention discloses a micro-blog emotion analysis method based on topic recognition and ensemble learning. The method comprises the following steps: collecting micro-blog data and labeling it manually; pre-processing micro-blog text by text data processing method; selecting the optimal number of text topics by LDA topic correlation index and mining text by LDA. This topic combines emotional dictionary to construct topic features, emotional features and syntactic features for microblog emotional analysis. These features are used as input feature variables for training AdaBoost algorithm to build microblog emotional analysis classifier. The method of the invention effectively improves the accuracy of text emotion classification by digging the semantic information of micro-blog text deeply.

【技术实现步骤摘要】
一种基于主题识别和集成学习的微博情感分析方法
本专利技术涉及自然语言处理技术,尤其涉及一种基于主题识别和集成学习的微博情感分析方法。
技术介绍
近年来社会化媒体快速发展,越来越多的网络用户选择在社交网络平台如微博、论坛、购物网站等表达个人意见和情感倾向。微博因其传播速度快、社会影响力大而成为网民信息传播、信息获取的重要渠道。对于一些群体性的公共事件,网民倾向于在微博上表达自己的看法和意见。这类事件往往持续时间久,关注人数多,在网络用户中影响巨大,人们通过网络传达出的情绪形成社会舆论,可能会影响事件的发展,甚至可能影响相关个人或组织的决策。微博中这些大量碎片式的用户生成信息可以反映事件的演化过程和公众情绪的波动情况,在微博中跟踪这些突发事件的讨论话题,对微博评论进行分析,可以还原事件的发展过程,实时把控网民情绪,减小公共突发事件对社会的负面影响。因此对微博文本进行情感分析可以辅助政府进行网络舆情监测,维持社会稳定。目前对情感倾向分析的研究大多都着眼于语句本身,从文本、语法等挖掘能描述情感倾向的特征,如常用的语法特征、句式特征、句内特征等。在上述方法中,虽然达到了较好的情感分类效果,但是没有挖掘文本的深层语义信息。
技术实现思路
本专利技术要解决的技术问题在于针对现有技术中的缺陷,提供一种基于主题识别和集成学习的微博情感分析方法。本专利技术解决其技术问题所采用的技术方案是:一种基于主题识别和集成学习的微博情感分析方法,包括以下步骤:1)从微博平台采集微博文本数据并进行预处理,获得优化文本内容以及优化文本内容词组;所述微博文本数据包括微博正文内容、微博评论内容、微文转发数以及评论数;所述预处理包括对微博评论的人工标注;所述人工标注为:对每条微博评论的情感倾向进行人工标记,若该条评论情感倾向为正向,则标记为1,否则标记为0;2)通过LDA(LatentDirichletAllocation)主题模型对步骤1)中优化文本内容以及优化文本内容词语进行建模计算,识别微博正文主题信息,获得LDA主题分布概率以及LDA优化文本内容词语与主题分布概率,根据每个主题中高分词语之间的语义相似性评估主题质量,确定恰当个数的主题类别,将每条微博正文所属主题类别作为微博用户情感分析的主题特征;3)依据情感词典提取每条微博评论出现的正向情感词、负向情感词、转折词和否定词,计量正向情感词、负向情感词、转折词和否定词的数量,构建情感特征和句式特征,并结合步骤2)提取的主题特征,构建用于微博情感分析的多特征向量组合;4)将步骤3)所述的多特征向量组合作为AdaBoost模型的输入特征,选择效果最优特征组合设计情感倾向分析分类器,并根据步骤1)所述人工标注的微博评论数据进行训练得到最终用户情感识别分类器,应用于情感分析工作。按上述方案,所述步骤1)中文本预处理还包括文本分词、去停用词和无关字符过滤。按上述方案,所述步骤2)中LDA主题识别采用的评价指标主题相关性为UMass主题相关性:其中,coherence(V)为主题相关性得分,score(vi,vj,∈)为UMass度量标准计算分数的方法,V表示描述某个主题的词语集合,∈是一个平滑因子,用于确保返回的得分是一个实数;D(vi,vj)表示包含词语vi和vj的微博正文数量,D(vj)表示包含词语vj的微博正文数量。按上述方案,所述情感词典为根据知网HowNet情感词典并融合网络流行词汇,整理的四个文本文档,包括正向情感词、负向情感词、否定词、转折词。按上述方案,所述步骤3)中多特征向量组合为:featurei={topici,emotioni,sentencei,tendencyi}(1≤i≤M);其中,M为该条微博评论条数,i为微博评论序号,topici为主题特征,emotioni为情感特征,sentencei为句式特征,tendencyi为人工标注的该条微博文本情感倾向;其中,emotioni={n_posi,n_negi}(1≤i≤M)其中,n_posi为该条评论中正向情感词的数量,n_negi为负向情感词的数量;sentencei={n_denyi,n_trai}(1≤i≤M)其中,n_denyi为该条评论中否定词的数量,n_trai为转折词数量。本专利技术产生的有益效果是:本专利技术基于主题识别和集成学习的微博情感分析方法能够深入挖掘微博文本语义信息,用LDA模型识别微博主题,将其与定义的情感特征和句式特征变量作为集成学习方法AdaBoost的输入变量进行分类训练,本专利技术在情感倾向识别上获得了较高的准确率。附图说明下面将结合附图及实施例对本专利技术作进一步说明,附图中:图1是本专利技术实施例的方法流程图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,本专利技术提供一种主题识别和集成学习的微博情感分析方法,包括以下步骤:步骤1,使用爬虫方法从新浪微博平台采集数据,所述微博数据包括微博正文内容、微博评论内容、微文转发数以及评论数。然后对爬取内容进行预处理,从而获得优化文本内容以及优化文本内容词组,最终获得688条微博正文,1426条微博评论数据;作为优选,步骤1所述文本预处理方法包括微博正文和评论文本的文本分词、去停用词、过滤无关字符以及微博评论人工标注;步骤1中所述人工标注为:对每条微博评论的情感倾向进行人工标记,若该条评论情感倾向为正向,则标记为1,否则标记为0;步骤2,通过LDA主题模型对步骤1所述优化文本内容以及优化文本内容词语进行建模计算,识别微博正文主题信息,获得LDA主题分布概率以及LDA优化文本内容词语与主题分布概率,根据每个主题中高分词语之间的语义相似性评估主题质量,将每条微博正文所属主题类别作为微博用户情感分析的主题特征,确定主题个数为18时主题相关性得分最高,最后选择其中6个主题下的相关评论进行情感识别;作为优选,步骤2中所述LDA主题识别评价指标主题相关性为UMass主题相关性:其中,V是描述某个主题的词语集合,∈是一个平滑因子以确保返回的得分是一个实数;D(vi,vj)指包含词语vi和vj的微博正文数量,D(vj)表示包含词语vj的微博正文数量。步骤3,完善情感词典,依据情感词典提取每条微博评论出现的情感词、转折词、否定词,计量正向情感词、负向情感词、转折词、否定词数量,构建情感特征和句式特征,并结合步骤2提取的主题特征,构建用于微博情感分析的多特征向量组合;作为优选,步骤3所述情感词典为知网HowNet情感词典并融合网络流行词汇,整理为四个文本文档,包括正向情感词、负向情感词、否定词、转折词;步骤3所述多特征向量组合为:featurei={topici,emotioni,sentencei}(1≤i≤M)其中,M为微博评论条数,i为微博评论序号,topici为主题特征,emotioni为情感特征,sentencei为句式特征。步骤3所述情感特征为:emotioni={n_posi,n_negi}(1≤i≤M)其中,n_posi为该条评论中正向情感词的数量,n_negi为负向情感词的数量;步骤3所述句式特征为:sentencei={n_den本文档来自技高网...
一种基于主题识别和集成学习的微博情感分析方法

【技术保护点】
1.一种基于主题识别和集成学习的微博情感分析方法,其特征在于,包括以下步骤:1)从微博平台采集微博文本数据并进行预处理,获得优化文本内容以及优化文本内容词组;所述微博文本数据包括微博正文内容、微博评论内容、微文转发数以及评论数;所述预处理包括对微博评论的人工标注;所述人工标注为:对每条微博评论的情感倾向进行人工标记,若该条评论情感倾向为正向,则标记为1,否则标记为0;2)通过LDA主题模型对步骤1)中优化文本内容以及优化文本内容词语进行建模计算,识别微博正文主题信息,获得LDA主题分布概率以及LDA优化文本内容词语与主题分布概率,根据每个主题中高分词语之间的语义相似性评估主题质量,确定恰当个数的主题类别,将每条微博正文所属主题类别作为微博用户情感分析的主题特征;3)依据情感词典提取每条微博评论出现的正向情感词、负向情感词、转折词和否定词,计量正向情感词、负向情感词、转折词和否定词的数量,构建情感特征和句式特征,并结合步骤2)提取的主题特征,构建用于微博情感分析的多特征向量组合;4)将步骤3)所述的多特征向量组合作为AdaBoost模型的输入特征,选择效果最优特征组合设计情感倾向分析分类器,并根据步骤1)所述人工标注的微博评论数据进行训练得到最终用户情感识别分类器,应用于情感分析工作。...

【技术特征摘要】
1.一种基于主题识别和集成学习的微博情感分析方法,其特征在于,包括以下步骤:1)从微博平台采集微博文本数据并进行预处理,获得优化文本内容以及优化文本内容词组;所述微博文本数据包括微博正文内容、微博评论内容、微文转发数以及评论数;所述预处理包括对微博评论的人工标注;所述人工标注为:对每条微博评论的情感倾向进行人工标记,若该条评论情感倾向为正向,则标记为1,否则标记为0;2)通过LDA主题模型对步骤1)中优化文本内容以及优化文本内容词语进行建模计算,识别微博正文主题信息,获得LDA主题分布概率以及LDA优化文本内容词语与主题分布概率,根据每个主题中高分词语之间的语义相似性评估主题质量,确定恰当个数的主题类别,将每条微博正文所属主题类别作为微博用户情感分析的主题特征;3)依据情感词典提取每条微博评论出现的正向情感词、负向情感词、转折词和否定词,计量正向情感词、负向情感词、转折词和否定词的数量,构建情感特征和句式特征,并结合步骤2)提取的主题特征,构建用于微博情感分析的多特征向量组合;4)将步骤3)所述的多特征向量组合作为AdaBoost模型的输入特征,选择效果最优特征组合设计情感倾向分析分类器,并根据步骤1)所述人工标注的微博评论数据进行训练得到最终用户情感识别分类器,应用于情感分析工作。2.根据权利要求1所述的基于主题识别和集成学习的微博情感分析方法,其特征在于,所述步骤1)中文本预处理还包括文本分词、去停用词和无关字符过滤。3.根据权利要求1所述的基于主题识别和集成学习的...

【专利技术属性】
技术研发人员:曾子明杨倩雯
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1