一种基于主题识别和集成学习的微博情感分析方法技术

技术编号：19009125 阅读：134 留言：0更新日期：2018-09-22 09:00

本发明专利技术公开了一种基于主题识别和集成学习的微博情感分析方法，该方法包括以下步骤：收集微博数据并进行人工标注；通过文本数据处理方法对微博文本进行预处理；通过LDA主题相关性指标选择最优文本主题数并用LDA挖掘文本主题；结合情感词典构建用于微博情感分析的主题特征、情感特征和句式特征；将上述特征作为训练AdaBoost算法的输入特征变量以建立微博情感分析分类器。本发明专利技术方法通过深入挖掘了微博文本语义信息，有效提高了文本情感分类精度。

A sentiment analysis method based on topic identification and ensemble learning for micro-blog

The invention discloses a micro-blog emotion analysis method based on topic recognition and ensemble learning. The method comprises the following steps: collecting micro-blog data and labeling it manually; pre-processing micro-blog text by text data processing method; selecting the optimal number of text topics by LDA topic correlation index and mining text by LDA. This topic combines emotional dictionary to construct topic features, emotional features and syntactic features for microblog emotional analysis. These features are used as input feature variables for training AdaBoost algorithm to build microblog emotional analysis classifier. The method of the invention effectively improves the accuracy of text emotion classification by digging the semantic information of micro-blog text deeply.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于主题识别和集成学习的微博情感分析方法
本专利技术涉及自然语言处理技术，尤其涉及一种基于主题识别和集成学习的微博情感分析方法。
技术介绍
近年来社会化媒体快速发展，越来越多的网络用户选择在社交网络平台如微博、论坛、购物网站等表达个人意见和情感倾向。微博因其传播速度快、社会影响力大而成为网民信息传播、信息获取的重要渠道。对于一些群体性的公共事件，网民倾向于在微博上表达自己的看法和意见。这类事件往往持续时间久，关注人数多，在网络用户中影响巨大，人们通过网络传达出的情绪形成社会舆论，可能会影响事件的发展，甚至可能影响相关个人或组织的决策。微博中这些大量碎片式的用户生成信息可以反映事件的演化过程和公众情绪的波动情况，在微博中跟踪这些突发事件的讨论话题，对微博评论进行分析，可以还原事件的发展过程，实时把控网民情绪，减小公共突发事件对社会的负面影响。因此对微博文本进行情感分析可以辅助政府进行网络舆情监测，维持社会稳定。目前对情感倾向分析的研究大多都着眼于语句本身，从文本、语法等挖掘能描述情感倾向的特征，如常用的语法特征、句式特征、句内特征等。在上述方法中，虽然达到了较好的情感分类效果，但是没有挖掘文本的深层语义信息。
技术实现思路
本专利技术要解决的技术问题在于针对现有技术中的缺陷，提供一种基于主题识别和集成学习的微博情感分析方法。本专利技术解决其技术问题所采用的技术方案是：一种基于主题识别和集成学习的微博情感分析方法，包括以下步骤：1)从微博平台采集微博文本数据并进行预处理，获得优化文本内容以及优化文本内容词组；所述微博文本数据包括微博正文内容、微博评论内容、微文...

【技术保护点】
1.一种基于主题识别和集成学习的微博情感分析方法，其特征在于，包括以下步骤：1)从微博平台采集微博文本数据并进行预处理，获得优化文本内容以及优化文本内容词组；所述微博文本数据包括微博正文内容、微博评论内容、微文转发数以及评论数；所述预处理包括对微博评论的人工标注；所述人工标注为：对每条微博评论的情感倾向进行人工标记，若该条评论情感倾向为正向，则标记为1，否则标记为0；2)通过LDA主题模型对步骤1)中优化文本内容以及优化文本内容词语进行建模计算，识别微博正文主题信息，获得LDA主题分布概率以及LDA优化文本内容词语与主题分布概率，根据每个主题中高分词语之间的语义相似性评估主题质量，确定恰当个数的主题类别，将每条微博正文所属主题类别作为微博用户情感分析的主题特征；3)依据情感词典提取每条微博评论出现的正向情感词、负向情感词、转折词和否定词，计量正向情感词、负向情感词、转折词和否定词的数量，构建情感特征和句式特征，并结合步骤2)提取的主题特征，构建用于微博情感分析的多特征向量组合；4)将步骤3)所述的多特征向量组合作为AdaBoost模型的输入特征，选择效果最优特征组合设计情感倾向分析分类...

【技术特征摘要】
1.一种基于主题识别和集成学习的微博情感分析方法，其特征在于，包括以下步骤：1)从微博平台采集微博文本数据并进行预处理，获得优化文本内容以及优化文本内容词组；所述微博文本数据包括微博正文内容、微博评论内容、微文转发数以及评论数；所述预处理包括对微博评论的人工标注；所述人工标注为：对每条微博评论的情感倾向进行人工标记，若该条评论情感倾向为正向，则标记为1，否则标记为0；2)通过LDA主题模型对步骤1)中优化文本内容以及优化文本内容词语进行建模计算，识别微博正文主题信息，获得LDA主题分布概率以及LDA优化文本内容词语与主题分布概率，根据每个主题中高分词语之间的语义相似性评估主题质量，确定恰当个数的主题类别，将每条微博正文所属主题类别作为微博用户情感分析的主题特征；3)依据情感词典提取每条微博评论出现的正向情感词、负向情感词、转折词和否定词，计量正向情感词、负向情感词、转折词和否定词的数量，构建情感特征和句式特征，并结合步骤2)提取的主题特征，构建用于微博情感分析的多特征向量组合；4)将步骤3)所述的多特征向量组合作为AdaBoost模型的输入特征，选择效果最优特征组合设计情感倾向分析分类器，并根据步骤1)所述人工标注的微博评论数据进行训练得到最终用户情感识别分类器，应用于情感分析工作。2.根据权利要求1所述的基于主题识别和集成学习的微博情感分析方法，其特征在于，所述步骤1)中文本预处理还包括文本分词、去停用词和无关字符过滤。3.根据权利要求1所述的基于主题识别和集成学习的...

【专利技术属性】
技术研发人员：曾子明，杨倩雯，
申请(专利权)人：武汉大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人