一种面向中文微博的情感分析方法技术

技术编号：19215649 阅读：192 留言：0更新日期：2018-10-20 06:42

本发明专利技术公开了一种面向中文微博的情感分析方法，包括以下步骤：通过检测预处理后的微博样本集L'中是否有表情符号，挑选含有表情符号的组成训练集M；使用表情符号来标记训练集M中样本的情感极性，作为弱标记，将弱标记的样本作为监督机器学习的训练样本；通过降噪方法SAT对训练集M进行降噪，得到样本集K；通过降噪后的样本集K结合监督学习方法构造分类器C；使用准确率、精确率、召回率和F值作为评价标准，并通过已标记样本集P检测分类器C的精度；所述方法还包括：依据弱标记样本进行自动更新。本发明专利技术在于利用微博中的关于情感符号的信息，研究面向中文微博的情感分析问题，解决了在使用情感符号对微博进行弱标记时产生噪声信息的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向中文微博的情感分析方法
本专利技术涉及机器学习和自然语言处理领域，尤其涉及一种面向中文微博的情感分析方法。
技术介绍
目前针对中文微博的情感分类方法可以分为基于情感词典的情感分析算法和基于机器学习的情感分析算法。对于基于情感词典的方法，根据情感词典所提供的词的情感倾向性，从而进行不同粒度下的文本情感分析。对于机器学习方法，在使用各种机器学习方法的模型中，使用带有朴素贝叶斯支持向量机(NaiveBayesSupportVectorMachines,NB-SVM)的重新加权的监督方法具有最高的准确性。现在的情感分析算法通常结合这两种方法的优点来获得比较好的情感分析效果。表情符作为一种直接表达情感的方式很受现在的用户喜爱，从使用了什么表情符号可以看出用户的观点。进行中文情感分析有很多困难，很多的与英文的表达不同，中文的语言特性导致情感分析特征无法很明显的显示出来，中文微博中没有足够的情感词用来提取分析。另一个困难在于如何对微博文本中的表情符号进行处理。部分研究选择在研究时对表情符号删除，“如果我们让表情符号在句子里进行分析，那么对MaxEnt(MaximumEntropy)和SVM(SupportVectorMachines)分类器的准确性有负面影响”。一些研究选择使用文本中的某一个表情符代表整个文本的情感，“假设消息中的一个表情符号代表了整个消息的情感，并且消息的所有单词都与这种情感有关”。以上方法都未能重视微博表情符号众多的特点，在情感分析时，未对微博中出现的表情符号进行有效分析，在一定程度上影响了分析结果。
技术实现思路
本专利技术在于利用微博中的关于...

【技术保护点】
1.一种面向中文微博的情感分析方法，其特征在于，所述方法包括以下步骤：通过检测预处理后的微博样本集L'中是否有表情符号，挑选含有表情符号的组成训练集M；使用表情符号来标记训练集M中样本的情感极性，作为弱标记，将弱标记的样本作为监督机器学习的训练样本；通过降噪方法SAT对训练集M进行降噪，得到样本集K；通过降噪后的样本集K结合监督学习方法构造分类器C；使用准确率、精确率、召回率和F值作为评价标准，并通过已标记样本集P检测分类器C的精度；所述方法还包括：依据弱标记样本进行自动更新。

【技术特征摘要】
1.一种面向中文微博的情感分析方法，其特征在于，所述方法包括以下步骤：通过检测预处理后的微博样本集L'中是否有表情符号，挑选含有表情符号的组成训练集M；使用表情符号来标记训练集M中样本的情感极性，作为弱标记，将弱标记的样本作为监督机器学习的训练样本；通过降噪方法SAT对训练集M进行降噪，得到样本集K；通过降噪后的样本集K结合监督学习方法构造分类器C；使用准确率、精确率、召回率和F值作为评价标准，并通过已标记样本集P检测分类器C的精度；所述方法还包括：依据弱标记样本进行自动更新。2.根据权利要求1所述的一种面向中文微博的情感分析方法，其特征在于，所述预处理具体为：对新的样本集提取出微博的主要内容；将表情符号转变为其所对应的情感词汇；去除分词结果中无法代表文本特征的停用词和低频词。3.根据权利要求1所述的一种面向中文微博的情感分析方法，其特征在于，所...

【专利技术属性】
技术研发人员：喻梅，张功，于瑞国，于健，徐天一，刘春岩，
申请(专利权)人：天津大学，
类型：发明
国别省市：天津,12

全部详细技术资料下载我是这个专利的主人