当前位置: 首页 > 专利查询>天津大学专利>正文

一种面向中文微博的情感分析方法技术

技术编号:19215649 阅读:192 留言:0更新日期:2018-10-20 06:42
本发明专利技术公开了一种面向中文微博的情感分析方法,包括以下步骤:通过检测预处理后的微博样本集L'中是否有表情符号,挑选含有表情符号的组成训练集M;使用表情符号来标记训练集M中样本的情感极性,作为弱标记,将弱标记的样本作为监督机器学习的训练样本;通过降噪方法SAT对训练集M进行降噪,得到样本集K;通过降噪后的样本集K结合监督学习方法构造分类器C;使用准确率、精确率、召回率和F值作为评价标准,并通过已标记样本集P检测分类器C的精度;所述方法还包括:依据弱标记样本进行自动更新。本发明专利技术在于利用微博中的关于情感符号的信息,研究面向中文微博的情感分析问题,解决了在使用情感符号对微博进行弱标记时产生噪声信息的问题。

【技术实现步骤摘要】
一种面向中文微博的情感分析方法
本专利技术涉及机器学习和自然语言处理领域,尤其涉及一种面向中文微博的情感分析方法。
技术介绍
目前针对中文微博的情感分类方法可以分为基于情感词典的情感分析算法和基于机器学习的情感分析算法。对于基于情感词典的方法,根据情感词典所提供的词的情感倾向性,从而进行不同粒度下的文本情感分析。对于机器学习方法,在使用各种机器学习方法的模型中,使用带有朴素贝叶斯支持向量机(NaiveBayesSupportVectorMachines,NB-SVM)的重新加权的监督方法具有最高的准确性。现在的情感分析算法通常结合这两种方法的优点来获得比较好的情感分析效果。表情符作为一种直接表达情感的方式很受现在的用户喜爱,从使用了什么表情符号可以看出用户的观点。进行中文情感分析有很多困难,很多的与英文的表达不同,中文的语言特性导致情感分析特征无法很明显的显示出来,中文微博中没有足够的情感词用来提取分析。另一个困难在于如何对微博文本中的表情符号进行处理。部分研究选择在研究时对表情符号删除,“如果我们让表情符号在句子里进行分析,那么对MaxEnt(MaximumEntropy)和SVM(SupportVectorMachines)分类器的准确性有负面影响”。一些研究选择使用文本中的某一个表情符代表整个文本的情感,“假设消息中的一个表情符号代表了整个消息的情感,并且消息的所有单词都与这种情感有关”。以上方法都未能重视微博表情符号众多的特点,在情感分析时,未对微博中出现的表情符号进行有效分析,在一定程度上影响了分析结果。
技术实现思路
本专利技术在于利用微博中的关于情感符号的信息,研究面向中文微博的情感分析问题,解决了在使用情感符号对微博进行弱标记时产生噪声信息的问题,详见下文描述:一种面向中文微博的情感分析方法,所述方法包括以下步骤:通过检测预处理后的微博样本集L'中是否有表情符号,挑选含有表情符号的组成训练集M;使用表情符号来标记训练集M中样本的情感极性,作为弱标记,将弱标记的样本作为监督机器学习的训练样本;通过降噪方法SAT对训练集M进行降噪,得到样本集K;通过降噪后的样本集K结合监督学习方法构造分类器C;使用准确率、精确率、召回率和F值作为评价标准,并通过已标记样本集P检测分类器C的精度;所述方法还包括:依据弱标记样本进行自动更新。其中,所述预处理具体为:对新的样本集提取出微博的主要内容;将表情符号转变为其所对应的情感词汇;去除分词结果中无法代表文本特征的停用词和低频词。进一步地,所述使用表情符号来标记训练集M中样本的情感极性,作为弱标记具体为:其中,pN、nN分别代表积极表情符号的加权和、以及消极表情符号情感值的加权和。进一步地,所述通过降噪方法SAT对训练集M进行降噪,得到样本集K具体为:先对训练集M进行弱标记,使用弱标记样本构建一个原始分类器,使用原始分类器对训练样本集M进行检测;将检测后得到的标记结果中,与原先弱标记不一样的样本作为错误标记,从训练样本集M中剔除,获得过滤后的样本集K。其中,所述通过降噪后的样本集K结合监督学习方法构造分类器C具体为:使用降噪后的样本集K以通过已知效果较好的BernoulliNB、MultinomiaNB、LinearSVC、NuSVC四种监督学习方法,构造分类器C。本专利技术提供的技术方案的有益效果是:1、在情感分析的过程中,通过对表情符号的处理,以及对情感词的细粒度分析,来提高情感分析的准确性;2、本专利技术解决了在使用情感符号对微博进行弱标记时产生噪声信息的问题;3、由于微博更新频率快,旧的分类器对新的微博集分类效果可能会产生影响,本方法可以依据弱标记样本自动更新,远远超过人工标记的方法效率,而且也大大降低了成本,从这个角度,此方法要优于普通的监督机器学习方法。附图说明图1为一种面向中文微博的情感分析方法的流程图;图2为SAT算法的流程图;图3为在验证降噪算法效果的实验中,样本中标记正确的样本比例变化。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面对本专利技术实施方式作进一步地详细描述。实施例1为了实现上述目的,本专利技术实施例提出一种面向中文微博的情感分析方法,包含以下步骤:101:文本预处理;其中,该步骤101包括:对文本进行分词、词性标记、以及停用词等自然语言技术。102:情感信息提取;该步骤102的目的在于抽取文本中有价值的情感信息,根据原先在情感词典中给定的情感词倾向定义,抽取微博中带倾向性特征的单元要素。103:情感分类。该步骤103利用步骤102中的情感信息提取的结果将文本单元分为若干类别,对主观性文本极性以及强度进行分类。具体实现时,步骤101对微博文本进行预处理,具体步骤包括:提取主要内容、分词、以及去停用词。该步骤为本领域技术人员所公知,本专利技术实施例对此不做赘述。上述步骤102是在步骤101的基础上进行情感信息提取,具体步骤如下:微博的表情符号可以看作是微博的一种自带标记,但是这些标记中存在一些错误,所以称之为弱标记。而利用这些弱标记样本作为监督机器学习的训练样本,则可以快速获得大量标记好的样本,节省人工标记时的人力物力上的开销。通过检测微博样本集L中是否有表情符号,挑选含有表情符号的微博组成训练集M,然后使用表情符号来标记训练集M中样本的情感倾向性来对训练文本进行弱标记。本专利技术实施例使用SAT(SelfAlternativeTraining)降噪方法对训练集M进行降噪,得到样本集K。在SAT降噪方法中,先对训练集M进行弱标记,也可以先使用弱标记样本构建一个原始分类器,接着使用此原始分类器对训练样本集M进行检测,检测得到的标记结果有一些会和原来的弱标记不一样,这些不一样的样本就可以认为是错误标记,将其从训练样本集M中剔除,获得过滤后的样本集K。在上述剔除的过程中,虽然也会剔除一些标记正确的样本,但是噪声也会随之减少。这样迭代几次,就能够降低弱标记样本中的错误标记样本的比例,使得样本集训练的分类器精度也会随之得到提高。综上所述,本专利技术实施例利用微博中的关于情感符号的信息,研究面向中文微博的情感分析问题,解决了在使用情感符号对微博进行弱标记时产生噪声信息的问题。实施例2下面结合图1-图3对实施例1中的方案进行进一步地介绍,详见下文描述:自训练算法是一种半监督学习方法,用来解决标注样本不充分的问题。它的主要思想是:通过监督学习的模型,使用已有的少数带标注样本构建一个原始分类器,用原始分类器对其他未标注样本分类,并将其中置信度最高的样本添加到标注样本集中,来扩充带标注样本集。本专利技术实施例使用的自训练算法流程如图1所示。SAT降噪方法是通过迭代训练、自我优化的方式来实现对弱标记样本降噪的目的的,其中SAT算法的流程如图2所示,SAT降噪方法的主要思想是:使用弱标记样本L作为训练集,训练分类器C,然后使用训练后的分类器C检测训练集L,将检测后结果与原弱标记结果不同的样本集记作样本M,从训练集L中剔除检测错误的样本M,得到新的训练集L',即L'=L-M,然后重新训练分类器C,再次检测优化训练集L,如此迭代,以得到噪声较小的样本集。在验证降噪算法效果的实验中,样本中标记正确的样本比例变化如图3所示。这说明SAT降噪方法取得了很好的效果,有效降低了弱标记本文档来自技高网...

【技术保护点】
1.一种面向中文微博的情感分析方法,其特征在于,所述方法包括以下步骤:通过检测预处理后的微博样本集L'中是否有表情符号,挑选含有表情符号的组成训练集M;使用表情符号来标记训练集M中样本的情感极性,作为弱标记,将弱标记的样本作为监督机器学习的训练样本;通过降噪方法SAT对训练集M进行降噪,得到样本集K;通过降噪后的样本集K结合监督学习方法构造分类器C;使用准确率、精确率、召回率和F值作为评价标准,并通过已标记样本集P检测分类器C的精度;所述方法还包括:依据弱标记样本进行自动更新。

【技术特征摘要】
1.一种面向中文微博的情感分析方法,其特征在于,所述方法包括以下步骤:通过检测预处理后的微博样本集L'中是否有表情符号,挑选含有表情符号的组成训练集M;使用表情符号来标记训练集M中样本的情感极性,作为弱标记,将弱标记的样本作为监督机器学习的训练样本;通过降噪方法SAT对训练集M进行降噪,得到样本集K;通过降噪后的样本集K结合监督学习方法构造分类器C;使用准确率、精确率、召回率和F值作为评价标准,并通过已标记样本集P检测分类器C的精度;所述方法还包括:依据弱标记样本进行自动更新。2.根据权利要求1所述的一种面向中文微博的情感分析方法,其特征在于,所述预处理具体为:对新的样本集提取出微博的主要内容;将表情符号转变为其所对应的情感词汇;去除分词结果中无法代表文本特征的停用词和低频词。3.根据权利要求1所述的一种面向中文微博的情感分析方法,其特征在于,所...

【专利技术属性】
技术研发人员:喻梅张功于瑞国于健徐天一刘春岩
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1