基于Adaboost和分类器加权融合的微博情感极性判别方法技术

技术编号:17705100 阅读:35 留言:0更新日期:2018-04-14 18:01
一种基于Adaboost和分类器加权融合的微博情感极性判别方法。其包括对微博文本进行处理;利用向量空间模型将词语用特征向量表示,使用卡方统计值进行特征选取;对语句进行特征权重表示,构建出每条微博文本对应的特征向量;对基本分类器进行训练;应用Adaboost学习方法进行提升;将基本分类器和应用Adaboost提升后的分类器进行加权融合,最终得到微博文本情感极性等步骤。本发明专利技术利用特征选择和特征表示方法找到了最佳方案,在较低的特征维度下选用布尔值达到了较好的效果,大大降低了计算量。利用Adaboost方法对单一分类器进行了提升,使弱分类器的性能得到提高。

【技术实现步骤摘要】
基于Adaboost和分类器加权融合的微博情感极性判别方法
本专利技术属于自然语言处理中的文本情感分析
,特别是涉及一种基于Adaboost和分类器加权融合的微博情感极性判别方法。
技术介绍
在信息急速膨胀的互联网时代,越来越多的用户倾向于通过互联网来分享自己的观点或体验,所以社交网络中存在着大量的带有主观情感色彩的短文本。新浪微博是为大众提供娱乐休闲生活服务的信息分享和交流平台,目前新浪微博的活跃用户数保持在2亿左右,其继承了传统论坛、博客等形式的优点,结合手机等移动终端,使信息能够实时快速发布和获取。微博集娱乐、社交、营销于一身,已经从满足人们“弱关系”的社交需求上逐渐演变成为大众化的舆论平台,成为一个最重要的实时信息源和一种影响力日益增强的网络舆论传播中心,越来越多机构及公众人物都通过微博来发布或传播信息。情感分析,也称为意见挖掘(OpinionMining),是对有情感色彩的文本进行分析、处理、归纳和应用的过程,涉及到自然语言处理、机器学习、信息抽取、统计学等多个研究领域。将微博这种新型的社交媒体与情感分析技术相结合,具有很高的研究价值和广泛的应用前景。微博情感分析可以应用于以下几类场景中:(1)舆情监控。舆情是指在一定的范围内,某一个具有影响力的社会热点事件发生后,大众对该事件的评价、态度、意见和情绪的总和。微博对社会及政治热点事件有强大的反应能力,可以在极短的时间内迅速积累阅读量和讨论数。(2)市场预测。消费者购买产品或服务时,往往会参考其他用户发表的评论来决定自己的消费意图。同时,商家也可以通过评论来获取用户对产品的满意度和改进方案,制定相应的商业策略。微博中包含大量的评论信息,可以为股票走势预测、电影票房预测和产品迭代方案等提供数据支撑。(3)人工智能系统。微博情感分析可以推动人工智能系统的发展,例如:推荐系统可避免推荐有大量负面反馈的项目;自动问答系统可以将人机对话中人的情绪识别出来,使系统得出更加正确的答案,从而智能水平得到提高;机器翻译系统通过情感分析技术可以在不同的语言构成的语料中保持情感一致,使机器翻译准确率得到提高,翻译结果更符合人类日常交流。目前,中文文本情感分析方法主要有基于语义理解和基于机器学习两类方法。但这两种方法应用于微博情感分析后面临以下两个问题:①基于语义理解的方法用构建基准褒贬词库和定义表达规则的方法对语料进行模式匹配,对于表达方式复杂、不规则的微博文本处理上有很大的局限性。②基于机器学习的方法受限于所选择的分类器性能和特征选取方法,不同训练集可能会得到差异较大的分类器。
技术实现思路
为了解决上述问题,本专利技术的目的在于提供一种基于Adaboost和分类器加权融合的微博情感极性判别方法。为了达到上述目的,本专利技术提供的基于Adaboost和分类器加权融合的微博情感极性判别方法包括按顺序进行的下列步骤:(1)对互联网上的微博文本进行抓取、人工标注情感极性、预处理和分词操作;(2)利用向量空间模型将上述词语用特征向量表示,并使用卡方统计值进行特征选取;(3)根据上述步骤(2)选取的特征,对上述步骤(1)中得到的语句进行特征权重表示,构建出每条微博文本对应的特征向量;(4)将步骤(3)中得到的特征向量输入到支持向量机、决策树和朴素贝叶斯三种不同的基本分类器中进行情感极性判别,由此对基本分类器进行训练,获得不同基本分类器的准确率;(5)将步骤(4)中经过训练的基本分类器应用Adaboost学习方法进行提升,并将提升后的分类器与上述基本分类器的准确率相比来判断是否有提高,若有提高,保留应用Adaboost后的分类器,否则保留基本分类器;(6)将步骤(5)得到的基本分类器和应用Adaboost提升后的分类器进行加权融合,最终得到微博文本情感极性。在步骤(1)中,所述的对互联网上的微博文本进行抓取、人工标注情感极性、预处理和分词操作的方法是:采用网络爬虫的方法将互联网上微博用户所发表的多条微博文本抓取到本地数据库中作为数据集,然后人工标注出每条微博文本的正负极性而形成正向情感文件和负向情感文件,之后逐条对微博文本进行预处理操作,以去除网页链接、转发、回复微博时的微博用户名、话题标签、特殊字符在内的与情感表达无关的噪声信息;微博文本经过预处理后称为语句;之后利用分词工具对上述语句进行分词而得到词语,将词语作为特征表示的最小单元;分词工具使用Java开源分词工具Ansj。在步骤(2)中,所述的利用向量空间模型将上述词语用特征向量表示,并使用卡方统计值进行特征选取的方法是:首先将文本中出现的所有词语进行排序,形成一个一定规模的可查编号的词典;其中某个词语在该词典中出现的序号就是它在特征向量中的维度;对于一个数据集中某一条特定的微博文本,经过分词后,该词语出现一次,就将该词语对应的特征向量维度填入某个值,从而实现词语的特征向量表示;然后计算数据集中每一个特征的卡方统计值,并按照大小进行排序,然后分别选取卡方统计值大小为前N个、2N个……数N个特征维数下的特征,并分别计算每一特征维数下所有正向情感文件和负向情感文件的准确率、召回率、F值以及综合准确率,最后选取最高综合准确率对应的特征维数为最佳特征维数。在步骤(3)中,所述的根据上述步骤(2)选取的特征,对上述步骤(1)中得到的语句进行特征权重表示,构建出每条微博文本对应的特征向量的方法是:对上述步骤(2)选取的特征进行赋值以形成最终的特征向量,即特征权重表示。在步骤(5)中,所述的将步骤(4)中经过训练的基本分类器应用Adaboost学习方法进行提升的方法是:关注前一轮弱分类器中被错误分类的样本,把错分类的样本权重提高,同时把正确分类的样本权重降低,调整权重后再进行下一个分类器的训练。在步骤(6)中,所述的将步骤(5)得到的基本分类器和应用Adaboost提升后的分类器进行加权融合,最终得到微博文本情感极性的方法是:分类器加权融合的过程是选择不同种类的分类器对同一数据集进行训练,再通过合适的度量方法将这些分类器的结果组合在一起;加权融合为不同分类器设置权重,将分类器判定的概率函数乘以其对应的权值后进行汇总来得到最终结果;最后通过比较分类器的正向准确率和负向准确率的大小来确定微博文本的情感极性。本专利技术提供的基于Adaboost和分类器加权融合的微博情感极性判别方法具有以下优点:(1)本专利技术利用特征选择和特征表示方法找到了最佳方案,在较低的特征维度下选用布尔值达到了较好的效果,大大降低了计算量。(2)利用Adaboost方法对单一分类器进行了提升,使弱分类器的性能得到提高。(3)将三种分类器进行加权投票组合,结合了不同分类器的优势,克服了单一分类器的缺陷。附图说明图1为本专利技术提供的基于Adaboost和分类器加权融合的微博情感极性判别方法流程图。具体实施方式下面结合附图和具体实施例对本专利技术提供的基于Adaboost和分类器加权融合的微博情感极性判别方法进行详细说明。如图1所示,本专利技术提供的基于Adaboost和分类器加权融合的微博情感极性判别方法包括按顺序进行的下列步骤:(1)对互联网上的微博文本进行抓取、人工标注情感极性、预处理和分词操作;采用网络爬虫的方法将互联网上微博用户所发表的多条微博文本抓取到本地数据库中作为数据集本文档来自技高网
...
基于Adaboost和分类器加权融合的微博情感极性判别方法

【技术保护点】
一种基于Adaboost和分类器加权融合的微博情感极性判别方法,其特征在于:所述的基于Adaboost和分类器加权融合的微博情感极性判别方法包括按顺序进行的下列步骤:(1)对互联网上的微博文本进行抓取、人工标注情感极性、预处理和分词操作;(2)利用向量空间模型将上述词语用特征向量表示,并使用卡方统计值进行特征选取;(3)根据上述步骤(2)选取的特征,对上述步骤(1)中得到的语句进行特征权重表示,构建出每条微博文本对应的特征向量;(4)将步骤(3)中得到的特征向量输入到支持向量机、决策树和朴素贝叶斯三种不同的基本分类器中进行情感极性判别,由此对基本分类器进行训练,获得不同基本分类器的准确率;(5)将步骤(4)中经过训练的基本分类器应用Adaboost学习方法进行提升,并将提升后的分类器与上述基本分类器的准确率相比来判断是否有提高,若有提高,保留应用Adaboost后的分类器,否则保留基本分类器;(6)将步骤(5)得到的基本分类器和应用Adaboost提升后的分类器进行加权融合,最终得到微博文本情感极性。

【技术特征摘要】
1.一种基于Adaboost和分类器加权融合的微博情感极性判别方法,其特征在于:所述的基于Adaboost和分类器加权融合的微博情感极性判别方法包括按顺序进行的下列步骤:(1)对互联网上的微博文本进行抓取、人工标注情感极性、预处理和分词操作;(2)利用向量空间模型将上述词语用特征向量表示,并使用卡方统计值进行特征选取;(3)根据上述步骤(2)选取的特征,对上述步骤(1)中得到的语句进行特征权重表示,构建出每条微博文本对应的特征向量;(4)将步骤(3)中得到的特征向量输入到支持向量机、决策树和朴素贝叶斯三种不同的基本分类器中进行情感极性判别,由此对基本分类器进行训练,获得不同基本分类器的准确率;(5)将步骤(4)中经过训练的基本分类器应用Adaboost学习方法进行提升,并将提升后的分类器与上述基本分类器的准确率相比来判断是否有提高,若有提高,保留应用Adaboost后的分类器,否则保留基本分类器;(6)将步骤(5)得到的基本分类器和应用Adaboost提升后的分类器进行加权融合,最终得到微博文本情感极性。2.根据权利要求1所述的基于Adaboost和分类器加权融合的微博情感极性判别方法,其特征在于:在步骤(1)中,所述的对互联网上的微博文本进行抓取、人工标注情感极性、预处理和分词操作的方法是:采用网络爬虫的方法将互联网上微博用户所发表的多条微博文本抓取到本地数据库中作为数据集,然后人工标注出每条微博文本的正负极性而形成正向情感文件和负向情感文件,之后逐条对微博文本进行预处理操作,以去除网页链接、转发、回复微博时的微博用户名、话题标签、特殊字符在内的与情感表达无关的噪声信息;微博文本经过预处理后称为语句;之后利用分词工具对上述语句进行分词而得到词语,将词语作为特征表示的最小单元;分词工具使用Java开源分词工具Ansj。3.根据权利要求1所述的基于Adaboost和分类器加权融合的微博情感极性判别方法,其特征在于:在步骤(2)中,所述的利用向量空间模型将上述词语用特征向量表示,并使用卡...

【专利技术属性】
技术研发人员:韩萍李杉贾云飞牛勇钢孙佳慧
申请(专利权)人:中国民航大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1