【技术实现步骤摘要】
基于Adaboost和分类器加权融合的微博情感极性判别方法
本专利技术属于自然语言处理中的文本情感分析
,特别是涉及一种基于Adaboost和分类器加权融合的微博情感极性判别方法。
技术介绍
在信息急速膨胀的互联网时代,越来越多的用户倾向于通过互联网来分享自己的观点或体验,所以社交网络中存在着大量的带有主观情感色彩的短文本。新浪微博是为大众提供娱乐休闲生活服务的信息分享和交流平台,目前新浪微博的活跃用户数保持在2亿左右,其继承了传统论坛、博客等形式的优点,结合手机等移动终端,使信息能够实时快速发布和获取。微博集娱乐、社交、营销于一身,已经从满足人们“弱关系”的社交需求上逐渐演变成为大众化的舆论平台,成为一个最重要的实时信息源和一种影响力日益增强的网络舆论传播中心,越来越多机构及公众人物都通过微博来发布或传播信息。情感分析,也称为意见挖掘(OpinionMining),是对有情感色彩的文本进行分析、处理、归纳和应用的过程,涉及到自然语言处理、机器学习、信息抽取、统计学等多个研究领域。将微博这种新型的社交媒体与情感分析技术相结合,具有很高的研究价值和广泛的应用前景。微博情感分析可以应用于以下几类场景中:(1)舆情监控。舆情是指在一定的范围内,某一个具有影响力的社会热点事件发生后,大众对该事件的评价、态度、意见和情绪的总和。微博对社会及政治热点事件有强大的反应能力,可以在极短的时间内迅速积累阅读量和讨论数。(2)市场预测。消费者购买产品或服务时,往往会参考其他用户发表的评论来决定自己的消费意图。同时,商家也可以通过评论来获取用户对产品的满意度和改进方案,制 ...
【技术保护点】
一种基于Adaboost和分类器加权融合的微博情感极性判别方法,其特征在于:所述的基于Adaboost和分类器加权融合的微博情感极性判别方法包括按顺序进行的下列步骤:(1)对互联网上的微博文本进行抓取、人工标注情感极性、预处理和分词操作;(2)利用向量空间模型将上述词语用特征向量表示,并使用卡方统计值进行特征选取;(3)根据上述步骤(2)选取的特征,对上述步骤(1)中得到的语句进行特征权重表示,构建出每条微博文本对应的特征向量;(4)将步骤(3)中得到的特征向量输入到支持向量机、决策树和朴素贝叶斯三种不同的基本分类器中进行情感极性判别,由此对基本分类器进行训练,获得不同基本分类器的准确率;(5)将步骤(4)中经过训练的基本分类器应用Adaboost学习方法进行提升,并将提升后的分类器与上述基本分类器的准确率相比来判断是否有提高,若有提高,保留应用Adaboost后的分类器,否则保留基本分类器;(6)将步骤(5)得到的基本分类器和应用Adaboost提升后的分类器进行加权融合,最终得到微博文本情感极性。
【技术特征摘要】
1.一种基于Adaboost和分类器加权融合的微博情感极性判别方法,其特征在于:所述的基于Adaboost和分类器加权融合的微博情感极性判别方法包括按顺序进行的下列步骤:(1)对互联网上的微博文本进行抓取、人工标注情感极性、预处理和分词操作;(2)利用向量空间模型将上述词语用特征向量表示,并使用卡方统计值进行特征选取;(3)根据上述步骤(2)选取的特征,对上述步骤(1)中得到的语句进行特征权重表示,构建出每条微博文本对应的特征向量;(4)将步骤(3)中得到的特征向量输入到支持向量机、决策树和朴素贝叶斯三种不同的基本分类器中进行情感极性判别,由此对基本分类器进行训练,获得不同基本分类器的准确率;(5)将步骤(4)中经过训练的基本分类器应用Adaboost学习方法进行提升,并将提升后的分类器与上述基本分类器的准确率相比来判断是否有提高,若有提高,保留应用Adaboost后的分类器,否则保留基本分类器;(6)将步骤(5)得到的基本分类器和应用Adaboost提升后的分类器进行加权融合,最终得到微博文本情感极性。2.根据权利要求1所述的基于Adaboost和分类器加权融合的微博情感极性判别方法,其特征在于:在步骤(1)中,所述的对互联网上的微博文本进行抓取、人工标注情感极性、预处理和分词操作的方法是:采用网络爬虫的方法将互联网上微博用户所发表的多条微博文本抓取到本地数据库中作为数据集,然后人工标注出每条微博文本的正负极性而形成正向情感文件和负向情感文件,之后逐条对微博文本进行预处理操作,以去除网页链接、转发、回复微博时的微博用户名、话题标签、特殊字符在内的与情感表达无关的噪声信息;微博文本经过预处理后称为语句;之后利用分词工具对上述语句进行分词而得到词语,将词语作为特征表示的最小单元;分词工具使用Java开源分词工具Ansj。3.根据权利要求1所述的基于Adaboost和分类器加权融合的微博情感极性判别方法,其特征在于:在步骤(2)中,所述的利用向量空间模型将上述词语用特征向量表示,并使用卡...
【专利技术属性】
技术研发人员:韩萍,李杉,贾云飞,牛勇钢,孙佳慧,
申请(专利权)人:中国民航大学,
类型:发明
国别省市:天津,12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。