当前位置: 首页 > 专利查询>天津大学专利>正文

基于卷积神经网络和集成学习的微博情感分析方法技术

技术编号:16379640 阅读:107 留言:0更新日期:2017-10-15 13:31
本发明专利技术涉及一种基于卷积神经网络和集成学习的微博情感分析方法,包括:文本预处理。向量化表示。利用卷积神经网络提取抽象特征。训练集成分类器:把得到的抽象特征输入到基分类器中,训练该样本下的弱分类器,在训练集中随机抽取不同样本,重复步骤2)3),得到若干弱分类器;最后把所有弱分类集成起来,通过多个弱分类器分类结果的组合来决定预测集微博情感的最终分类,以取得更加准确的微博情感分析。

Sentiment analysis of micro-blog based on convolutional neural network and ensemble learning

The present invention relates to a micro-blog sentiment analysis method based on convolutional neural network and ensemble learning, including text preprocessing. Vectorization representation. Abstraction of abstract features using convolutional neural networks. Abstract: integrated training classifier characteristics are input to the classifier, the weak classifier training samples, randomly selected from different samples in the training set, repeat step 2) 3), several weak classifiers; finally all weak classifiers are integrated by the combination of multiple weak classifiers classification results to determine the final classification the prediction set micro-blog emotion, in order to obtain a more accurate analysis of micro-blog emotion.

【技术实现步骤摘要】
基于卷积神经网络和集成学习的微博情感分析方法
本专利技术属于基于深度学习的文本分类
,具体涉及一种基于卷积神经网络和集成学习的微博情感分析方法
技术介绍
随着社交网络的发展和普及,人们逐渐由传统的接触式社交向非接触式社交过渡。2007年,新浪微博正式进军中国市场,开启了我国的微博时代。作为一种通过关注机制分享简短实时信息的广播式社交网络平台,微博可以在极短时间内汇聚大量有关热门事件的讨论信息,及时了解人们每时每刻的想法和最新动态。因此,准确的微博文本情感分析有助于对把握舆论动向,从而为政府相关部门提供较为合理的应对措施。目前对于文本分类的研究主要分为机器学习方法和情感词典方法两种。在基于机器学习的方法中,通常用采用的具体模型和方法有:支持向量机、K邻近算法和朴素贝叶斯模型。但由于微博文本的简短性和随意性,这些方法和模型往往得到的效果不佳。在基于情感词典的方法中,情感词典的选择十分关键。但网络文化日新月异,词语更新速度极快,加之微博文本带有表情字符的独特性,目前尚未有合适的情感词库。可喜的是,深度学习的出现给我们提供了全新的思考方式。目前深度学习已经成为互联网大数据挖掘和人工智能本文档来自技高网...
基于卷积神经网络和集成学习的微博情感分析方法

【技术保护点】
一种基于卷积神经网络和集成学习的微博情感分析方法,包括下列步骤:1)文本预处理:首先通过“爬虫”手段获取微博文本,采用人工标注的方式对微博文本进行情感标注,以此作为数据集;然后用中文分词工具进行分词预处理,将微博文本切成一个个单独的词,再重新组合成词序列;最后将预处理后的数据集划分为训练集和预测集,用训练集训练合理的分类器,用测试集对分类器的性能进行检测;2)向量化表示:设一条微博文本s由n个词构成,经分词预处理后表示为s={s1,s2,...,sn};每个词都用k维向量表示,每一条微博文本都可以表示为一个n*k的矩阵,其中,向量值由word2vec工具训练得到,若某词未出现在word2vec...

【技术特征摘要】
1.一种基于卷积神经网络和集成学习的微博情感分析方法,包括下列步骤:1)文本预处理:首先通过“爬虫”手段获取微博文本,采用人工标注的方式对微博文本进行情感标注,以此作为数据集;然后用中文分词工具进行分词预处理,将微博文本切成一个个单独的词,再重新组合成词序列;最后将预处理后的数据集划分为训练集和预测集,用训练集训练合理的分类器,用测试集对分类器的性能进行检测;2)向量化表示:设一条微博文本s由n个词构成,经分词预处理后表示为s={s1,s2,...,sn};每个词都用k维向量表示,每一条微博文本都可以表示为一个n*k的矩阵,其中,向量值由word2vec工具训练得到,若某词未出现在word2vec的训练语料中,则采用随机初始化方式对该词对应的向量进行...

【专利技术属性】
技术研发人员:金志刚韩玥罗咏梅
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1