基于卷积神经网络和集成学习的微博情感分析方法技术

技术编号：16379640 阅读：85 留言：0更新日期：2017-10-15 13:31

本发明专利技术涉及一种基于卷积神经网络和集成学习的微博情感分析方法，包括：文本预处理。向量化表示。利用卷积神经网络提取抽象特征。训练集成分类器：把得到的抽象特征输入到基分类器中，训练该样本下的弱分类器，在训练集中随机抽取不同样本，重复步骤2)3)，得到若干弱分类器；最后把所有弱分类集成起来，通过多个弱分类器分类结果的组合来决定预测集微博情感的最终分类，以取得更加准确的微博情感分析。

Sentiment analysis of micro-blog based on convolutional neural network and ensemble learning

The present invention relates to a micro-blog sentiment analysis method based on convolutional neural network and ensemble learning, including text preprocessing. Vectorization representation. Abstraction of abstract features using convolutional neural networks. Abstract: integrated training classifier characteristics are input to the classifier, the weak classifier training samples, randomly selected from different samples in the training set, repeat step 2) 3), several weak classifiers; finally all weak classifiers are integrated by the combination of multiple weak classifiers classification results to determine the final classification the prediction set micro-blog emotion, in order to obtain a more accurate analysis of micro-blog emotion.

全部详细技术资料下载

【技术实现步骤摘要】
基于卷积神经网络和集成学习的微博情感分析方法
本专利技术属于基于深度学习的文本分类
，具体涉及一种基于卷积神经网络和集成学习的微博情感分析方法
技术介绍
随着社交网络的发展和普及，人们逐渐由传统的接触式社交向非接触式社交过渡。2007年，新浪微博正式进军中国市场，开启了我国的微博时代。作为一种通过关注机制分享简短实时信息的广播式社交网络平台，微博可以在极短时间内汇聚大量有关热门事件的讨论信息，及时了解人们每时每刻的想法和最新动态。因此，准确的微博文本情感分析有助于对把握舆论动向，从而为政府相关部门提供较为合理的应对措施。目前对于文本分类的研究主要分为机器学习方法和情感词典方法两种。在基于机器学习的方法中，通常用采用的具体模型和方法有：支持向量机、K邻近算法和朴素贝叶斯模型。但由于微博文本的简短性和随意性，这些方法和模型往往得到的效果不佳。在基于情感词典的方法中，情感词典的选择十分关键。但网络文化日新月异，词语更新速度极快，加之微博文本带有表情字符的独特性，目前尚未有合适的情感词库。可喜的是，深度学习的出现给我们提供了全新的思考方式。目前深度学习已经成为互联网大数据挖掘和人工智能设计的主要研究手段之一，是机器学习研究领域的进一步拓展。其动机在于模仿人脑的机制，通过多层次非线性映射结构组合低层特征来形成更加抽象的高层特征，以发现数据的分布式特征。因此，基于深度学习的微博情感分析方法的研究对把握舆论动向、处理公众关系具有十分重要的研究价值。本专利技术利用深度学习中的卷积神经网络模型提取微博文本的抽象特征，通过集成学习的方法将Softmax分类器作为基分类器...
基于卷积神经网络和集成学习的微博情感分析方法

【技术保护点】
一种基于卷积神经网络和集成学习的微博情感分析方法，包括下列步骤：1)文本预处理：首先通过“爬虫”手段获取微博文本，采用人工标注的方式对微博文本进行情感标注，以此作为数据集；然后用中文分词工具进行分词预处理，将微博文本切成一个个单独的词，再重新组合成词序列；最后将预处理后的数据集划分为训练集和预测集，用训练集训练合理的分类器，用测试集对分类器的性能进行检测；2)向量化表示：设一条微博文本s由n个词构成，经分词预处理后表示为s＝{s1,s2,...,sn}；每个词都用k维向量表示，每一条微博文本都可以表示为一个n*k的矩阵，其中，向量值由word2vec工具训练得到，若某词未出现在word2vec的训练语料中，则采用随机初始化方式对该词对应的向量进行赋值；3)利用卷积神经网络提取抽象特征：该卷积神经网络由输入层和卷积层组成，其中输入层为某条微博文本经步骤1)和2)后得到的矩阵，而卷积层又分为卷积和池化两部分，首先利用不同长度的卷积核对输入层的矩阵依次进行卷积，并通过Sigmoid激活函数得到相应的不同长度的卷积结果；为使结果归一化，可采用池化方法选取每个卷积核卷积后最大值作为该卷积核下的局...

【技术特征摘要】
1.一种基于卷积神经网络和集成学习的微博情感分析方法，包括下列步骤：1)文本预处理：首先通过“爬虫”手段获取微博文本，采用人工标注的方式对微博文本进行情感标注，以此作为数据集；然后用中文分词工具进行分词预处理，将微博文本切成一个个单独的词，再重新组合成词序列；最后将预处理后的数据集划分为训练集和预测集，用训练集训练合理的分类器，用测试集对分类器的性能进行检测；2)向量化表示：设一条微博文本s由n个词构成，经分词预处理后表示为s＝{s1,s2,...,sn}；每个词都用k维向量表示，每一条微博文本都可以表示为一个n*k的矩阵，其中，向量值由word2vec工具训练得到，若某词未出现在word2vec的训练语料中，则采用随机初始化方式对该词对应的向量进行...

【专利技术属性】
技术研发人员：金志刚，韩玥，罗咏梅，
申请(专利权)人：天津大学，
类型：发明
国别省市：天津,12

全部详细技术资料下载我是这个专利的主人