当前位置: 首页 > 专利查询>天津大学专利>正文

基于卷积神经网络和集成学习的微博情感分析方法技术

技术编号:16379640 阅读:85 留言:0更新日期:2017-10-15 13:31
本发明专利技术涉及一种基于卷积神经网络和集成学习的微博情感分析方法,包括:文本预处理。向量化表示。利用卷积神经网络提取抽象特征。训练集成分类器:把得到的抽象特征输入到基分类器中,训练该样本下的弱分类器,在训练集中随机抽取不同样本,重复步骤2)3),得到若干弱分类器;最后把所有弱分类集成起来,通过多个弱分类器分类结果的组合来决定预测集微博情感的最终分类,以取得更加准确的微博情感分析。

Sentiment analysis of micro-blog based on convolutional neural network and ensemble learning

The present invention relates to a micro-blog sentiment analysis method based on convolutional neural network and ensemble learning, including text preprocessing. Vectorization representation. Abstraction of abstract features using convolutional neural networks. Abstract: integrated training classifier characteristics are input to the classifier, the weak classifier training samples, randomly selected from different samples in the training set, repeat step 2) 3), several weak classifiers; finally all weak classifiers are integrated by the combination of multiple weak classifiers classification results to determine the final classification the prediction set micro-blog emotion, in order to obtain a more accurate analysis of micro-blog emotion.

【技术实现步骤摘要】
基于卷积神经网络和集成学习的微博情感分析方法
本专利技术属于基于深度学习的文本分类
,具体涉及一种基于卷积神经网络和集成学习的微博情感分析方法
技术介绍
随着社交网络的发展和普及,人们逐渐由传统的接触式社交向非接触式社交过渡。2007年,新浪微博正式进军中国市场,开启了我国的微博时代。作为一种通过关注机制分享简短实时信息的广播式社交网络平台,微博可以在极短时间内汇聚大量有关热门事件的讨论信息,及时了解人们每时每刻的想法和最新动态。因此,准确的微博文本情感分析有助于对把握舆论动向,从而为政府相关部门提供较为合理的应对措施。目前对于文本分类的研究主要分为机器学习方法和情感词典方法两种。在基于机器学习的方法中,通常用采用的具体模型和方法有:支持向量机、K邻近算法和朴素贝叶斯模型。但由于微博文本的简短性和随意性,这些方法和模型往往得到的效果不佳。在基于情感词典的方法中,情感词典的选择十分关键。但网络文化日新月异,词语更新速度极快,加之微博文本带有表情字符的独特性,目前尚未有合适的情感词库。可喜的是,深度学习的出现给我们提供了全新的思考方式。目前深度学习已经成为互联网大数据挖掘和人工智能设计的主要研究手段之一,是机器学习研究领域的进一步拓展。其动机在于模仿人脑的机制,通过多层次非线性映射结构组合低层特征来形成更加抽象的高层特征,以发现数据的分布式特征。因此,基于深度学习的微博情感分析方法的研究对把握舆论动向、处理公众关系具有十分重要的研究价值。本专利技术利用深度学习中的卷积神经网络模型提取微博文本的抽象特征,通过集成学习的方法将Softmax分类器作为基分类器合成效果更好的集成分类器,从而对微博文本进行更加准确的分类和分析。
技术实现思路
本专利技术所要解决的技术问题是:提供一种更加准确的微博文本情感分析方法,在已知情感的微博文本数据集基础上训练一个合理的分类器,利用该分类器对测试集微博文本进行预测,试图使得到的预测正确率最高。本专利技术的技术方案如下:一种基于卷积神经网络和集成学习的微博情感分析方法,包括下列步骤:1)文本预处理:首先通过“爬虫”手段获取微博文本,采用人工标注的方式对微博文本进行情感标注,以此作为数据集;然后用中文分词工具进行分词预处理,将微博文本切成一个个单独的词,再重新组合成词序列;最后将预处理后的数据集划分为训练集和预测集,用训练集训练合理的分类器,用测试集对分类器的性能进行检测。2)向量化表示:设一条微博文本s由n个词构成,经分词预处理后表示为s={s1,s2,...,sn};每个词都用k维向量表示,每一条微博文本都可以表示为一个n*k的矩阵,其中,向量值由word2vec工具训练得到,若某词未出现在word2vec的训练语料中,则采用随机初始化方式对该词对应的向量进行赋值。3)利用卷积神经网络提取抽象特征:该卷积神经网络由输入层和卷积层组成,其中输入层为某条微博文本经步骤1)和2)后得到的矩阵,而卷积层又分为卷积和池化两部分,首先利用不同长度的卷积核对输入层的矩阵依次进行卷积,并通过Sigmoid激活函数得到相应的不同长度的卷积结果;为使结果归一化,可采用池化方法选取每个卷积核卷积后最大值作为该卷积核下的局部特征,用局部特征代替整条微博的抽象特征。4)训练集成分类器。把步骤3)中得到的抽象特征输入到基分类器中,训练该样本下的弱分类器,在训练集中随机抽取不同样本,重复步骤2)3),得到若干弱分类器;最后把所有弱分类集成起来,通过多个弱分类器分类结果的组合来决定预测集微博情感的最终分类,以取得更加准确的微博情感分析。本专利技术优点在于:引入深度学习中的卷积神经网,相比传统的机器学习模型,提取的微博文本特征更加抽象、更具代表性。同时在分类器的训练过程中,采用集成学习的思想,与单个分类器相比,这种集成学习、共同决策的方法可以提高微博文本情感分析的准确率。本专利技术可以快速准确地对未知情感的微博文本做出情感分析,对于把握舆论动向、金融决策分析,恐怖组织识别等有重要的应用价值。附图说明图1为基于卷积神经网络和集成学习的微博情感分析机制图2为卷积神经网络模型在微博文本中的应用具体实施方式本专利技术提出了一种基于卷积神经网络和集成学习的微博情感分析方法,在提取微博文本抽象特征的基础上运用多个分类器共同决策微博情感,使得情感分析更加精确。图1显示了本方法提出的基于卷积神经网络和集成学习的微博情感分析机制。图2显示了卷积神经网络模型在微博文本处理中的具体应用。具体实施步骤如下:1)首先采用爬虫的手段采集微博文本数据集,并根据情感的不同对其进行情感划分,如积极、消极和中立;或者是主观和客观;再或者是更加细致的情感,如愤怒、生气、紧张、开心、难过等等。然后用现有的分词系统对微博文本进行分词处理,现有的分词系统有百度分词、结巴分词和中科院分词系统等等。如果一条微博文本s由n个词组构成,经分词预处理后可以表示为s={s1,s2,...,sn},这里包括表情字符转化后的对应词组。2)用Word2vec工具对大规模语料进行训练,将词转化为数值型向量,每个词组选取其k维特征构建k维向量。如果微博文本中的词Si出现在训练语料中,那么就将Word2vec训练出的向量作为该词的词向量;如果未出现在训练语料中,就采取随机初始化的方式进行向量表示。这样每一条微博短文本都一个n*k的矩阵。3)划分训练集和测试集,采用随机抽样的方式从训练集提取出m个训练样本。4)利用卷积神经网络提取抽象特征。该模型每层卷积神经网络都由输入层和卷积层组成。第一层卷积网络的输入层为分词预处理和向量化表示后的矩阵。卷积层分为卷积和池化两部分,该层的核心思想是运用卷积获取文本的深层特征,同时配合池化来降低特征维度,归一化特征。每一个卷积核w为h*k的矩阵,h为卷积核长度。用该卷积核依次对文本进行卷积,过程如下:zi=f(w*si:i+h-1+b)其中,si:i+h-1为由第i个组到第i+h-1个词组所构成的长度为h的连续文本片段,*为卷积运算符,w为长度为h的卷积核,b为偏置项,f为激活函数ReLu(RectifiedLinearUnits)。当卷积核w对整个文本作为卷积运算后,即可生成特征集Z={z1,z2,…,zn+h-1}。由于卷积核长度h取值不同,得到的特征集长度也有所不同,为了归一化和降低权值数量,本文采用池化操作,将特征集中的最大值作为代表特征。这样,每一个卷积核均可以得到一个长度为k维的向量。4)训练基分类器。把步骤3)中得到的抽象特征输入到基分类器Softmax中,该分类器通过计算该文本属于各类别的概率来判断其类别的划分:其中,Pj为该文本属于类别j的概率,X,w,b分别为分类层的输入、权值矩阵和偏置项,L为类别数量。5)用集成分类器对预测集文本进行分类。通过步骤3)4)可以在每一个训练样本上训练出一个弱分类器,因此一共可以训练出m个弱分类器,可采用投票法共同决策测试集微博文本的情感类别。本文档来自技高网
...
基于卷积神经网络和集成学习的微博情感分析方法

【技术保护点】
一种基于卷积神经网络和集成学习的微博情感分析方法,包括下列步骤:1)文本预处理:首先通过“爬虫”手段获取微博文本,采用人工标注的方式对微博文本进行情感标注,以此作为数据集;然后用中文分词工具进行分词预处理,将微博文本切成一个个单独的词,再重新组合成词序列;最后将预处理后的数据集划分为训练集和预测集,用训练集训练合理的分类器,用测试集对分类器的性能进行检测;2)向量化表示:设一条微博文本s由n个词构成,经分词预处理后表示为s={s1,s2,...,sn};每个词都用k维向量表示,每一条微博文本都可以表示为一个n*k的矩阵,其中,向量值由word2vec工具训练得到,若某词未出现在word2vec的训练语料中,则采用随机初始化方式对该词对应的向量进行赋值;3)利用卷积神经网络提取抽象特征:该卷积神经网络由输入层和卷积层组成,其中输入层为某条微博文本经步骤1)和2)后得到的矩阵,而卷积层又分为卷积和池化两部分,首先利用不同长度的卷积核对输入层的矩阵依次进行卷积,并通过Sigmoid激活函数得到相应的不同长度的卷积结果;为使结果归一化,可采用池化方法选取每个卷积核卷积后最大值作为该卷积核下的局部特征,用局部特征代替整条微博的抽象特征;4)训练集成分类器;把步骤3)中得到的抽象特征输入到基分类器中,训练该样本下的弱分类器,在训练集中随机抽取不同样本,重复步骤2)3),得到若干弱分类器;最后把所有弱分类集成起来,通过多个弱分类器分类结果的组合来决定预测集微博情感的最终分类,以取得更加准确的微博情感分析。...

【技术特征摘要】
1.一种基于卷积神经网络和集成学习的微博情感分析方法,包括下列步骤:1)文本预处理:首先通过“爬虫”手段获取微博文本,采用人工标注的方式对微博文本进行情感标注,以此作为数据集;然后用中文分词工具进行分词预处理,将微博文本切成一个个单独的词,再重新组合成词序列;最后将预处理后的数据集划分为训练集和预测集,用训练集训练合理的分类器,用测试集对分类器的性能进行检测;2)向量化表示:设一条微博文本s由n个词构成,经分词预处理后表示为s={s1,s2,...,sn};每个词都用k维向量表示,每一条微博文本都可以表示为一个n*k的矩阵,其中,向量值由word2vec工具训练得到,若某词未出现在word2vec的训练语料中,则采用随机初始化方式对该词对应的向量进行...

【专利技术属性】
技术研发人员:金志刚韩玥罗咏梅
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1