一种基于深度学习的图文融合微博情感分析方法技术

技术编号:18657989 阅读:78 留言:0更新日期:2018-08-11 14:25
本发明专利技术公开了一种基于深度学习的图文融合微博情感分析方法,其特征在于,包括如下步骤:S1采集图文微博数据并进行预处理;S2提取图文微博文本情感特征;S3提取图文微博图片情感特征;S4进行图文融合微博情感分析。这种方法通过结合微博中的图片和文本,能更加准确地判断用户的情感倾向,能提高情感分析的准确率。

A sentiment analysis method based on deep learning for text and text fusion of micro-blog

The invention discloses an image-text fusion micro-blog emotion analysis method based on in-depth learning, which is characterized by the following steps: S1 collects the image-text micro-blog data and preprocesses it; S2 extracts the image-text micro-blog text emotion characteristics; S3 extracts the image emotion characteristics of the image-text micro-blog; S4 carries out the image-text fusion micro-blog emotion analysis. By combining pictures and text in micro-blog, this method can more accurately judge the user's emotional orientation and improve the accuracy of emotional analysis.

【技术实现步骤摘要】
一种基于深度学习的图文融合微博情感分析方法
本专利技术属于情感分析领域,特别是涉及一种基于深度学习的图文融合微博情感分析方法。
技术介绍
随着网络技术的发展和移动设备的普及,人们与互联网的信息交互越来越频繁,各大社交网络平台的用户数量也不断增加,诸如新浪微博、Twitter和Facebook等社交网络平台已经成为了人们发表观点和记录生活的重要工具。通过挖掘用户发表在社交平台上海量信息所蕴含的情感将有助于舆情分析、个性化推荐和个性化搜索,因此,微博情感分析研究对于学术界和工业界具有巨大的科研价值和应用价值。现有的大多数情感分析研究主要以文本为主,然而用户在微博平台上发表的信息除了140字左右的短文本外,还包含了大量的符号表情、图片、语音和视频等多种形式的信息,这些不同形式的信息在情感分析中往往具有互补作用,充分地发挥这种互补作用,有时通过融合微博中多种形式的数据可以更加准确地判断用户的情感倾向。此外,目前的微博情感分析方法主要有基于情感词典的方法和基于机器学习的方法两种。基于情感词典的方法首先构建情感词典,然后根据新词与情感词典中词语的相似度来新词的情感极性,该方法受限于情感词典的覆盖面,尤其对于微博这样网络新词频现的社交媒体,更是难以应付;基于机器学习的方法主要采用SVM、K-means、NB等机器学习模型提取微博情感特征,然而由于微博的随意性和简短性,这些方法往往也效果不佳。
技术实现思路
本专利技术的目的是针对现有技术的不足,而提供一种基于深度学习的图文融合微博情感分析方法。这种方法通过结合微博中的图片和文本,能更加准确地判断用户的情感倾向,能提高情感分析的准确率。实现本专利技术目的的技术方案是:一种基于深度学习的图文融合微博情感分析方法,包括如下步骤:S1采集图文微博数据并进行预处理:从微博上采集图文微博数据并进行预处理;S2提取图文微博文本情感特征:采用双向长短期记忆神经网络(Bi-directionalLongShort-TermMemory,简称BLSTM)提取图文微博文本情感特征;S3提取图文微博图片情感特征:采用卷积神经网络(ConvolutionalNeuralNetwork,简称CNN)提取图文微博图片情感特征;S4进行图文融合微博情感分析:融合步骤S2得到的文本情感特征和步骤S3得到的图片情感特征构建图文微博情感分类模型,进行图文融合微博情感分析。步骤S1中所述的预处理包括:S11:先采用网络爬虫采集微博数据、并进行过滤,只保留微博数据中的图文微博数据,然后采用人工标注的方式对图文微博进行情感标注,以此作为数据集;S12:采用中文分词工具jieba对微博文本进行分词处理,并采用word2vec工具在大规模语料上训练,将句子转化成对应的词向量矩阵,如果一条微博文本s由n个词语构成,经分词处理之后可表示为s=(w1,w2,w3,…,wn),将每个词语w表示为k维实数向量,则最终每条微博就表示为n×k的矩阵;S13:将图文微博中每张微博图片都归一化为227像素×227像素大小的RGB三通道图片。步骤S2中所述的提取图文微博图片情感特征包括:S21构建双向长短期记忆神经网络:为了提取微博文本上下文相关的情感特征,本技术方案构建了双向的长短期记忆神经网络,所述双向长短期记忆神经网络包括Input层、LSTM(长短期记忆神经网络)层和全连接层组成,其中LSTM层包含t个LSTM单元,LSTM单元之间采用平行但方向相反的方式连接,用于提取微博文本上下文相关的情感特征;S22训练双向长短期记忆神经网络:将微博文本数据集按照4:1比例拆分成训练集和测试集,在训练集上训练双向长短期记忆神经网络,训练过程中为了防止过拟合,设置Dropout率为0.5,即每次迭代中随机放弃一部分训练参数,双向长短期记忆神经网络采用Adam算法更新网络各层的参数,迭代次数为100代;S23利用训练好的双向长短期记忆神经网络模型提取微博文本特征:将m个n×k维矩阵表示的微博文本由Input层输入LSTM层,LSTM层的特征提取分为两个过程,第一个过程为在LSTM单元间的正向传播特征提取,第二个过程为在LSTM单元间的反向传播特征提取,最终将两个方向最后一个LSTM单元的输出连接后作为LSTM层最终的输出,正向传播和反向传播LSTM的计算公式如下:其中ct表示t时刻LSTM的单元状态,ht表示隐含状态,xt为输入,ct-1、ht-1和ct+1、ht+1表示上一时刻的单元状态和隐含状态,两个方向LSTM的参数是共享的,LSTM层的输出最终表示为其中n是微博文本序列的长度;S24特征映射:将LSTM层的输出输入到全连接层进行特征降维,经sigmoid激活函数将特征映射到(0,1)区间内,即得到微博文本情感极性的概率,若概率P>0.5,则微博文本表达的情感为正,反之表达的情感为负。步骤S3中所述的提取图文微博图片情感特征包括:S31构建卷积神经网络模型:所述卷积神经网络模型为在CaffeNet网络的基础之上,去掉最后的全连接层,再连接一个输出维度为2的全连接层进行特征降维,最后采用softmax作为输出映射函数;S32训练卷积神经网络模型:采用参数迁移的方式训练卷积神经网络模型,将在ImageNet上训练的CaffeNet网络模型的前7层参数迁移到步骤S31构建卷积神经网络模型中,由于边缘、纹理、颜色等特征是图片共有的,所以通过迁移CaffeNet网络的卷积和池化层的参数可以避免从头学习这些特征,大大提高模型的训练效率,参数迁移之后,设置网络的学习率为0.0001,动量0.9,采用fine-tuning的方式微调训练卷积神经网络模型,不断更新卷积神经网络模型各层的参数,使卷积神经网络模型适用于微博图片情感分析任务;S33利用步骤S32训练好的卷积神经网络模型提取微博图片特征:将m张227像素×227像素大小的RGB三通道图片输入到CNN网络中,经过卷积和池化特征提取之后,每张图片表示成4096维的特征向量,采用全连接层对特征向量进行降维处理,最后采用softmax函数计算图片情感极性属于正负的概率:其中z为特征向量,k为类别的数量,第i张图片经过softmax映射成一个k维的实数向量σ(z)=(P1,P2,P3,…,Pk),其中P代表图片为某一类情感的概率,在情感二分类问题中,取k=2,因此得到2维的实数向量(P1,P2),若P1>P2,则图片表达的情感极性为正;若P1<P2,则图片表达的情感极性为负。步骤S4中所述的图文融合微博情感分析包括:S41:在判断一条微博的情感极性时,微博图片和对应的文本往往相辅相成,共同决定着整条微博的情感极性,依据如下模型融合公式采用latefusion的模型融合:P=λPt+(1-λ)Pi,λ∈[0,1]其中Pt为步骤S23输出的文本情感极性概率,Pi为步骤S33输出的微博图片的情感极性概率,λ为融合权重,P为融合后的概率,即图文微博的情感极性概率;S42:在测试集上对融合权重λ进行调整,当λ取值为0.42时,融合模型具有最高的情感分类准确率,这说明在图文微博情感分析过程中,微博文本和微博图片对最终的情感极性判断具有不同的贡献。本技术方案与现有技术相比,其显本文档来自技高网...

【技术保护点】
1.一种基于深度学习的图文融合微博情感分析方法,其特征在于,包括如下步骤:S1采集图文微博数据并进行预处理:从微博上采集图文微博数据并进行预处理;S2提取图文微博文本情感特征:采用双向长短期记忆神经网络提取图文微博文本情感特征;S3提取图文微博图片情感特征:采用卷积神经网络提取图文微博图片情感特征;S4进行图文融合微博情感分析:融合步骤S2得到的文本情感特征和步骤S3得到的图片情感特征构建图文微博情感分类模型,进行图文融合微博情感分析。

【技术特征摘要】
1.一种基于深度学习的图文融合微博情感分析方法,其特征在于,包括如下步骤:S1采集图文微博数据并进行预处理:从微博上采集图文微博数据并进行预处理;S2提取图文微博文本情感特征:采用双向长短期记忆神经网络提取图文微博文本情感特征;S3提取图文微博图片情感特征:采用卷积神经网络提取图文微博图片情感特征;S4进行图文融合微博情感分析:融合步骤S2得到的文本情感特征和步骤S3得到的图片情感特征构建图文微博情感分类模型,进行图文融合微博情感分析。2.根据权利要求1所述的基于深度学习的图文融合微博情感分析方法,其特征在于,步骤S1中所述的预处理包括:S11:先采用网络爬虫采集微博数据、并进行过滤,只保留微博数据中的图文微博数据,然后采用人工标注的方式对图文微博进行情感标注,以此作为数据集;S12:采用中文分词工具jieba对微博文本进行分词处理,并采用word2vec工具在大规模语料上训练,将句子转化成对应的词向量矩阵,如果一条微博文本s由n个词语构成,经分词处理之后可表示为s=(w1,w2,w3,…,wn),将每个词语w表示为k维实数向量,则最终每条微博就表示为n×k的矩阵;S13:将图文微博中每张微博图片都归一化为227像素×227像素大小的RGB三通道图片。3.根据权利要求1所述的基于深度学习的图文融合微博情感分析方法,其特征在于,步骤S2中所述的提取图文微博图片情感特征包括:S21构建双向长短期记忆神经网络:所述双向长短期记忆神经网络包括Input层、LSTM层和全连接层组成,其中LSTM层包含t个LSTM单元,LSTM单元之间采用平行但方向相反的方式连接;S22训练双向长短期记忆神经网络:将微博文本数据集按照4:1比例拆分成训练集和测试集,在训练集上训练双向长短期记忆神经网络,设置Dropout率为0.5,即每次迭代中随机放弃一部分训练参数,双向长短期记忆神经网络采用Adam算法更新网络各层的参数,迭代次数为100代;S23利用训练好的双向长短期记忆神经网络模型提取微博文本特征:将m个n×k维矩阵表示的微博文本由Input层输入LSTM层,LSTM层的特征提取分为两个过程,第一个过程为在LSTM单元间的正向传播特征提取,第二个过程为在LSTM单元间的反向传播特征提取,最终将两个方向最后一个LSTM单元的输出连接后作为LSTM层最终的输出,正向传播和反向传播LSTM的计算公式如下:其中ct表示t时刻LSTM的单元状态,ht表示隐含状态,xt为输入,ct-1、ht-1和ct+1、ht+1表...

【专利技术属性】
技术研发人员:缪裕青汪俊宏刘同来蔡国永文益民缪永进邹魏
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1