一种融合文本信息的GIF短视频情感识别方法及系统技术方案

技术编号:20026369 阅读:36 留言:0更新日期:2019-01-06 05:08
本发明专利技术公开了一种融合文本信息的GIF短视频情感识别方法及系统,该方法首先利用3D卷积神经网络提取出GIF短视频中序列特征,同时利用卷积神经网络提取出序列中图像视觉特征;再采用卷积长短时记忆递归神经网络技术解码二者融合后的高层语义特征,计算出情感分类概率分布矩阵,将进行区间映射得到视频部分的情感得分。接着,从注释文本中的单词筛选出蕴含情感信息的词汇,采用情感打分工具计算出文本情感得分。最后,将视频情感得分与文本情感得分赋予不同的权重相加并做有效性判别,对GIF短视频进行情感分类。本发明专利技术能有效关注GIF视频中图像的情感信息,同时兼顾视频流的时序特征,并且文本信息与视频信息融合,提高了GIF视频情感分类的准确度和鲁棒性。

【技术实现步骤摘要】
一种融合文本信息的GIF短视频情感识别方法及系统
本专利技术涉及一种视频情感识别方法及系统,尤其涉及一种融合文本信息的GIF短视频情感识别方法及系统,属于计算机视觉视频情感识别

技术介绍
视频序列中的情感识别是一项涉及计算机视觉、模式识别及人工智能等多领域的研究课题。随着互联网技术的快速发展,社交媒体的日渐成熟,越来越多的人使用短视频来表达他们的观点和情感。然而短视频的情感识别由于语义鸿沟问题的存在以及视频序列的情感信息学习的困难,所以要提出一种既能学习视频序列信息又能准确理解情感语义的方法是一个很有挑战性的工作。传统的情感识别工作主要注重于可以直观表达情感的文本内容,根据文本情感研究的分析尺度的不同,可以将基于文本的情感识别分成三个等级:文档级,语句级和实体级。而近年来随着社交多媒体内容的丰富,视觉情感分析逐步成为研究的热点,根据视觉研究的内容形式的不同,可以将视觉情感分析分为两类:图像情感分析和视频情感分析。针对图像的情感分析中,文献[S.Siersdorfer,E.Minack,F.Deng,andJ.S.Hare,"Analyzingandpredictingsentimentofimagesonthesocialweb."InACMMM,pages715–718,2010.]提出从像素级特征的层面对图像的情感进行分析,然而由于情感的复杂性,底层特征并不能很好的表现图像的情感含义。随着深度学习算法的逐步发展,越来越多的文献通过深度神经网络开始理解图像语义层面的特征。文献[H.J.QuanzengYou,JieboLuoandJ.Yan,"Robustimagesentimentanalysisusingprogressivelytrainedanddomaintransferreddeepnetworks."AAAI,2015]将深度学习模型应用到视觉情感分析中,运用卷积神经网络(CNN)针对图像中的情感特征进行学习,从而获取图像的情感类别。同时,随着视觉情感分析内容复杂度的增加,很多文献提出将图像与文本共同处理的方法。文献[D.Borth,R.Ji,T.Chen,andS.-F.Chang,"Large-scalevisualsentimentontologyanddetectorsusingadjectivenounpairs."ACM,2013,pp,223-232]通过使用1200个形容词名词对(ANP)来对图像的中层情感语义特征进行描述。文献[QuanzengYou,LiangliangCao,HailinJin,JieboLuo,"RobustVisual-TextualSentimentAnlysis:WhenAttentionmeetsTree-structuredRecursiveNeuralNetworks."ACMMultimediaConference(ACMMM),Amsterdam,TheNetherlands,October2016]使用了一种注意力机制(AttentionModel)和树形LSTM(T-LSTM)将文本特征和图像特征融合,以获得更贴切情感实体的高层语义特征。但是这些成果是在单帧图像的基础上对视觉情感进行分析,无法对视频时域序列上的特征进行描述。针对视频的情感分析中,文献[Z.Cai,D.Cao,D.Lin,andR.Ji,"Aspatial-temporalvisualmid-levelontologyforgifsentimentanalysis."CEC,IEEE,pp.4860-4865,July2016]提出一种提取视频中时空视觉中层语义特征的方法,强化对视频序列的理解,以此来提高视频情感分析的效率。文献[DazhenLin,DonglinCao,andYanping,"GIFVideoSentimentDetectionUsingSemanticSequence,MathemanticalProblemsinEngineering."2017:1-11]以GIF短视频作为情感分析的研究对象,并在形容词名词对(ANP)的基础上增加了动词名词对(VNP)作为描述GIF短视频情感的语义序列,同时运用CNN和长短时记忆(LSTM)神经网络对模型进行训练。但是目前的相关文献所使用的CNN无法对GIF短视频时域上的信息进行描述,同时将视频与文本进行早期融合会使模型复杂度上升,并且视频信息与文本信息在特征层面的融合无法判断两种信息在最终情感分类中的重要性。
技术实现思路
专利技术目的:针对现有技术存在的问题,本专利技术目的在于提出一种融合文本信息的GIF短视频情感识别方法及系统,在利用GIF短视频中每帧图像的空间信息与视频序列的时序特征的同时,将文本的情感信息加以融合,实现视频的情感识别与情感丰富性判断。技术方案:为实现上述专利技术目的,本专利技术采用如下技术方案:一种融合文本信息的GIF短视频情感识别方法,包括如下步骤:(1)将带有注释文本的GIF短视频按照设定帧率分割为若干候选帧图像;(2)利用3D卷积神经网络C3D提取由设定长度的候选帧图像组成的视频片段的序列特征,同时利用卷积神经网络CNN按顺序提取相应视频片段中帧图像的图像特征,将序列特征与图像特征串联融合;(3)将步骤(2)融合后的视频片段特征输入到卷积长短时记忆神经网络中进行解码,并使用softmax分类器获得GIF短视频所属情感类别的概率矩阵,将其从分类概率区间映射到情感分值区间后,作为视频部分的情感得分;(4)将与GIF短视频内容相关联的注释文本进行分词处理、词形还原,根据构建的同义词森林筛选出情感词组标签,并输入到情感打分工具中获得注释文本的情感得分;(5)将步骤(3)与步骤(4)的视频情感得分与文本情感得分赋予不同的情感权重后相加,采用自适应阈值法对分值进行有效性判断后作为描述GIF短视频的情感丰富程度的得分,并根据分值的正负性对GIF短视频进行情感分类;所述情感权重和阈值根据样本数据的预测情感类别与真实情感类别的损失函数,采用梯度下降法自学习得到。作为优选,所述步骤(2)中包括:(2.1)将步骤(1)提取出的视频候选帧图像每连续L帧视为一个序列,使用3D卷积神经网络提取出每个序列的池化五层特征;其中L为设定的序列长度,不足L帧时对最后一帧进行过采样,填补为一个序列;(2.2)将每个序列中的图像按顺序输入卷积神经网络CNN提取出每帧图像的池化五层特征;(2.3)将步骤(2.1)中的池化五层序列特征与步骤(2.2)中的池化五层图像特征串联融合作为表示视频片段的底层输入特征。作为优选,所述步骤(3)中将分类概率区间映射到情感分值区间的方法为:对softmax输出的概率矩阵P=[p0p1p-1],取Pmax=max[p0,p1,p-1],其中p0为判断为中性情感的概率,p1为判断为积极情感的概率,p-1为判断为消极情感的概率,按照如下公式将Pmax从概率区间映射到分值区间[-1,1]得到视频情感得分Sv:作为优选,所述步骤(4)中根据情感词组中每个单词Wi在情感打分工具SentiWordNet中的情感分值,获得文本的情感得分St:其中,n为一个文本语句中单词的个数。作为优选,所述步骤(本文档来自技高网
...

【技术保护点】
1.一种融合文本信息的GIF短视频情感识别方法,其特征在于,包括如下步骤:(1)将带有注释文本的GIF短视频按照设定帧率分割为若干候选帧图像;(2)利用3D卷积神经网络C3D提取由设定长度的候选帧图像组成的视频片段的序列特征,同时利用卷积神经网络CNN按顺序提取相应视频片段中帧图像的图像特征,将序列特征与图像特征串联融合;(3)将步骤(2)融合后的视频片段特征输入到卷积长短时记忆神经网络中进行解码,并使用softmax分类器获得GIF短视频所属情感类别的概率矩阵,将其从分类概率区间映射到情感分值区间后,作为视频部分的情感得分;(4)将与GIF短视频内容相关联的注释文本进行分词处理、词形还原,根据构建的同义词森林筛选出情感词组标签,并输入到情感打分工具中获得注释文本的情感得分;(5)将步骤(3)与步骤(4)的视频情感得分与文本情感得分赋予不同的情感权重后相加,采用自适应阈值法对分值进行有效性判断后作为描述GIF短视频的情感丰富程度的得分,并根据分值的正负性对GIF短视频进行情感分类;所述情感权重和阈值根据样本数据的预测情感类别与真实情感类别的损失函数,采用梯度下降法自学习得到。

【技术特征摘要】
1.一种融合文本信息的GIF短视频情感识别方法,其特征在于,包括如下步骤:(1)将带有注释文本的GIF短视频按照设定帧率分割为若干候选帧图像;(2)利用3D卷积神经网络C3D提取由设定长度的候选帧图像组成的视频片段的序列特征,同时利用卷积神经网络CNN按顺序提取相应视频片段中帧图像的图像特征,将序列特征与图像特征串联融合;(3)将步骤(2)融合后的视频片段特征输入到卷积长短时记忆神经网络中进行解码,并使用softmax分类器获得GIF短视频所属情感类别的概率矩阵,将其从分类概率区间映射到情感分值区间后,作为视频部分的情感得分;(4)将与GIF短视频内容相关联的注释文本进行分词处理、词形还原,根据构建的同义词森林筛选出情感词组标签,并输入到情感打分工具中获得注释文本的情感得分;(5)将步骤(3)与步骤(4)的视频情感得分与文本情感得分赋予不同的情感权重后相加,采用自适应阈值法对分值进行有效性判断后作为描述GIF短视频的情感丰富程度的得分,并根据分值的正负性对GIF短视频进行情感分类;所述情感权重和阈值根据样本数据的预测情感类别与真实情感类别的损失函数,采用梯度下降法自学习得到。2.根据权利要求1所述的融合文本信息的GIF短视频情感识别方法,其特征在于,所述步骤(2)中包括:(2.1)将步骤(1)提取出的视频候选帧图像每连续L帧视为一个序列,使用3D卷积神经网络提取出每个序列的池化五层特征;其中L为设定的序列长度,不足L帧时对最后一帧进行过采样,填补为一个序列;(2.2)将每个序列中的图像按顺序输入卷积神经网络CNN提取出每帧图像的池化五层特征;(2.3)将步骤(2.1)中的池化五层序列特征与步骤(2.2)中的池化五层图像特征串联融合作为表示视频片段的底层输入特征。3.根据权利要求1所述的融合文本信息的GIF短视频情感识别方法,其特征在于,所述步骤(3)将分类概率区间映射到情感分值区间的方法为:对softmax输出的概率矩阵P=[p0p1p-1],取Pmax=max[p0,p1,p-1],其中p0为判断为中性情感的概率,p1为判断为积极情感的概率,p-1为判断为消极情感的概率,按照如下公式将Pmax从概率区间映射到分值区间[-1,1]得到视频情感得分Sv:4.根据权利要求1所述的融合文本信息的GIF短视频情感识别方法,其特征在于,所述步骤(4)中根据情感词组中每个单词Wi在情感打分工具SentiWordNet中的情感分值,获得文本的情感得分St:其中,n为情感词组中单词的个数。5.根据...

【专利技术属性】
技术研发人员:刘天亮万俊伟刘峰戴修斌
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1