当前位置: 首页 > 专利查询>厦门大学专利>正文

一种基于多模态超图学习的微博情感预测方法技术

技术编号:15541947 阅读:41 留言:0更新日期:2017-06-05 11:07
一种基于多模态超图学习的微博情感预测方法,属于多模态情感分析领域。针对在微博多通道内容上的情感预测中存在的问题,提供一种基于多模态超图学习的微博情感预测方法。包括以下步骤:1)提取微博多模态特征;2)计算微博间距离;3)构建多模态超图模型;4)超图学习。更好关联不同的模态解决模态间的独立性,在微博情感预测上有比较好的效果。

A sentiment prediction method for micro-blog based on multimodal hypergraph learning

A micro-blog sentiment prediction method based on multimodal hypergraph learning belongs to the field of multimodal emotion analysis. In view of the problems existing in the emotional prediction of multi-channel content of micro-blog, a sentiment prediction method based on multimodal hypergraph learning for micro-blog is proposed. The following steps are included: 1) to extract multi-modal features of micro-blog; 2) to calculate the distance between micro-blog; 3) to construct multimodal hypergraph model; 4) hypergraph learning. The better correlation of different modes to solve the independence between modes has a better effect on micro-blog sentiment prediction.

【技术实现步骤摘要】
一种基于多模态超图学习的微博情感预测方法
本专利技术属于多模态情感分析领域,尤其是涉及一种基于多模态超图学习的微博情感预测方法。
技术介绍
近来,随着新浪微博等大型社交平台的迅速发展,每天社交网络的多媒体数据规模不断增长,以新浪微博为例,截止2014年5月,新浪微博月活跃用户达到1.4亿,相比2013年12月增长了10.9%。作为最受欢迎的平台之一,新浪微博使得互联网用户能够在他们感兴趣的话题下表达他们的情感。因此,它吸引了大量的关于情感信息挖掘的研究,这些研究涉及一些新兴的应用包括事件检测、社交网络分析和商业推荐。微博发展的一个明显特征在于多模态信息的增长,比如图像、视频、短文本以及丰富的表情符号。主要原因在于越来越多的互联网用户使用越来越多样的设备来发布内容,也因此,发布图片和表情符号成为一种方便的形式,而非平白的文本。然而对于情感分析与预测,目前大多数的研究还是处于单一的文本通道,而非丰富的多模态信息。而根据认知科学的理论,对于情感分析,不同模态之间的差异性是很大的,不能作简单的融合,因此多模态分析是很有必要的。当前,微博情感分析方法主要利用纯文本通道信息,比如《一种基于大规模语料特征学习的微博情感分析方法(中国专利CN201510310710.9)》、《基于规则和统计模型的中文微博情感分析方法(中国专利CN201510127310.4)》、《一种融合显性和隐性特征的中文微博情感分析方法(中国专利CN201410723617.6)》、《一种中文微博的情感倾向分析方法(中国专利CN201310072472.3)》。然而,由于微博文本具有结构随意,内容较少等特点,单从简单的纯文本通道进行微博情感类别分析难度大,情感预测的准确度低。《一种面向微博短文本的情感分析方法(中国专利CN201210088366.X)》提出一种短文本情感分析方法,但是其面向特定领域和特定主题,不具有普适性。《一种利用表情符号对微博进行情感倾向分类的方法(中国专利CN201310664725.6)》提出基于表情符号词典使用朴素贝叶斯方法构建中性情感分类器和极性情感分类器的方法进行微博情感分类,然而含有表情符号的微博仅占32%,利用表情符号单一通道进行微博情感预测难以适用于所有微博。《一种基于微博群环境的微博多模态情感分析方法(中国专利CN201410006867.8)》提出的多模态情感分析方法还是基于单一文本通道上的微博原文本和评论文本。现有技术主要针对单一文本通道的微博情感分析,而微博的文本具有微博文本具有结构随意,内容较少等特点,单从简单的纯文本通道进行微博情感类别分析难度大,情感预测的准确度低。
技术实现思路
本专利技术的目的是针对在微博多通道内容(多模态)上的情感预测中存在的问题,提供一种基于多模态超图学习的微博情感预测方法。本专利技术包括以下步骤:步骤1提取微博多模态特征(FeatureExtraction),具体方法如下:步骤1.1对于文本模态,首先使用中科院自动分词工具ICTCLAS对微博文本内容进行分词(Textsegment),然后利用处理后的中文情感词典(Textworddictionary)对分词后的每条微博文本构建词袋模型(Bag-of-textual-word),作为最后筛选后的文本情感特征,所述中文情感词典由知网HowNet中文情感词典和台湾大学NTUSD中文情感词典组成,并筛选出在微博文本语料中出现的较高频度的2547个情感词,将其组成中文情感词典。第i条微博文本特征表示为Fibotw;步骤1.2对于视觉模态,首先提取图片底层视觉特征(low-levelvisualfeature),包括局部二值模式特征(LBP)、彩色直方图特征(colorhistogram)、GIST特征以及PHOW描述子词袋特征,然后使用形容词-动词对(ANP)检测器库SentiBank对提取了底层视觉特征的每张微博图片进行中层特征(mid-levelvisualfeature)的提取,获得1200个形容词-动词对的置信度值,并保留在0.8以上的置信度值,其余置为0,这样最终获得视觉情感特征(Bag-of-visual-word)。第i条微博图像特征表示为Fibovw;步骤1.3对于表情符号情感特征,首先收集文本语料里所有的表情符号,然后筛选出高频使用的49个表情符号,最后为每条微博构建表情符号词袋模型最为表情符号特征(Bag-of-emoticon-word)。第i条微博表情符号特征表示为Fiboew;步骤2计算微博间距离(Distancecomputing),具体方法如下:对于文本、视觉、表情符号三个模态特征,都使用欧氏距离进行计算,得到所有任意两条微博间三种模态的距离,分别用距离矩阵表示为Distbotw,Distbovw和Distboew;步骤3构建多模态超图模型(Hypergraphconstruction),具体方法如下:步骤3.1计算不同模态下样本间的相似度,具体方法如下:使用欧式距离计算得到的三种模态下任意两条微博i和j间的情感距离,进而计算其相似度s(i,j)。步骤3.2计算超图的关联矩阵。超图可表示成G={V,E,w},其中V表示所有结点(样本)集合,E表示所有超边(以某个结点为中心点的k近邻范围内所有点的集合)集合,w表示超边的权重集合。构建超图关联矩阵H:若结点vi在超边ej(中心结点为结点vi)内,则H(vi,ej)=s(i,j);反之,H(vi,ej)=0。步骤3.3计算结点度数和超边的度数:结点v度数的计算如下:对于所有包含结点v的超边e,将超边e对应的权重w(e)与关联矩阵H中结点v和超边e对应关联值h(v,e)相乘并累加,得到结点v度数;超边e度数的计算如下:将超边e与其包含的所有结点v对应的关联值h(v,e)作累加,得到超边e的度数。步骤3.4计算超图拉普拉斯矩阵(LaplacianMatrix)Δ和拉普拉斯正则化项Ω:Ω(f)=fTΔf其中,Dv、De、W和I分别表示结点度数对角矩阵、超边度数对角矩阵、超边权重对角矩阵和单位矩阵,f表示预测的情感类别向量。超图拉普拉斯矩阵反映了各结点的关联情况,拉普拉斯正则化项则反映了带有不同类别标签的结点的关联情况。步骤3.5构建目标函数,即最小化由拉普拉斯正则化项Ω、期望损失项Remp(f)以及关于W正则化项组成的损失函数,求得最优的f和W。其中Remp(f)=||f-y||2,表示预测类别向量f和标签向量y间的期望损失,表示L2正正则项,wi表示W对角线上的第i项,ne表示超边的个数,λ和μ分别为损失项系数和正则项系数;步骤4介绍如何在目标函数上进行超图学习来得到最优的f和W。步骤4超图学习(Hypergraphlearning),具体方法如下:使用交替迭代优化方法对步骤3.5中的目标函数进行优化,即每次迭代,先固定W,令目标函数对f求偏导数,求得当前迭代最优f,然后固定优化的f,令目标函数对W求偏导数,求得当前迭代最优W。将每次迭代后优化的f和W的值来初始化下一次迭代中f和W,如此反复迭代优化,直到损失函数值收敛,即得最终最优的f和W。其中f包含对无情感标签微博的情感预测。实验评价标准为准确度(Accuracy),反映了预测的微博情感极性类别与事先标注本文档来自技高网
...
一种基于多模态超图学习的微博情感预测方法

【技术保护点】
一种基于多模态超图学习的微博情感预测方法,其特征在于包括以下步骤:1)提取微博多模态特征;2)计算微博间距离;3)构建多模态超图模型;4)超图学习。

【技术特征摘要】
1.一种基于多模态超图学习的微博情感预测方法,其特征在于包括以下步骤:1)提取微博多模态特征;2)计算微博间距离;3)构建多模态超图模型;4)超图学习。2.如权利要求1所述一种基于多模态超图学习的微博情感预测方法,其特征在于在步骤1中,所述提取微博多模态特征的具体方法如下:步骤1.1对于文本模态,首先使用中科院自动分词工具ICTCLAS对微博文本内容进行分词,然后利用处理后的中文情感词典对分词后的每条微博文本构建词袋模型,作为最后筛选后的文本情感特征,所述中文情感词典由知网HowNet中文情感词典和台湾大学NTUSD中文情感词典组成,并筛选出在微博文本语料中出现的较高频度的2547个情感词,将其组成中文情感词典;第i条微博文本特征表示为Fibotw;步骤1.2对于视觉模态,首先提取图片底层视觉特征,包括局部二值模式特征、彩色直方图特征、GIST特征以及PHOW描述子词袋特征,然后使用形容词-动词对检测器库SentiBank对提取了底层视觉特征的每张微博图片进行中层特征的提取,获得1200个形容词-动词对的置信度值,并保留在0.8以上的置信度值,其余置为0,这样最终获得视觉情感特征;第i条微博图像特征表示为Fibovw;步骤1.3对于表情符号情感特征,首先收集文本语料里所有的表情符号,然后筛选出高频使用的49个表情符号,最后为每条微博构建表情符号词袋模型最为表情符号特征;第i条微博表情符号特征表示为Fiboew。3.如权利要求1所述一种基于多模态超图学习的微博情感预测方法,其特征在于在步骤2中,所述计算微博间距离的具体方法如下:对于文本、视觉、表情符号三个模态特征,都使用欧氏距离进行计算,得到所有任意两条微博间三种模态的距离,分别用距离矩阵表示为Distbotw,Distbovw和Distboew。4.如权利要求1所述一种基于多模态超图学习的微博情感预测方法,其特征在于在步骤3中,所述构建多模态超图模型的具体方法如下:步骤3.1计算不同模态下样本间的相似度,具体方法如下:使用欧式距离计算得到的三种模态下任意两条微博i和j间的情感距离,进而计算其相似度s(i,j);步骤3.2计算超图的关联矩阵...

【专利技术属性】
技术研发人员:纪荣嵘曹冬林陈福海
申请(专利权)人:厦门大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1