基于图像情感倾向的多模态谣言检测方法技术

技术编号:26597843 阅读:28 留言:0更新日期:2020-12-04 21:20
本发明专利技术公开了一种基于图像情感倾向的多模态谣言检测方法,一方面,此方法对图中带有文字的样本有更好的针对性。同时,区别于以往使用情感分析的方法,基于条件变分自编码器(CVAE)提出了提取图像情感倾向的方法,通过测试可以观察到其有效性。该方法只需使用单个图像作为输入便可以获得精确的检测结果,可以在谣言传播初期迅速检测并处理。

【技术实现步骤摘要】
基于图像情感倾向的多模态谣言检测方法
本专利技术涉及网络空间安全
,尤其涉及一种基于图像情感倾向的多模态谣言检测方法。
技术介绍
社交媒体的发展在加速信息传播的同时,也带来了虚假谣言信息的泛滥,往往会引发诸多不安定因素,并对经济和社会产生巨大的影响。当今社交网络平台用户早已破亿,其传播面广、传播迅速、使用面广、不受时间空间限制和其放大镜特征将信息影响力成倍放大。不切实际的谣言,“操纵”了舆论感情,误导了公众的判断,更影响了社会稳定,所以针对网络谣言的自动和迅速检测对网络空间安全具有重要意义。社交媒体谣言往往带有一些具有明显煽动性的特征,从这一角度出发,基于文本的情感分析的方法在谣言检测中大放异彩,但随着多媒体生产技术的发展,谣言逐渐以图文并茂的方式吸引和误导读者,而且图片往往视觉冲击性很强,有丰富的潜在信息可以挖掘。另外,在海量的社交媒体数据中,图像和文本信息并非以完全分离的形式呈现,仍有相当一部分图像数据中包含大量的文本,这部分文本往往蕴含着与主题联系紧密的语义信息,有助于建立图像与情感倾向的联系,但以往的多模态检测方法并不能良好地把握住这一辅助信息。
技术实现思路
本专利技术的目的是提供一种基于图像情感倾向的多模态谣言检测方法,只需使用单个图像作为输入便可以获得精确的检测结果,可以在谣言传播初期迅速检测并处理。本专利技术的目的是通过以下技术方案实现的:一种基于图像情感倾向的多模态谣言检测方法,包括:训练阶段,利用文本以及包含文字信息的图像作为训练数据;对每一组由文本及图像构成的训练样本,进行多模态特征的提取,包括:文本特征、图像特征以及图像中的文字信息特征;基于条件变分自编码器,结合图像特征、图像中的文字信息特征、文本特征、语义空间的隐变量,以及给定的情感倾向标签来更新先验分布及分类器,所述隐变量即为图像的语义;测试阶段,对于待检测图像与相应的文本,从图像中提取出文字信息特征,结合更新后的先验分布采样得到的隐变量解码生成情感倾向,再与文本特征拼接,通过分类器得到待检测图像为谣言的概率。由上述本专利技术提供的技术方案可以看出,一方面,此方法对图中带有文字的样本有更好的针对性。同时,区别于以往使用情感分析的方法,基于条件变分自编码器(CVAE)提出了“提取”图像情感倾向的方法,通过测试可以观察到其有效性。该方法只需使用单个图像作为输入便可以获得精确的检测结果,可以在谣言传播初期迅速检测并处理。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的一种基于图像情感倾向的多模态谣言检测方法的示意图;图2为本专利技术实施例提供的图像、文本、隐变量与情感倾向之间的关系示意图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。本专利技术实施例提供一种基于图像情感倾向的多模态谣言检测方法,文本的情感分析往往能从某些关键词入手,但图像的情感倾向一般不能从具体某个区域提取或显式地表示。为此,本专利技术基于条件变分自编码器(CVAE)以情感倾向为标签训练情感倾向特征判断模型,从而隐式地学习图像中的情感“特征”,同时利用光学字符识别(OCR)技术获取图片中的文本作为额外的信息辅助学习。在测试阶段,将待测社交媒体输入到模型中,根据已经学习到的情感倾向特征判断是否为谣言。本专利提出的方法对包含文本图片的社交媒体谣言效果良好,展现了一定的针对性和有效性。如图1示出了该方法的总体技术框架,主要如下:一、训练阶段。训练阶段,利用文本以及包含文字信息的图像作为训练数据(可以直接从社交平台中获取);对每一组由文本及图像构成的训练样本,进行多模态特征的提取,包括:文本特征、图像特征以及图像中的文字信息特征;基于条件变分自编码器,结合图像特征、图像中的文字信息特征、文本特征、图像语义空间的隐变量,以及给定的情感倾向标签来更新先验分布及分类器,所述隐变量即为图像的语义。训练阶段主要包括如下部分:1、数据预处理。1)原始文本内容中的符号表情、特殊字符、URL等是冗余的,这些信息全部选择忽略,通过去冗余操作,只保留文字信息,并拼接为文本序列,拼接间隙使用分隔符作为标识。2)为了方便文本信息的提取,对于图像,进行去噪处理。2、多模特征提取。1)文本特征提取。经统计,数据集中的98%的文本经过预处理之后长度均不超过150个字符,因此为了计算效率限定,设定一段文本最多包含150个单词,超出的单词丢弃掉,不足的补齐;此处给出的数值150仅为示例,在实际应用中字符长度可根据情况自行设定。之后,使用在中文维基百科上预预训练的GLoVe对文本进行词特征的向量化,并送入GRU(门控循环单元)进行特征提取,隐层状态大小为512,获得的语义向量即为文本特征E。2)图像特征提取。由于不需要基于目标层面的特征,所以区别于以往方法,本专利技术采用预训练模型ResneXt提取通用特征表示。ResneXt在计算机视觉领域多个任务都表现优越,其独特之处在于先分组卷积再残差的结构。本专利技术实施例中,只保留ResneXt特征提取的部分,经过最后一个池化后获得图像的全局特征表示向量,作为作为图像特征I。3)图中文字信息特征提取数据集图片中出现的文本包含中文、英文、数字以及字符等,本专利技术实施例中,通过开源的中文光学字符识别套件CNOCR获取图像中的OCRtoken的集合,集合中包含了图像中字符的语义信息;再利用在中文维基百科上预训练的GLoVe对文本进行向量化,最后经线性变换得到文字信息特征O。3、基于CVAE的图片情感倾向特征提取谣言的配图往往视觉冲击力很强,但不能从某一个局部区域获取整张图片的情感倾向,不像文本中存在一些有明显煽动性的词语可以入手,因此如何提取图像中的情感倾向是本专利技术研究的重点和难点。假设图像的情感倾向Y与图像特征I存在一定分布,但这个分布无法用显式的公式表示。为此,基于条件变分自编码器的设计机理,可以合理地假设决定要生成的情感倾向Y的因素为给定的图像特征I和一个语义空间内的隐变量Z(Z可以理解为配图中的语义,形式上为带有对角协方差矩阵的多元高斯分布,各向同性),而且Z和I满足一定的先验分布。同时,图中提取的文字O由图像生成,有助于Y的生成,因此,上述关系如图2所示。给定图像特征I作为条件,就能利用CNOCR提取出文字信息特征O,以及确定一个隐变量的先验分布pθ(Z|I)。每一个可能的情感倾向Y都可以,利用从这个先验分布中本文档来自技高网...

【技术保护点】
1.一种基于图像情感倾向的多模态谣言检测方法,其特征在于,包括:/n训练阶段,利用文本以及包含文字信息的图像作为训练数据;对每一组由文本及图像构成的训练样本,进行多模态特征的提取,包括:文本特征、图像特征以及图像中的文字信息特征;基于条件变分自编码器,结合图像特征、图像中的文字信息特征、文本特征、语义空间的隐变量,以及给定的情感倾向标签来更新先验分布及分类器,所述隐变量即为图像的语义;/n测试阶段,对于待检测图像与相应的文本,从图像中提取出文字信息特征,结合更新后的先验分布采样得到的隐变量解码生成情感倾向,再与文本特征拼接,通过分类器得到待检测图像为谣言的概率。/n

【技术特征摘要】
1.一种基于图像情感倾向的多模态谣言检测方法,其特征在于,包括:
训练阶段,利用文本以及包含文字信息的图像作为训练数据;对每一组由文本及图像构成的训练样本,进行多模态特征的提取,包括:文本特征、图像特征以及图像中的文字信息特征;基于条件变分自编码器,结合图像特征、图像中的文字信息特征、文本特征、语义空间的隐变量,以及给定的情感倾向标签来更新先验分布及分类器,所述隐变量即为图像的语义;
测试阶段,对于待检测图像与相应的文本,从图像中提取出文字信息特征,结合更新后的先验分布采样得到的隐变量解码生成情感倾向,再与文本特征拼接,通过分类器得到待检测图像为谣言的概率。


2.根据权利要求1所述的一种基于图像情感倾向的多模态谣言检测方法,其特征在于,进行多模态特征的提取之前进行数据预处理,包括:
对于文本进行去冗余操作,只保留文字信息,并拼接为文本序列;
对于图像,进行去噪处理。


3.根据权利要求1所述的一种基于图像情感倾向的多模态谣言检测方法,其特征在于,
通过预训练的GLoVe对文本进行词特征的向量化,并送入GRU进行特征提取,获得的语义向量即为文本特征;
通过预训练模型ResneXt提取图像的通用特征表示,将预训练模型ResneXt最后一个池化层输出的特征,作为图像特征;
通过开源的中文光学字符识别套件CNOCR获取...

【专利技术属性】
技术研发人员:毛震东张勇东赵博文付哲仁
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1