基于传播异质图建模的社交媒体多模态谣言检测方法技术

技术编号:26597841 阅读:24 留言:0更新日期:2020-12-04 21:20
本发明专利技术公开了一种基于传播异质图建模的社交媒体多模态谣言检测方法,在特征提取阶段,采用预训练模型提取文本和图像信息以及基于深度学习的图卷积神经网络模型抓取社交媒体的结构信息,该方法能够针对社交媒体的传播特性允许信息通过构造的图网络进行传播,从而获取到更丰富的信息,并且该方法可以充分利用有限的标记数据和大量未标记的数据,减少人工标记的资源浪费。在谣言检测阶段,利用网络结构信息和多模态信息融合后的特征,使用softmax分类器进行谣言检测。通过本专利提出的方法,可以自动快速准确的实现谣言检测,从而减少虚假信息、不实言论的传播及其造成的恶劣影响。

【技术实现步骤摘要】
基于传播异质图建模的社交媒体多模态谣言检测方法
本专利技术涉及网络空间安全
,尤其涉及一种基于传播异质图建模的社交媒体多模态谣言检测方法。
技术介绍
随着社会的发展,传统社交媒体成为用户分享信息的重要来源,社交媒体在信息传播方面有着不可忽视的影响力。但是随之而来的是各种虚假信息的病毒式传播,谣言消息的泛滥引发公众恐慌,扰乱社会秩序,影响社会舆论,操控大众焦点,成为社会极大的不稳定因素。因此,提出一个行之有效的自动检测虚假谣言信息的方法,对于维持社会生活稳定和网络空间安全具有重要的意义。为了抑制社交媒体谣言信息泛滥的问题,学术界提出了基于手工特征和机器学习的识别技术。基于手工特征的识别技术一般由专业人员判断同时需要用户参与,由于消息的正确性完全由人工判断,所以非常依赖鉴定者的能力和知识,而且谣言检测周期长等弊端非常明显,所以这种方法随着信息传播爆炸式增速,谣言规模指数式增长,逐渐的不能满足检测需求。随着人工智能技术的发展,基于机器学习的识别技术被提出。这种技术弥补了人工识别方法的缺点,提高识别的正确性,减轻人工审核造成的人力资源浪费。这类方法首先运用特征工程抽取信息特征,针对不同的谣言检测对象分析更适合的特征,或者从不同角度发现更具有代表性的特征,之后再构建分类器将事件分类为谣言和非谣言。但是这类方法依然存在缺陷,需要在特征的创建过程中引入相关专业领域知识,并且抽取过程复杂,实现成本较高。另外,谣言的传播过程具有一定的社交网络特性,比如群体性、相似性等,目前存在的大部分方法都是从谣言数据本身的内容出发,并没有充分考虑到社交网络的拓扑结构特性以及信息传播特性。同时基于内容进行的谣言检测方法大多数仅仅通过文本内容判断社交媒体信息是否属于谣言信息,社交媒体中图片现在已经成为表达态度、传递信息的又一重要载体,此外,用户相关的社交媒体平台的信息(如点赞数,转发数等)也对判断谣言提供重要依据。但是,目前的检测方案都没有考虑这些因素,因此,检测准确度有待提升。
技术实现思路
本专利技术的目的是提供一种基于传播异质图建模的社交媒体多模态谣言检测方法,可以自动快速准确的实现谣言检测,从而减少虚假信息、不实言论的传播及其造成的恶劣影响。本专利技术的目的是通过以下技术方案实现的:一种基于传播异质图建模的社交媒体多模态谣言检测方法,包括:获取包含文本、图像以及社交信息的待检测事件;基于预训练模型进行从文本与图像中各自提取文本特征与图像特征,并对社交信息进行特征编码,获得社交信息特征;基于文本特征、图像特征以及社交信息特征构建社交媒体异质信息网络图结构,通过节点级别的注意力机制来捕获不同的节点邻居的重要性,通过信息聚合,实现将不同类型节点的信息通过注意力分数聚合到一起,实现特征的融合;将融合的特征输入至分类器,获得检测结果。由上述本专利技术提供的技术方案可以看出,充分挖掘社交网络上内容丰富的文本信息和图像信息,结合基于社交网络平台的社交信息,利用多模态的信息实现社交网络谣言检测。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的一种基于传播异质图建模的社交媒体多模态谣言检测方法的网络模型示意图;图2为本专利技术实施例提供的社交媒体异质信息网络图的结构示意图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。本专利技术实施例提供一种基于传播异质图建模的社交媒体多模态谣言检测方法,图1示出了实现该方法的网络模型及主要检测流程。该方法通过构建异质信息网络,利用图注意力网络进行信息传播和结构信息学习,在充分挖掘社交媒体结构信息之外,还结合了社交媒体上内容丰富的文本信息和图像信息,利用多模态的信息实现社交媒体谣言检测。在特征提取阶段,采用预训练模型提取文本和图像信息以及基于深度学习的图卷积神经网络模型抓取社交媒体的结构信息,该方法能够针对社交媒体的传播特性允许信息通过构造的图网络进行传播,从而获取到更丰富的信息,并且该方法可以充分利用有限的标记数据和大量未标记的数据,减少人工标记的资源浪费。在谣言检测阶段,利用网络结构信息和多模态信息融合后的特征,使用softmax分类器进行谣言检测。通过本专利提出的方法,可以自动快速准确的实现谣言检测,从而减少虚假信息、不实言论的传播及其造成的恶劣影响。在实际应用中,可以将社交媒体上的消息输入到该模型方法中,在经过多模态信息处理之后,进行社交媒体异质图信息网络建模,然后通过异质图注意力卷积神经网络处理,最后该框架可以自动给出该消息是否为谣言消息的结果。在实施上,可以运行在如微博之类的社交媒体平台的后台,检测社交媒体平台上的各类消息,方便高效地进行谣言的检测以及后续处理。如图1所示,该方案主要包括如下步骤:1、获取包含文本、图像以及社交信息的待检测事件。本专利技术实施例中,待检测事件可以是社交平台上的帖子、消息等。2、基于预训练模型进行从文本与图像中各自提取文本特征与图像特征,并对社交信息进行特征编码,获得社交信息特征。1)基于预训练模型Bert进行中文文本特征提取。Bert模型是目前效果优异的通用语言表达模型,为不同的自然语言处理任务提供支持。在实际使用时,只需要根据具体任务额外加入一个输出层进行微调即可,而不用为特定任务来修改模型结果,这是预训练的Bert模型的主要优点。而且传统的句向量采用wordembedding取加权平均,无法理解上下文的语义,Bert生成的句向量的优点在于可以理解聚义,并且排除词向量加权引起的误差。本专利技术实施例中,首先,进行文本预处理:对文本进行数据清洗,去除非文本内容,并对清洗后的文本进行分词,以及引入停用词表,去除文本中无效词语;然后,将预处理后的文本输入至预训练模型Bert,得到文本特征;所述文本特征可以为1024维度的文本特征向量,使用倒数第二层的输出作为文本特征向量,序列的最大长度设置为1024,从而保证每个文本特征向量输出维度相同。ftext=Bert(text)上式中,text表示预处理后的文本;ftext表示文本特征。2)基于卷积神经网络进行图像特征提取。本专利技术实施例选择ResNeSt模型。ResNeSt模型是一种在Imagenet分类任务上的CNN(卷积神经网络)预训练模型,它相比较传统的模型有着更高的准确率且不增加参数复杂度。本专利技术实施例中,去除卷积神经网络ResNeSt中顶部全连接层,输入预处理后的图像,将网络中最后一个池化层的输出作为提取到的本文档来自技高网
...

【技术保护点】
1.一种基于传播异质图建模的社交媒体多模态谣言检测方法,其特征在于,包括:/n获取包含文本、图像以及社交信息的待检测事件;/n基于预训练模型进行从文本与图像中各自提取文本特征与图像特征,并对社交信息进行特征编码,获得社交信息特征;/n基于文本特征、图像特征以及社交信息特征构建社交媒体异质信息网络图结构,通过节点级别的注意力机制来捕获不同的节点邻居的重要性,通过信息聚合,实现将不同类型节点的信息通过注意力分数聚合到一起,实现特征的融合;/n将融合的特征输入至分类器,获得检测结果。/n

【技术特征摘要】
1.一种基于传播异质图建模的社交媒体多模态谣言检测方法,其特征在于,包括:
获取包含文本、图像以及社交信息的待检测事件;
基于预训练模型进行从文本与图像中各自提取文本特征与图像特征,并对社交信息进行特征编码,获得社交信息特征;
基于文本特征、图像特征以及社交信息特征构建社交媒体异质信息网络图结构,通过节点级别的注意力机制来捕获不同的节点邻居的重要性,通过信息聚合,实现将不同类型节点的信息通过注意力分数聚合到一起,实现特征的融合;
将融合的特征输入至分类器,获得检测结果。


2.根据权利要求1所述的一种基于传播异质图建模的社交媒体多模态谣言检测方法,其特征在于,基于预训练模型Bert进行中文文本特征提取,步骤包括:
首先,进行文本预处理:对文本进行数据清洗,去除非文本内容,并对清洗后的文本进行分词,以及引入停用词表,去除文本中无效词语;
然后,将预处理后的文本输入至预训练模型Bert,得到文本特征。


3.根据权利要求1所述的一种基于传播异质图建模的社交媒体多模态谣言检测方法,其特征在于,基于预训练的卷积神经网络进行图像特征的提取;所述卷积神经网络为去除卷积神经网络ResNeSt中顶部全连接层后的网络,网络中最后一个池化层的输出即为提取到的图像特征。


4.根据权利要求1所述的一种基于传播异质图建模的社交媒体多模态谣言检测方法,其特征在于,所述社交信息包括:数字特征与类别特征;其中,数字特征包括:待检测事件的转发数目、点赞数目与发布时间、以及相应用户的关注对象数目、粉丝数目以及发帖数目;类别特征包括:用户ID、用户类型、发布平台及事件内容是否为原创;
对于数字特征,进行Z-Sore归一化,表示为:
fnumerical=Z_Score[fretweet,fpraise,ffollower,ftime,ffollowing,ftweet]
其中,f表示特征,retweet表示转发数目,praise表示点赞数目,following表示用户的关注对象数目,time表示发布时间,follower表示用户的粉丝数目,tweet表示用户的发帖数目;
对于类别特征采用One-Hot编码,并采用truncatedSVD进行降维处理,表示为:
fcategorical=[tsvd(fuid),tsvd(fplatform),foriginal,fusr-type]
其中,uid表示用户id,platform表示用户发表该推文的工具,original表示用户发表内容是否为原创,user-type表示用户类型,tsvd(.)表示采用truncatedSVD对特征进行降维处理;
再将fnumerical与fcategorical拼接,作为社交信息特征,表示...

【专利技术属性】
技术研发人员:毛震东张勇东陈鑫王鹏辉
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1