基于传播异质图建模的社交媒体多模态谣言检测方法技术

技术编号：26597841 阅读：44 留言：0更新日期：2020-12-04 21:20

本发明专利技术公开了一种基于传播异质图建模的社交媒体多模态谣言检测方法，在特征提取阶段，采用预训练模型提取文本和图像信息以及基于深度学习的图卷积神经网络模型抓取社交媒体的结构信息，该方法能够针对社交媒体的传播特性允许信息通过构造的图网络进行传播，从而获取到更丰富的信息，并且该方法可以充分利用有限的标记数据和大量未标记的数据，减少人工标记的资源浪费。在谣言检测阶段，利用网络结构信息和多模态信息融合后的特征，使用softmax分类器进行谣言检测。通过本专利提出的方法，可以自动快速准确的实现谣言检测，从而减少虚假信息、不实言论的传播及其造成的恶劣影响。

全部详细技术资料下载

【技术实现步骤摘要】
基于传播异质图建模的社交媒体多模态谣言检测方法
本专利技术涉及网络空间安全
，尤其涉及一种基于传播异质图建模的社交媒体多模态谣言检测方法。
技术介绍
随着社会的发展，传统社交媒体成为用户分享信息的重要来源，社交媒体在信息传播方面有着不可忽视的影响力。但是随之而来的是各种虚假信息的病毒式传播，谣言消息的泛滥引发公众恐慌，扰乱社会秩序，影响社会舆论，操控大众焦点，成为社会极大的不稳定因素。因此，提出一个行之有效的自动检测虚假谣言信息的方法，对于维持社会生活稳定和网络空间安全具有重要的意义。为了抑制社交媒体谣言信息泛滥的问题，学术界提出了基于手工特征和机器学习的识别技术。基于手工特征的识别技术一般由专业人员判断同时需要用户参与，由于消息的正确性完全由人工判断，所以非常依赖鉴定者的能力和知识，而且谣言检测周期长等弊端非常明显，所以这种方法随着信息传播爆炸式增速，谣言规模指数式增长，逐渐的不能满足检测需求。随着人工智能技术的发展，基于机器学习的识别技术被提出。这种技术弥补了人工识别方法的缺点，提高识别的正确性，减轻人工审...

【技术保护点】
1.一种基于传播异质图建模的社交媒体多模态谣言检测方法，其特征在于，包括：/n获取包含文本、图像以及社交信息的待检测事件；/n基于预训练模型进行从文本与图像中各自提取文本特征与图像特征，并对社交信息进行特征编码，获得社交信息特征；/n基于文本特征、图像特征以及社交信息特征构建社交媒体异质信息网络图结构，通过节点级别的注意力机制来捕获不同的节点邻居的重要性，通过信息聚合，实现将不同类型节点的信息通过注意力分数聚合到一起，实现特征的融合；/n将融合的特征输入至分类器，获得检测结果。/n

【技术特征摘要】
1.一种基于传播异质图建模的社交媒体多模态谣言检测方法，其特征在于，包括：
获取包含文本、图像以及社交信息的待检测事件；
基于预训练模型进行从文本与图像中各自提取文本特征与图像特征，并对社交信息进行特征编码，获得社交信息特征；
基于文本特征、图像特征以及社交信息特征构建社交媒体异质信息网络图结构，通过节点级别的注意力机制来捕获不同的节点邻居的重要性，通过信息聚合，实现将不同类型节点的信息通过注意力分数聚合到一起，实现特征的融合；
将融合的特征输入至分类器，获得检测结果。

2.根据权利要求1所述的一种基于传播异质图建模的社交媒体多模态谣言检测方法，其特征在于，基于预训练模型Bert进行中文文本特征提取，步骤包括：
首先，进行文本预处理：对文本进行数据清洗，去除非文本内容，并对清洗后的文本进行分词，以及引入停用词表，去除文本中无效词语；
然后，将预处理后的文本输入至预训练模型Bert，得到文本特征。

3.根据权利要求1所述的一种基于传播异质图建模的社交媒体多模态谣言检测方法，其特征在于，基于预训练的卷积神经网络进行图像特征的提取；所述卷积神经网络为去除卷积神经网络ResNeSt中顶部全连接层后的网络，网络中最后一个池化层的输出即为提取到的图像特征。

4.根据权利要求1所述的一种基于传播异质图建模的社交媒体多模态谣言检测方法，其特征在于，所述社交信息包括：数字特征与类别特征；其中，数字特征包括：待检测事件的转发数目、点赞数目与发布时间、以及相应用户的关注对象数目、粉丝数目以及发帖数目；类别特征包括：用户ID、用户类型、发布平台及事件内容是否为原创；
对于数字特征，进行Z-Sore归一化，表示为：
fnumerical＝Z_Score[fretweet,fpraise,ffollower,ftime,ffollowing,ftweet]
其中，f表示特征，retweet表示转发数目，praise表示点赞数目，following表示用户的关注对象数目，time表示发布时间，follower表示用户的粉丝数目，tweet表示用户的发帖数目；
对于类别特征采用One-Hot编码，并采用truncatedSVD进行降维处理，表示为：
fcategorical＝[tsvd(fuid),tsvd(fplatform),foriginal,fusr-type]
其中，uid表示用户id，platform表示用户发表该推文的工具，original表示用户发表内容是否为原创，user-type表示用户类型，tsvd(.)表示采用truncatedSVD对特征进行降维处理；
再将fnumerical与fcategorical拼接，作为社交信息特征，表示...

【专利技术属性】
技术研发人员：毛震东，张勇东，陈鑫，王鹏辉，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人