【技术实现步骤摘要】
基于传播异质图建模的社交媒体多模态谣言检测方法
本专利技术涉及网络空间安全
,尤其涉及一种基于传播异质图建模的社交媒体多模态谣言检测方法。
技术介绍
随着社会的发展,传统社交媒体成为用户分享信息的重要来源,社交媒体在信息传播方面有着不可忽视的影响力。但是随之而来的是各种虚假信息的病毒式传播,谣言消息的泛滥引发公众恐慌,扰乱社会秩序,影响社会舆论,操控大众焦点,成为社会极大的不稳定因素。因此,提出一个行之有效的自动检测虚假谣言信息的方法,对于维持社会生活稳定和网络空间安全具有重要的意义。为了抑制社交媒体谣言信息泛滥的问题,学术界提出了基于手工特征和机器学习的识别技术。基于手工特征的识别技术一般由专业人员判断同时需要用户参与,由于消息的正确性完全由人工判断,所以非常依赖鉴定者的能力和知识,而且谣言检测周期长等弊端非常明显,所以这种方法随着信息传播爆炸式增速,谣言规模指数式增长,逐渐的不能满足检测需求。随着人工智能技术的发展,基于机器学习的识别技术被提出。这种技术弥补了人工识别方法的缺点,提高识别的正确性,减轻人工审核造成的人力资源浪费。这类方法首先运用特征工程抽取信息特征,针对不同的谣言检测对象分析更适合的特征,或者从不同角度发现更具有代表性的特征,之后再构建分类器将事件分类为谣言和非谣言。但是这类方法依然存在缺陷,需要在特征的创建过程中引入相关专业领域知识,并且抽取过程复杂,实现成本较高。另外,谣言的传播过程具有一定的社交网络特性,比如群体性、相似性等,目前存在的大部分方法都是从谣言数据本身的内容 ...
【技术保护点】
1.一种基于传播异质图建模的社交媒体多模态谣言检测方法,其特征在于,包括:/n获取包含文本、图像以及社交信息的待检测事件;/n基于预训练模型进行从文本与图像中各自提取文本特征与图像特征,并对社交信息进行特征编码,获得社交信息特征;/n基于文本特征、图像特征以及社交信息特征构建社交媒体异质信息网络图结构,通过节点级别的注意力机制来捕获不同的节点邻居的重要性,通过信息聚合,实现将不同类型节点的信息通过注意力分数聚合到一起,实现特征的融合;/n将融合的特征输入至分类器,获得检测结果。/n
【技术特征摘要】
1.一种基于传播异质图建模的社交媒体多模态谣言检测方法,其特征在于,包括:
获取包含文本、图像以及社交信息的待检测事件;
基于预训练模型进行从文本与图像中各自提取文本特征与图像特征,并对社交信息进行特征编码,获得社交信息特征;
基于文本特征、图像特征以及社交信息特征构建社交媒体异质信息网络图结构,通过节点级别的注意力机制来捕获不同的节点邻居的重要性,通过信息聚合,实现将不同类型节点的信息通过注意力分数聚合到一起,实现特征的融合;
将融合的特征输入至分类器,获得检测结果。
2.根据权利要求1所述的一种基于传播异质图建模的社交媒体多模态谣言检测方法,其特征在于,基于预训练模型Bert进行中文文本特征提取,步骤包括:
首先,进行文本预处理:对文本进行数据清洗,去除非文本内容,并对清洗后的文本进行分词,以及引入停用词表,去除文本中无效词语;
然后,将预处理后的文本输入至预训练模型Bert,得到文本特征。
3.根据权利要求1所述的一种基于传播异质图建模的社交媒体多模态谣言检测方法,其特征在于,基于预训练的卷积神经网络进行图像特征的提取;所述卷积神经网络为去除卷积神经网络ResNeSt中顶部全连接层后的网络,网络中最后一个池化层的输出即为提取到的图像特征。
4.根据权利要求1所述的一种基于传播异质图建模的社交媒体多模态谣言检测方法,其特征在于,所述社交信息包括:数字特征与类别特征;其中,数字特征包括:待检测事件的转发数目、点赞数目与发布时间、以及相应用户的关注对象数目、粉丝数目以及发帖数目;类别特征包括:用户ID、用户类型、发布平台及事件内容是否为原创;
对于数字特征,进行Z-Sore归一化,表示为:
fnumerical=Z_Score[fretweet,fpraise,ffollower,ftime,ffollowing,ftweet]
其中,f表示特征,retweet表示转发数目,praise表示点赞数目,following表示用户的关注对象数目,time表示发布时间,follower表示用户的粉丝数目,tweet表示用户的发帖数目;
对于类别特征采用One-Hot编码,并采用truncatedSVD进行降维处理,表示为:
fcategorical=[tsvd(fuid),tsvd(fplatform),foriginal,fusr-type]
其中,uid表示用户id,platform表示用户发表该推文的工具,original表示用户发表内容是否为原创,user-type表示用户类型,tsvd(.)表示采用truncatedSVD对特征进行降维处理;
再将fnumerical与fcategorical拼接,作为社交信息特征,表示...
【专利技术属性】
技术研发人员:毛震东,张勇东,陈鑫,王鹏辉,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。