一种面向传播不确定性的谣言检测方法及装置制造方法及图纸

技术编号:30755499 阅读:80 留言:0更新日期:2021-11-10 12:09
本发明专利技术涉及一种面向传播不确定性的谣言检测方法及装置,包括:获取社交网络中源博文与转发博文的文本数据及若干传播数据;基于文本数据提取的文本特征,利用传播数据分别构建传播方向的初始传播图G

【技术实现步骤摘要】
一种面向传播不确定性的谣言检测方法及装置


[0001]本专利技术涉及数据挖掘
,具体涉及一种面向传播不确定性的谣言检测方法及装置。

技术介绍

[0002]在新媒体时代,社交媒体网站为用户获取信息、表达意见和相互交流提供了巨大的便利。越来越多的用户热衷于参与社交媒体中热点话题的讨论,并且由于平台的便利性等,使得用户生成内容可以迅速达到广泛受众。然而,社交媒体中也滋生了大量谣言信息的产生与传播,给社会带来危害,严重影响着人们的日常生活和社会的健康发展。因此,如何及时准确地检测出谣言是社交网络分析领域中一个迫切需要的研究课题,有重要的研究意义和现实应用意义。
[0003]随着时间的推移,源博文通过一系列的转发或回复传播关系形成了其特定的传播结构。现有研究发现,与真实信息相比,谣言的传播更快、更广、更深。这些结构特征为研究者利用传播数据检测谣言提供了可能。随着深度学习(Deep Learning)和数据挖掘(DataMining)技术的发展,许多方法将源博文的传播数据建模为树结构或图结构,利用深度学习工具学习源博文的特征表示,构建分类器进行检测。
[0004]但是,在日益复杂的现代社会,以用户为主要参与者的信息传播具有一定程度的随机性。新用户建立信息传播渠道的随机性、已有用户在从众心理、群体压力等因素作用下产生的无意识传播行为与非理性传播行为等,以及一些不法分子的恶意、虚假等传播行为,在这种环境下,表面上的信息传播路径包含许多噪声,这些使得构建的显式图结构(关系)不一定反映真实的依赖传播关系。这种可观测、可引导的随机扰动增加了信息传播分析中的不确定性建模的难度。现有的方法忽略了噪声引起的传播不确定性问题,容易导致模型学习过程中严重的错误积累,无法捕获更多有用的结构特征,从而限制了现有谣言检测方法的性能。

技术实现思路

[0005]本专利技术针对主要的技术问题是如何缓解实际传播噪声引起的传播不确定性问题。本专利技术提供一种面向传播不确定性的谣言检测方法及装置,以提高谣言检测任务的性能。
[0006]为实现上述目的,本专利技术的技术方案如下:
[0007]一种面向传播不确定性的谣言检测方法,其步骤包括:
[0008]1)获取社交网络中源博文与转发博文的文本数据及若干传播数据,并基于文本数据提取的文本特征,利用传播数据分别构建传播方向的初始传播图G

TD
及扩散方向的初始传播图G

BU

[0009]2)对于初始传播图G

TD
与初始传播图G

BU
,分别利用图卷积网络对边的可靠性进行评估,生成传播图G
TD
与传播图G
BU

[0010]3)基于传播图G
TD
与传播图G
BU
中的节点表示H
TD
与H
BU
,生成源博文的最终特征表示,
以获取谣言检测结果。
[0011]进一步地,传播数据包括源博文与转发博文之间及转发博文之间的传播关系集合。
[0012]进一步地,文本特征包括:TF

IDF文本特征。
[0013]进一步地,通过以下步骤生成传播图G
TD

[0014]1)利用图卷积网络聚合初始传播图G

TD
中节点的邻域特征,获取节点的特征表示;
[0015]2)基于特征表示及贝叶斯概率公式,计算边的可靠性分数;
[0016]3)根据可靠性分数,调整初始传播图G

TD
中边的权重,生成调整后传播图G

TD

[0017]4)利用图卷积网络聚合调整后传播图G

TD
中节点的邻域特征,将具有潜在关系驱动的邻域特征的归一化和,通过生成的节点表示H
TD
,构造传播图G
TD

[0018]进一步地,通过以下步骤生成源博文的最终特征表示:
[0019]1)基于节点表示H
TD
与H
BU
,通过平均池化层分别得到传播图G
TD
与传播图G
BU
的特征表示;
[0020]2)拼接传播图G
TD
与传播图G
BU
的特征表示,得到源博文的最终特征表示。
[0021]进一步地,获取谣言检测结果的方法包括:将源博文的最终特征表示输入至一分类器。
[0022]进一步地,所述分类器包括:1个线性层和1个softmax函数。
[0023]进一步地,谣言检测结果的包括:真谣言、假谣言、未经证实的谣言或非谣言。
[0024]进一步地,利用一谣言检测模型完成步骤2)与步骤3),以获取谣言检测结果,其中通过以下步骤训练所述谣言检测模型:
[0025]1)获取标注的数据集;
[0026]2)基于所述数据集及传播一致性的无监督学习损失,并根据传播行为的后验分布,计算得到计算所述训练集的无监督一致性损失;
[0027]3)根据所述数据集中各样本的预测结果及真实标签,计算得到所述训练集的有监督分类交叉熵损失;
[0028]4)对无监督一致性损失及有监督分类交叉熵损失进行加权求和,得到损失函数;
[0029]5)通过最小化损失函数,获取谣言检测模型的模型参数。
[0030]一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行以上所述方法。
[0031]一种电子装置,包括存储器和处理器,其中存储器存储执行以上所述方法的程序。
[0032]综上所述,本专利技术提供的面向传播不确定性的谣言检测方法和系统,可应用于社交媒体平台谣言检测问题中,具有以下优点:
[0033]1)利用贝叶斯概率模型评估复杂传播行为的一致性,筛选出可靠的传播行为,并进一步理解准确的信息传播路径;
[0034]2)能够缓解主观传播随机扰动引起的信息传播分析中的不确定性影响、缓解信息传播过程中噪音干扰,有效提高谣言检测的准确率。
附图说明
[0035]图1为本专利技术提供的面向传播不确定性的谣言检测方法的实现流程图。
[0036]图2为本专利技术提供的基于边增强的贝叶斯图神经网络方法的实现流程图。
[0037]图3为本专利技术提供的基于传播一致性的谣言检测方法训练框架。
[0038]图4为本专利技术提供的面向传播不确定性的谣言检测系统结构图。
具体实施方式
[0039]以下结合附图和实施例对本专利技术进行详细说明,需要指出的是,所描述的实施例仅旨在便于对本专利技术的理解,而对其不起任何限定作用。
[0040]图1是本专利技术提供一种面向传播不确定性的谣言检测方法的实现流程图,具体包括以下步骤:
[0041]步骤A:本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向传播不确定性的谣言检测方法,其步骤包括:1)获取社交网络中源博文与转发博文的文本数据及若干传播数据,并基于文本数据提取的文本特征,利用传播数据分别构建传播方向的初始传播图G

TD
及扩散方向的初始传播图G

BU
;2)对于初始传播图G

TD
与初始传播图G

BU
,分别利用图卷积网络对边的可靠性进行评估,生成传播图G
TD
与传播图G
BU
;3)基于传播图G
TD
与传播图G
BU
中的节点表示片
TD
与片
BU
,生成源博文的最终特征表示,以获取谣言检测结果。2.如权利要求1所述的方法,其特征在于,传播数据包括源博文与转发博文之间及转发博文之间的传播关系集合;文本特征包括:TF

IDF文本特征。3.如权利要求1所述的方法,其特征在于,通过以下步骤生成传播图G
TD
:1)利用图卷积网络聚合初始传播图G

TD
中节点的邻域特征,获取节点的特征表示;2)基于特征表示及贝叶斯概率公式,计算边的可靠性分数;3)根据可靠性分数,调整初始传播图G

TD
中边的权重,生成调整后传播图G

TD
;4)利用图卷积网络聚合调整后传播图G

TD
中节点的邻域特征,将具有潜在关系驱动的邻域特征的归一化和,通过生成的节点表示片
TD
...

【专利技术属性】
技术研发人员:周薇卫玲蔚胡斗虎嵩林
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1