基于举报信息和传播异构图的谣言检测方法和系统技术方案

技术编号:35071269 阅读:19 留言:0更新日期:2022-09-28 11:33
本发明专利技术提供了一种基于举报信息和传播异构图的谣言检测方法和系统,包括:获取存在谣言传播的主题关键词;根据主题关键词爬取与主题相关的数据,包括信息、信息发布者数据以及信息转发、点赞用户数据;利用获取的信息、信息发布者数据以及信息转发、点赞用户数据,确定节点种类、节点标签和边关系矩阵,并生成信息异构传播图,根据标注的信息节点标签,通过降低训练集的损失之和,完成图注意力神经网络的训练;基于信息异构传播图,利用转发及发布信息的所有用户真实性概率结果均值计算该条信息的真实性。本发明专利技术的高预测准确率减少了人工判断虚假新闻的成本;使用图注意力网络训练时,仅采用少量样本训练,符合真实社交网络环境。境。境。

【技术实现步骤摘要】
点种类、节点标签和边关系矩阵,并生成信息异构传播图,根据标注的信息节点标签, 通过降低训练集的损失之和,完成图注意力神经网络的训练;
[0011]步骤4:基于信息异构传播图,利用转发及发布信息的所有用户真实性概率结果均 值计算该条信息的真实性。
[0012]优选的,节点种类包括用户节点和信息节点,节点之间的边关系包括转发关系和发 布关系,发布关系和转发关系均使用边关系矩阵进行表示;
[0013]描述用户发布信息的关系矩阵A1
ij
的值为:
[0014][0015]描述用户转发信息的关系矩阵A2
ij
的值为:
[0016][0017]优选的,为异构图中的每个节点随机生成初始化向量表示;
[0018]标注信息的节点标签,信息的节点标签tl∈{0,1},信息为真时,tl=1,信息为假时, tl=0;用户的节点标签ul∈{0,1},由用户的行为以及所转发或发布的信息节点标签所决 定,计算为所有参与转发、发布信息的节点标签平均值;
[0019]用户对当前新闻主题持赞同观点时,ul=1,用户对当前新闻主题持反对观点,ul=0; 用户节点标签值通过下式计算:
[0020][0021]其中,retweet
i
代表用户转发的n1信息中的第i条信息,post
i
代表用户发布的n2信 息中的第i条信息。
[0022]优选的,根据标注的信息节点标签,通过降低训练集的损失之和,完成图注意力神 经网络的训练,该图注意力神经网络依赖于局部相邻节点,利用注意力机制为节点分配 不同的权重;聚合异构图中不同的关系,利用关系型图卷积神经网络聚合每个用户节点 相邻节点的向量表达,最终计算得到用户节点的向量表达;
[0023]基于图算法模型得出的用户节点向量表达计算该用户节点的真实性概率h
i
,使用具 有softmax激活的全连接层将用户节点表示投影到两类目标空间:对当前话题持赞同观 点的用户和对当前话题持反对观点的用户,并获得概率分布,计算公式为: p
i
=softmax(h
i
),其中,p
i
=[p
i0
,p
i1
]是预测的概率向量,p
i0
和p
i1
分别表示用户对当前 主题下新闻持赞同立场和反对立场的预测概率。
[0024]优选的,利用转发及发布信息的所有用户真实性概率结果均值计算该条信息的真实 性,表达式为:
[0025][0026][0027]其中,和分别表示真新闻及假新闻的预测概率值。
[0028]根据本专利技术提供的基于举报信息和传播异构图的谣言检测系统,包括:
[0029]信息收集模块:获取存在谣言传播的主题关键词;
[0030]信息爬取模块:根据主题关键词爬取与主题相关的数据,包括信息、信息发布者数 据以及信息转发、点赞用户数据;
[0031]信息异构传播图生成模块:利用获取的信息、信息发布者数据以及信息转发、点赞 用户数据,确定节点种类、节点标签、边关系矩阵,并生成信息异构传播图;
[0032]节点初始化向量生成模块:生成随机节点初始化向量;
[0033]标注信息节点标签模块:标注已获取的信息的真实性,并计算用户节点标签;
[0034]图注意力模型训练模块:以标注的信息节点标签、节点初始化向量生产模块生成的 节点初始化向量作为输入,通过降低训练集的损失之和,完成图注意力神经网络的训练, 利用注意力机制为在新闻传播中不同影响力的节点分配不同的权重,获得节点的向量表 示;聚合异构图中的多种关系,获得用户节点的向量表示并输出;
[0035]节点真实性概率模块:基于图注意力模型训练模块得出的用户节点向量表达计算该 用户节点的真实性概率;
[0036]信息真实性判断模块:利用转发及发布信息的所有用户真实性概率结果均值计算该 条信息的真实性。
[0037]优选的,节点种类包括用户节点和信息节点,节点之间的边关系包括转发关系和发 布关系,发布关系和转发关系均使用边关系矩阵进行表示;
[0038]描述用户发布信息的关系矩阵A1
ij
的值为:
[0039][0040]描述用户转发信息的关系矩阵A2
ij
的值为:
[0041][0042]优选的,为异构图中的每个节点随机生成初始化向量表示;
[0043]标注信息的节点标签,信息的节点标签tl∈{0,1},信息为真时,tl=1,信息为假时, tl=0;用户的节点标签ul∈{0,1},由用户的行为以及所转发或发布的信息节点标签所决 定,计算为所有参与转发、发布信息的节点标签平均值;
[0044]用户对当前新闻主题持赞同观点时,ul=1,用户对当前新闻主题持反对观点,ul=0; 用户节点标签值通过下式计算:
[0045][0046]其中,retweet
i
代表用户转发的n1信息中的第i条信息,post
i
代表用户发布的n2信 息中的第i条信息。
[0047]优选的,根据标注的信息节点标签,通过降低训练集的损失之和,完成图注意力神 经网络的训练,该图注意力神经网络依赖于局部相邻节点,利用注意力机制为节点分配 不同的权重;聚合异构图中不同的关系,利用关系型图卷积神经网络聚合每个用户节点 相邻节点的向量表达,最终计算得到用户节点的向量表达;
[0048]基于图算法模型得出的用户节点向量表达计算该用户节点的真实性概率h
i
,使用具 有softmax激活的全连接层将用户节点表示投影到两类目标空间:对当前话题持赞同观 点的用户和对当前话题持反对观点的用户,并获得概率分布,计算公式为: p
i
=softmax(h
i
),其中,p
i
=[p
i0
,p
i1
]是预测的概率向量,p
i0
和p
i1
分别表示用户对当前 主题下新闻持赞同立场和反对立场的预测概率。
[0049]优选的,利用转发及发布信息的所有用户真实性概率结果均值计算该条信息的真实 性,表达式为:
[0050][0051][0052]其中,和分别表示真新闻及假新闻的预测概率值。
[0053]与现有技术相比,本专利技术具有如下的有益效果:
[0054](1)本专利技术的高预测准确率减少了人工判断虚假新闻的成本;使用图注意力网络训 练时,仅采用少量样本训练,符合真实社交网络环境;
[0055](2)本专利技术仅利用了信息在社交网络中的传播情况,未使用信息文本作为训练特征, 因此具备跨主题的识别能力,能适应多变的信息发布环境。
附图说明
[0056]通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目 的和优点将会变得更明显:...

【技术保护点】

【技术特征摘要】
1.一种基于举报信息和传播异构图的谣言检测方法,其特征在于,包括:步骤1:获取存在谣言传播的主题关键词;步骤2:根据主题关键词爬取与主题相关的数据,包括信息、信息发布者数据以及信息转发、点赞用户数据;步骤3:利用获取的信息、信息发布者数据以及信息转发、点赞用户数据,确定节点种类、节点标签和边关系矩阵,并生成信息异构传播图,根据标注的信息节点标签,通过降低训练集的损失之和,完成图注意力神经网络的训练;步骤4:基于信息异构传播图,利用转发及发布信息的所有用户真实性概率结果均值计算该条信息的真实性。2.根据权利要求1所述的基于举报信息和传播异构图的谣言检测方法,其特征在于,节点种类包括用户节点和信息节点,节点之间的边关系包括转发关系和发布关系,发布关系和转发关系均使用边关系矩阵进行表示;描述用户发布信息的关系矩阵A1
ij
的值为:描述用户转发信息的关系矩阵A2
ij
的值为:3.根据权利要求1所述的基于举报信息和传播异构图的谣言检测方法,其特征在于,为异构图中的每个节点随机生成初始化向量表示;标注信息的节点标签,信息的节点标签tl∈{0,1},信息为真时,tl=1,信息为假时,tl=0;用户的节点标签ul∈{0,1},由用户的行为以及所转发或发布的信息节点标签所决定,计算为所有参与转发、发布信息的节点标签平均值;用户对当前新闻主题持赞同观点时,ul=1,用户对当前新闻主题持反对观点,ul=0;用户节点标签值通过下式计算:其中,retweet
i
代表用户转发的n1信息中的第i条信息,post
i
代表用户发布的n2信息中的第i条信息。4.根据权利要求1所述的基于举报信息和传播异构图的谣言检测方法,其特征在于,根据标注的信息节点标签,通过降低训练集的损失之和,完成图注意力神经网络的训练,该图注意力神经网络依赖于局部相邻节点,利用注意力机制为节点分配不同的权重;聚合异构图中不同的关系,利用关系型图卷积神经网络聚合每个用户节点相邻节点的向量表达,最终计算得到用户节点的向量表达;基于图算法模型得出的用户节点向量表达计算该用户节点的真实性概率h
i
,使用具有softmax激活的全连接层将用户节点表示投影到两类目标空间:对当前话题持赞同观点的用户和对当前话题持反对观点的用户,并获得概率分布,计算公式为:p
i
=softmax(h
i
),其中,p
i
=[p
i0
,p
i1
]是预测的概率向量,p
i0
和p
i1
分别表示用户对当前主题下新闻持赞同立场
和反对立场的预测概率。5.根据权利要求4所述的基于举报信息和传播异构图的谣言检测方法,其特征在于,利用转发及发布信息的所有用户真实性概率结果均值计算该条信息的真实性,表达式为:概率结果均值计算该条信息的真实性,表达式为:其中,和分别表示真新闻及假新闻的预测概率值。6.一种基于举报信息和传播异构图的谣言检测系统,其特征在于,包括:信息收集模块:获取存在谣言传播的主题关键词;信息爬取模块:根据主题关键词爬取与主题相关的数据,包括信息、信息发布者数据以及信息转发、点赞用户数据;信息异构传播图生成模块:利用获...

【专利技术属性】
技术研发人员:余昊晴马颖华陈秀真刘淑婷
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1