基于异质图卷积网络的虚假新闻识别方法技术

技术编号:35854486 阅读:46 留言:0更新日期:2022-12-07 10:40
本发明专利技术涉及一种基于异质图卷积网络的虚假新闻识别方法,包括以下步骤:1)新闻数据获取及异质新闻传播图构建;2)新闻文本特征提取:使用自然语言处理方法提取对文本的上下文交互信息;3)异质图卷积网络模型设计:

【技术实现步骤摘要】
基于异质图卷积网络的虚假新闻识别方法


[0001]本专利技术涉及图神经网络应用领域的技术,具体是一种基于异质图卷积网络的虚假新闻识别方法。

技术介绍

[0002]虚假新闻是指在社交媒体上故意发布并可以被证实为假的消息。社交媒体的广泛应用使得虚假新闻的传播更为迅速、传播范围更广,使得虚假新闻的传播不但会对网络安全、社会经济造成影响,还会损害政府、媒体的公信力。因此尽早识别虚假新闻成为一项至关重要的工作。当前虚假新闻检测方法可以分为两类:基于文本内容的方法和基于社交网络交互信息的方法。
[0003]基于文本内容的方法侧重于通过新闻文本提取词汇特征、语法特征、写作风格特征,并通过特征分类方法进行虚假新闻的判断。但这种方法通常独立的分析新闻文本,忽略了新闻传播时的新闻与新闻、新闻与用户之间深层次的结构关系。
[0004]为弥补以上问题,基于社交网络交互信息的方法在文本的基础上,融合了社交网络中用户与新闻、新闻与新闻、用户与评论之间的关系,通过这些更深层次的关系来提升虚假新闻识别的性能。Bian和Ma等人利用源新闻与评论之间的关系形式化为一个树形的传播图,然后通过图表示方法进行进一步分类。Yuan和Yang等人将用户、源新闻、评论一起建模为一个新闻传播异质图,然后通过图表示学习模型进行节特征学习并进行分类。虽然这类方法在虚假新闻检测方面取得了优异的效果,然而在图学习过程中忽略了新闻传播图中边的真实性以及图中本身存在的拓扑不平衡性,使得这类方法的新闻特征学习效果受到了限制。

技术实现思路

[0005]要解决的技术问题
[0006]为了避免现有技术的不足之处,本专利技术提供一种基于异质图卷积网络的虚假新闻识别方法。
[0007]技术方案
[0008]一种基于异质图卷积网络的虚假新闻识别方法,其特征在于步骤如下:
[0009]步骤1:从社交平台中获取新闻数据,所述新闻数据包括源新闻m、相关评论c以及相应的用户u,并根据三者之间的联系构建一个异质新闻传播图HNG;
[0010]步骤2:使用自然语言处理模型对源新闻内容、评论内容进行文本特征信息获取;
[0011]步骤2.1:使用自然语言处理模型对文本进行初始特征获取;
[0012]步骤2.2:为进一步获取源新闻与评论之间的上下文语义特征,通过多头自注意力模型获取评论与源新闻的相关性,从而为新闻、评论得到新的具有上下文语义的特征;并将此特征作为异质图学习中源新闻节点、评论节点的初始特征向量;
[0013]步骤3:设计层次图卷积模型进行学习HNG结构,并得到节点的结构特征;
[0014]步骤3.1:设计拓扑平滑策略为新闻传播网络中的每个节点获取其拓扑位置权重;
[0015]步骤3.2:设计层次图注意力机制对构建好的HNG进行训练,并对网络中每个节点进行特征学习;
[0016]步骤4:将步骤3中得到的网络结构特征与步骤2中得到的文本信息特征相融合,进而产生新的向量进行进一步分类操作,达到虚假新闻检测的目的。
[0017]本专利技术进一步的技术方案:步骤1中社交平台为微博和Twitter,并从中获得了三个数据集,分别为weibo、Twitter15和Twitter16。
[0018]本专利技术进一步的技术方案:步骤1中异质新闻传播图HNG的构造方式具体为:
[0019]①
若用户与用户存在关注关系、或都评论或转发了同一则新闻,则将两个用户连接;
[0020]②
若用户评论或发布了一则新闻,则将用户与评论节点连接、将用户与新闻节点连接;
[0021]③
若新闻与新闻是同时段发布的,或者具有共同的用户,则将新闻与新闻连接;
[0022]④
若一则评论是另一则评论的回复,则连接这两则评论。
[0023]本专利技术进一步的技术方案:步骤2.1中所使用的自然语言处理模型为CNN模型,目的为每一则新闻、每一则评论信息学习一个代表此句话的特征向量。
[0024]本专利技术进一步的技术方案:步骤2.2中所使用的多头自注意力模型输入为由步骤2.1获得的每一则新闻、每一则评论的特征向量,通过多头自注意力机制进行交叉学习新闻与评论之间的句子的语义关系,最终为每一则新闻、每一则评论获得一个代表上下文语意特征向量。
[0025]本专利技术进一步的技术方案:步骤3.1中拓扑平滑策略中每一个节点的拓扑权重计算,具体为:
[0026]首先,通过个性化PageRank算法来衡量每个标记节点的节点影响分布,最终得到概率矩阵P,计算公式如(1)所示,其中a∈(0,1]是随机游走概率;
[0027]P=a(I

(1

a)A

)
‑1ꢀꢀꢀ⑴
[0028]其次,假设一个有标签的新闻节点m
i
受到来自其他标签的邻居节点的强烈影响时,节点m
i
在消息传递中遇到较大的影响,并且接近拓扑类边界;基于此假设,本专利技术设计基于节点信息冲突检测的拓扑不均衡量化指标T
m
,来捕捉图的拓扑不平衡程度,在减少靠近类边界节点的训练权重,增加靠近类中心节点的训练权重的同时,来重新对目标节点加权;权重计算公式如下所示:
[0029][0030]式中,w
min
,w
min
为超参数,T
m
表示拓扑值,Rank(T
m
)表示将拓扑值T
m
升序排序,Y表示有标签的新闻节点;最终,为网络中的每个节点都得到相应的拓扑权重值,只取新闻节点的权重值w
m
用于后续计算。
[0031]本专利技术进一步的技术方案:步骤3.2中层次图注意力机制中每种类型节点的特征向量学习,具体为:
[0032]首先通过节点级注意力捕捉目标节点的其他类型邻居节点的重要性;然后通过类型级注意力获取与目标节点的相同类型的邻居节点的权重,公式如(3)(4)所示;
[0033][0034][0035]式中,σ(
·
)表示LeakyReLU函数;τ表示节点类型,分别为新闻、评论、用户三类。
[0036]本专利技术进一步的技术方案:步骤4中特征融合与分类模块,具体为:
[0037]首先,对于任意一个新闻节点m
i
,通过步骤2.2获得其文本特征通过步骤3.2获得其结构特征为更有效处理特征,本专利技术将相融合得到最终的特征,然后通过交叉熵来进行训练最后一层的节点权重进行虚假新闻分类,计算公式如下:
[0038][0039][0040]式中,W为参数矩阵,b为误差参数,l表示类别个数。
[0041]有益效果
[0042]本专利技术提供的一种基于异质图卷积网络的虚假新闻识别方法。首先,设计一种新的拓扑平滑策略来度量每个节点的拓扑权值,通过增大靠近类中心的节点的权重、减少远离类中心的节点的权值来获取每一个节点的拓扑权重。其本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于异质图卷积网络的虚假新闻识别方法,其特征在于步骤如下:步骤1:从社交平台中获取新闻数据,所述新闻数据包括源新闻m、相关评论c以及相应的用户u,并根据三者之间的联系构建一个异质新闻传播图HNG;步骤2:使用自然语言处理模型对源新闻内容、评论内容进行文本特征信息获取;步骤2.1:使用自然语言处理模型对文本进行初始特征获取;步骤2.2:为进一步获取源新闻与评论之间的上下文语义特征,通过多头自注意力模型获取评论与源新闻的相关性,从而为新闻、评论得到新的具有上下文语义的特征;并将此特征作为异质图学习中源新闻节点、评论节点的初始特征向量;步骤3:设计层次图卷积模型进行学习HNG结构,并得到节点的结构特征;步骤3.1:设计拓扑平滑策略为新闻传播网络中的每个节点获取其拓扑位置权重;步骤3.2:设计层次图注意力机制对构建好的HNG进行训练,并对网络中每个节点进行特征学习;步骤4:将步骤3中得到的网络结构特征与步骤2中得到的文本信息特征相融合,进而产生新的向量进行进一步分类操作,达到虚假新闻检测的目的。2.根据权利要求1所述的基于异质图卷积网络的虚假新闻识别方法,其特征在于步骤1中社交平台为微博和Twitter,并从中获得了三个数据集,分别为weibo、Twitter15和Twitter16。3.根据权利要求2所述的基于异质图卷积网络的虚假新闻识别方法,其特征在于步骤1中异质新闻传播图HNG的构造方式具体为:

若用户与用户存在关注关系、或都评论或转发了同一则新闻,则将两个用户连接;

若用户评论或发布了一则新闻,则将用户与评论节点连接、将用户与新闻节点连接;

若新闻与新闻是同时段发布的,或者具有共同的用户,则将新闻与新闻连接;

若一则评论是另一则评论的回复,则连接这两则评论。4.根据权利要求3所述的基于异质图卷积网络的虚假新闻识别方法,其特征在于步骤2.1中所使用的自然语言处理模型为CNN模型,目的为每一则新闻、每一则评论信息学习一个代表此句话的特征向量。5.根据权利要求4所述的基于异质图卷积网络的虚假新闻识别方法,其特征在于步骤2.2中所使用的多头自注意力模型输入为由步骤2.1获得的每一则新闻、每一则评论的特征向量,通过多头自注意力机制进行交叉学习新闻与评论之间的句子的语义关系,最终为每一则新闻、每一则评论获得一个代表上下文语意特征向量。6.根据权利要求5所述的基于异质图卷积...

【专利技术属性】
技术研发人员:尚学群高莉宋凌云谭亚聪刘杰杨琛
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1