一种基于启发式异构图推理网络的虚假新闻检测方法技术

技术编号:35179007 阅读:11 留言:0更新日期:2022-10-12 17:46
本发明专利技术涉及一种基于启发式异构图推理网络的虚假新闻检测方法,包括以下步骤:将待检测新闻序列、表格、程序进行上下文表示;针对新闻序列、表格以及程序三种类型的数据借助不同的方法分别构建了三种子图;通过新闻序列指导程序子图与表格子图的匹配连接,从而形成程序

【技术实现步骤摘要】
一种基于启发式异构图推理网络的虚假新闻检测方法


[0001]本专利技术属于电子信息
,具体涉及一种基于启发式异构图推理网络的虚假新闻检测方法。

技术介绍

[0002]随着互联网的迅速发展,社交媒体凭借发布便捷、传播迅速、获取成本低等优势已经成为人们分享交流信息的重要平台。社交媒体中传播的大量信息不仅包含准确可靠的真实信息,还拥有着大量人为蓄意伪造的虚假信息或无意传播的误报信息。因此,如何对社交媒体中传播的虚假信息进行及时有效地检测,已经成为社交媒体领域的亟需解决的问题。
[0003]现有研究主要聚焦非结构化数据,比如新闻文本内容。针对非结构化的虚假信息检测主要是收集大量客观事实性信息来验证待检测信息的真伪性,当前针对这一任务的研究已经取得了显著的进步。然而,社交媒体中不仅存在着非结构化信息,还存在着大量结构化数据(如表格信息),如何从表格信息中获取有用的信息作为证据证实虚假信息的真伪性具有巨大的需求与广阔的前景,同时,针对结构化信息的虚假新闻检测在当前研究中相对稀少且挑战性较高,是当前研究的关键问题之一。
[0004]当前,针对结构化数据的虚假信息检测研究主要分为两类。第一类是基于预训练的方法,其适用于结构化数据与非结构化数据共存的场景中,通常借助预训练模型学习深层上下文语义提高检测的性能。这一种方法的缺陷是由于预训练模型学习语义的通用性导致该类方法难以获得精确地推理。第二类结构化虚假信息检测方法是基于图结构的方法,其通常首先构建合理的异构图,然后通过语义推理聚焦语言证据并通过符号推理学习逻辑证据,最后将融合这两种证据提升检测性能。这两类方法虽然能够实现比较出色的检测性能,但他们仍然存在着几个关键问题:1)传统的图构建存在着数据稀疏性的问题。在传统的图构建中,子图之间的连接通常是将带有相同内容的节点进行连接,这种连接方式容易导致数据稀疏的问题,尤其是在不同子图中的语义有限的情况下;2)语言证据与逻辑证据缺乏有效的关联。现有模型通常是围绕整个图结构独立地学习语言证据和逻辑证据,其容易导致两种证据之间关联融合的缺乏,并且难以学习两种证据之间的有价值特征。因此,如何在图构建时克服数据稀疏的问题并在证据学习时建立多种证据之间的有效融合与关联通信是基于结构化数据的虚假新闻检测的一个关键问题。

技术实现思路

[0005]要解决的技术问题
[0006]针对当前关于基于结构化数据的虚假信息检测方法中存在的缺陷,本专利技术提出一种基于启发式异构图推理网络的虚假新闻检测方法(H2GRN),其首先构建了启发式异构图网络,不仅扩展了待检测信息与结构化表格之间的连接,还加强了待检测新闻与程序子图之间的连接,有效克服了子图之间连接的稀疏性。然后,构建了多视角结构化推理方法,其从局部与全局视角学习语言证据与逻辑证据并强化两种证据之间的关联融合,从而捕获两
者之间的一致性共享证据进行基于表格的虚假信息检测。
[0007]技术方案
[0008]一种基于启发式异构图推理网络的虚假新闻检测方法,其特征在于步骤如下:
[0009]S1:上下文表示模块
[0010]采用预训练BERT模型分别将待检测新闻序列、表格、程序进行上下文表示;
[0011]S2:子图构建模块
[0012]针对新闻序列、表格以及程序三种类型的数据借助不同的方法分别构建了三种子图,即通过依赖解析树的方法构建新闻序列子图,通过表头节点与表格主体节点连接的方式构建表格子图,并借助潜在程序算法LPA构建程序子图;
[0013]S3:异构图构建模块
[0014]通过新闻序列指导程序子图与表格子图的匹配连接,从而形成程序

表格关联图;通过程序信息指导新闻序列子图与表格子图的匹配连接,从而形成新闻

表格关联图;
[0015]S4:多视角推理模块
[0016]设计局部多跳知识推理网络MKR来学习带有更多上下文特征的证据,并将MKR 执行在新闻

表格关联子图和程序

表格关联子图上分别捕获语言证据和逻辑证据;设计全局双端注意力网络DAN,从而全局挖掘语言证据和逻辑证据之间的关联关系。
[0017]本专利技术进一步的技术方案:所述S1程序是由待检测新闻信息与表格通过逻辑符号生成的。
[0018]本专利技术进一步的技术方案:所述S2包括如下步骤:
[0019]S21:新闻子图的构建:使用依赖解析树将新闻序列转换为一个新闻依赖解析子图。特别地,解析子图中的每个节点代表一个单词或短语,这依赖于表格中具体的单词内容或程序中的关键词;
[0020]S22:表格子图的构建:为了将表格序列转换为图形式,将表格节点转换为表头节点和表内容节点,在表内容节点中的每个节点不仅与它的表头节点,还与该行的其他节点连接;
[0021]S23:程序子图的构建:使用潜在程序算法构建程序合成,其中程序包括参数和函数两种类型的数据构成;因为LPA算法没法生成完全准确的程序,本程序借助选择策略筛选前两个最优的候选程序作为合成程序;其中,选择策略是训练一个基于转换器的两路编码器从而获得标签一致性程序作为候选程序。
[0022]本专利技术进一步的技术方案:S3包括如下步骤:
[0023]S31:新闻序列指导程序子图与表格子图的匹配连接:首先检索新闻中带有逻辑信息的节点,然后使用与该节点相连的信息作为额外知识从而扩展程序与表格关联子图的连接;
[0024]S32:程序信息指导新闻序列子图与表格子图的匹配连接:程序子图是一个由叶节点和父节点构成的树形结构,设计了两种类型的节点作为外部知识来增强新闻

表格关联子图的连接,即叶子

叶子关联节点和父节点

叶子节之间的关联节点;所述叶子

叶子关联节点中的叶节点具有相同的父节点;所述父节点

叶子节之间的关联节点中的一个叶节点与其父节点关联。
[0025]本专利技术进一步的技术方案:S4包括如下步骤:
[0026]S41:针对一个节点v
i
,不仅学习其一跳的邻居节点还学习k跳的邻居节点这样,图注意力网络GAN通过考虑邻居顶点向量以及多跳邻居顶点向量从而更新v
i
的每个新顶点向量其中I
k
表示节点v
i
的第k跳邻居的数量;
[0027][0028]其中,λ1,


k
‑1表示节点v
i
受k跳节点影响的超参数,W为可训练的参数;
[0029]S42:节点v
i
的一跳邻居权重γ
ij
和k跳邻居权重的计算如下所示:
[0030][0031]其中,f(
·
)是一个LeakyReLU函数,当X
ij
=γ
ij
时,x
i
与x
j...

【技术保护点】

【技术特征摘要】
1.一种基于启发式异构图推理网络的虚假新闻检测方法,其特征在于步骤如下:S1:上下文表示模块采用预训练BERT模型分别将待检测新闻序列、表格、程序进行上下文表示;S2:子图构建模块针对新闻序列、表格以及程序三种类型的数据借助不同的方法分别构建了三种子图,即通过依赖解析树的方法构建新闻序列子图,通过表头节点与表格主体节点连接的方式构建表格子图,并借助潜在程序算法LPA构建程序子图;S3:异构图构建模块通过新闻序列指导程序子图与表格子图的匹配连接,从而形成程序

表格关联图;通过程序信息指导新闻序列子图与表格子图的匹配连接,从而形成新闻

表格关联图;S4:多视角推理模块设计局部多跳知识推理网络MKR来学习带有更多上下文特征的证据,并将MKR执行在新闻

表格关联子图和程序

表格关联子图上分别捕获语言证据和逻辑证据;设计全局双端注意力网络DAN,从而全局挖掘语言证据和逻辑证据之间的关联关系。2.根据权利要求1所述基于启发式异构图推理网络的虚假新闻检测方法,其特征在于:所述S1程序是由待检测新闻信息与表格通过逻辑符号生成的。3.根据权利要求2所述基于启发式异构图推理网络的虚假新闻检测方法,其特征在于:所述S2包括如下步骤:S21:新闻子图的构建:使用依赖解析树将新闻序列转换为一个新闻依赖解析子图。特别地,解析子图中的每个节点代表一个单词或短语,这依赖于表格中具体的单词内容或程序中的关键词;S22:表格子图的构建:为了将表格序列转换为图形式,将表格节点转换为表头节点和表内容节点,在表内容节点中的每个节点不仅与它的表头节点,还与该行的其他节点连接;S23:程序子图的构建:使用潜在程序算法构建程序合成,其中程序包括参数和函数两种类型的数据构成;因为LPA算法没法生成完全准确的程序,本程序借助选择策略筛选前两个最优的候选程序作为合成程序;其中,选择策略是训练一个基于转换器的两路编码器从而获得标签一致性程序作为候选程序。4.根据权利要求3所述基于启发式异构图推理网络的虚假新闻检测方法,其特征在于S3包括如下步骤:S31:新闻序列指导程序子图与表格子图的匹配连接:首先检索新闻中带有逻辑信息的节点,然后使用与该节点相连的信息作为额外知识从而扩展程序与表格关联子图的连接;S32:程序信息指导新闻序列子图与表格子图的匹配连接:程序子图是一个由叶节点和父节点构成的树形结构,设计了两种类型的节点作为外部知识来增强新闻

表格关联子图的连接,即叶子

叶子关联节点和父节点

叶子节之间的关联节点;所述叶子

叶子关联节点中的叶节点具有相同的父节点;所述父节点

叶子节之间的关联节点中的一个叶节点与其父节点关联。5.根据权利要求4所述基于启发式异构图推理网络的虚假新闻检测方法,其特征在于S4包括如下步骤:
S41:针对一个节点v
i
,不仅学习其一跳的邻居节点还学习k跳的邻居节点这样,图注意力网络GAN通过考虑邻居顶点向量以及多跳邻居顶点向量从而更新v
i
的每个新顶点向量其中I
k
表示节点v
i
的第k跳邻居的数量;其中,λ1,


k
‑1表示节点v
i
受k跳节点影响的超参数,W为可训练的参数;S42:节点v
i
的一跳邻居权重γ
ij
和k跳邻居权重的计算如下所示:其中,f(
·
)是一个LeakyReLU函数,当X
ij
=γ
ij
时,x
i
与x
j
分别表示s
i
和s
j
;当;当时,x
i
与x
j
分别表示s
i
和和是通过图注意力网络更新的第k跳节点;S43:针对整个图网络的紧密图表示通过所有更新节点的池化操作获得:S44:通过MKR分别在新闻

表格关联子图与程序

表格关联子图上不断更新学习,从而捕获到带有更多上下文语义的语言证据H=H
lg
和逻辑证据H=H
lo
;S45:考虑到图网络中每个节点可能包含两种类型的邻居节点,即在同一个子图内的节点与不在同一个子图内的节点;全局双端注意力网络DAN设计了图内注意力机制与图间注意力机制两种推理机制:S46:图内注意机制:形式上,给定一个特定的节点v和它的邻居节点v

,基于节点表示s
v
和s
v

计算图内注意力得分:x
vv

【专利技术属性】
技术研发人员:吴连伟刘浦胜王鹏张艳宁
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1