System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及自然语言处理和深度学习领域,特别是涉及基于实体-名词图和图卷积网络的虚假新闻检测方法及系统。
技术介绍
1、现有传统的基于机器学习的虚假新闻检测方法需要特征工程。根据模型所使用的特征,这些方法可大致分为三类:语言特征、时间结构特征和混合特征。虽然这些传统的机器学习方法取得了很好的结果,但它们严重依赖于费力的特征工程。随着深度学习在各个领域的发展,基于深度学习的虚假新闻检测方法被提出并引起了人们的广泛关注。虽然现有的基于新闻内容和外部知识的高级特征表示的深度学习方法在检测假新闻方面取得了巨大的成功,但它们忽略了新闻内容本身实体与名词之间的联系,影响虚假新闻检测的效果。
技术实现思路
1、本专利技术的目的在于提供基于实体-名词图和图卷积网络的虚假新闻检测方法及系统,以解决忽略了新闻内容本身实体与名词之间的联系,影响虚假新闻检测的效果的问题。
2、为实现上述目的,本专利技术采用以下技术方案:
3、第一方面,本专利技术提供基于实体-名词图和图卷积网络的虚假新闻检测方法,包括:
4、利用预训练语言模型bert和gru获取新闻文本的全局表征;
5、利用命名实体识别从新闻文本中提取出实体、名词,构造为实体-名词图;
6、利用图卷积网络来聚合实体-名词图中实体和名词的特征,获取新闻文本的细粒度表征;
7、将全局表征和细粒度表征拼接在一起送入检测器进行检测,输出新闻的检测结果。
8、可选的,利用预训练语
9、选择适用于任务的预训练bert模型,对每篇新闻文本进行预处理,获取新闻文本的隐藏层表示,利用gru获取上下文编码信息作为新闻文本的全局表征。
10、可选的,利用命名实体识别从新闻文本中提取出实体、名词:
11、对于中文文本使用hanlp工具,英文文本使用nltk工具,利用词法标注获取单词的词性,获取名词列表和实体列表;从名词列表中去除实体和重复性的名词,得到不包含实体的名词列表。
12、可选的,构造为实体-名词图:同一句话中的实体存在关联,图结构中用一条边表示他们之间的关系,同样的,同一句话中的实体和名词之间也用边来连接,认为同一句话中的不同的名词之间没有必然的联系,如果他们有共同的实体,再通过共同的实体进行连接,实现实体-名词图的构建。
13、可选的,利用图卷积网络来聚合实体-名词图中实体和名词的特征,获取新闻文本的细粒度表征:
14、将实体-名词图表示为邻接矩阵,确保节点表示实体和名词,边表示他们之间的关系,使用多层图卷积,通过节点的邻居信息逐步聚合实体和名词的特征,在每个卷积层中,利用节点的邻居信息更新节点的特征表示,逐渐融合实体和名词的语义信息。
15、可选的,具体的:
16、使用bert对节点进行编码,并对其进行平均池化作为节点语义表征,即图卷积网络的初始特征;然后利用多层卷积网络捕获实体-名词图的结构信息并聚合特征;令所有的节点表示为h∈rn×d,n为g的节点数量;h中每一行为hi,为节点vi的特征表示;将图g的邻接矩阵表示为a∈r(n×n),度矩阵表示为d∈r(n×n),则多层gcn的公式如下:
17、
18、表示节点由j层gcn计算得到的节点vi的特征表示,wj是第j层的权重矩阵,σ是sigmoid激活函数;是节点的初始特征表示;
19、通过m层gcn,得到基于实体-名词图的节点特征表示h(m);图g的表示r计算公式为:
20、
21、w是权重矩阵,b是偏置向量,将r作为新闻文本细粒度表征。
22、可选的,将全局表征和细粒度表征拼接在一起送入检测器进行检测,输出新闻的检测结果:
23、将全局表征和细粒度表征拼接形成新的特征表示,将拼接后的特征送入多层感知机进行分类,并输出该新闻的检测结果,指示新闻是否为虚假新闻:
24、f=σ(w3[w1r,w2b]+b)
25、w1,w2,w3是权重矩阵,b是偏置向量,σ是sigmoid激活函数;将f送入分类器中,利用交叉熵来衡量分类损失。
26、第二方面,本专利技术提供基于实体-名词图和图卷积网络的虚假新闻检测系统,包括:
27、全局表征获取模块,用于利用预训练语言模型bert和gru获取新闻文本的全局表征;
28、图构造模块,用于利用命名实体识别从新闻文本中提取出实体、名词,构造为实体-名词图;
29、细粒度表征获取模块,用于利用图卷积网络来聚合实体-名词图中实体和名词的特征,获取新闻文本的细粒度表征;
30、检测输出模块,用于将全局表征和细粒度表征拼接在一起送入检测器进行检测,输出新闻的检测结果。
31、第三方面,本专利技术提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现基于实体-名词图和图卷积网络的虚假新闻检测方法的步骤。
32、第四方面,本专利技术提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现基于实体-名词图和图卷积网络的虚假新闻检测方法的步骤。
33、与现有技术相比,本专利技术有以下技术效果:
34、本专利技术基于新闻文本,深入探究语义之间的关系,通过文本语义理解新闻内容,并帮助检测新闻的真实性。该方法取得了不错的效果,与现有的虚假新闻检测方法相比,表现最优。(1)bert是一个强大的语言模型,它利用预训练来学习丰富的语义表示,使其能够理解和编码新闻文本中的上下文关系。(2)gat是一个用于捕获长篇新闻文章中信息的模型。它利用注意力机制来关注图的重要部分,以进行细粒度的假新闻分类。(3)gcn用于对图的信息进行聚合,得到的图向量通过全连通层进行假新闻预测。本专利技术深入理解新闻文本的语义关系,通过构造实体-名词图,有效提高了虚假新闻检测的准确度、精度、f1值及召回率。
本文档来自技高网...【技术保护点】
1.基于实体-名词图和图卷积网络的虚假新闻检测方法,其特征在于,包括:
2.根据权利要求1所述的基于实体-名词图和图卷积网络的虚假新闻检测方法,其特征在于,利用预训练语言模型BERT和GRU获取新闻文本的全局表征:
3.根据权利要求1所述的基于实体-名词图和图卷积网络的虚假新闻检测方法,其特征在于,利用命名实体识别从新闻文本中提取出实体、名词:
4.根据权利要求3所述的基于实体-名词图和图卷积网络的虚假新闻检测方法,其特征在于,构造为实体-名词图:同一句话中的实体存在关联,图结构中用一条边表示他们之间的关系,同样的,同一句话中的实体和名词之间也用边来连接,认为同一句话中的不同的名词之间没有必然的联系,如果他们有共同的实体,再通过共同的实体进行连接,实现实体-名词图的构建。
5.根据权利要求1所述的基于实体-名词图和图卷积网络的虚假新闻检测方法,其特征在于,利用图卷积网络来聚合实体-名词图中实体和名词的特征,获取新闻文本的细粒度表征:
6.根据权利要求5所述的基于实体-名词图和图卷积网络的虚假新闻检测方法,其特征在于,具体
7.根据权利要求1所述的基于实体-名词图和图卷积网络的虚假新闻检测方法,其特征在于,将全局表征和细粒度表征拼接在一起送入检测器进行检测,输出新闻的检测结果:
8.基于实体-名词图和图网络的虚假新闻检测系统,其特征在于,包括:
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于实体-名词图和图卷积网络的虚假新闻检测方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于实体-名词图和图卷积网络的虚假新闻检测方法的步骤。
...【技术特征摘要】
1.基于实体-名词图和图卷积网络的虚假新闻检测方法,其特征在于,包括:
2.根据权利要求1所述的基于实体-名词图和图卷积网络的虚假新闻检测方法,其特征在于,利用预训练语言模型bert和gru获取新闻文本的全局表征:
3.根据权利要求1所述的基于实体-名词图和图卷积网络的虚假新闻检测方法,其特征在于,利用命名实体识别从新闻文本中提取出实体、名词:
4.根据权利要求3所述的基于实体-名词图和图卷积网络的虚假新闻检测方法,其特征在于,构造为实体-名词图:同一句话中的实体存在关联,图结构中用一条边表示他们之间的关系,同样的,同一句话中的实体和名词之间也用边来连接,认为同一句话中的不同的名词之间没有必然的联系,如果他们有共同的实体,再通过共同的实体进行连接,实现实体-名词图的构建。
5.根据权利要求1所述的基于实体-名词图和图卷积网络的虚假新闻检测方法,其特征在于,利用图卷积网络来聚合实体-名词图...
【专利技术属性】
技术研发人员:朱琳琳,孙鹤立,黄小勇,伊庭洲,何亮,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。