当前位置: 首页 > 专利查询>济南大学专利>正文

基于图内图间联合信息传播的假新闻检测方法及系统技术方案

技术编号:34557102 阅读:21 留言:0更新日期:2022-08-17 12:43
本发明专利技术属于自然语言处理技术领域,提供了基于图内图间联合信息传播的假新闻检测方法及系统,包括:获取待检测文本,并进行预处理后,分别构建文本顺序图、文本语法图和文本语义图;基于文本顺序图、文本语法图和文本语义图,先进行图内信息交互,再进行图间信息交互后,得到联合信息文本顺序图、联合信息文本语法图和联合信息文本语义图,通过图注意力机制和节点注意力机制,得到待检测文本的向量表示,输入到分类器,得到待检测文本是否属于假新闻的结果。解决了短文本向量化时存在的特征稀疏问题,丰富了文本向量表示,解决了长距离和非连续文本信息交互缺失问题,提高文本表示的精确度。的精确度。的精确度。

【技术实现步骤摘要】
基于图内图间联合信息传播的假新闻检测方法及系统


[0001]本专利技术属于自然语言处理
,尤其涉及基于图内图间联合信息传播的假新闻检测方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]互联网时代,每个网民都可以通过社交媒体等途径向外发布新闻。新闻职业道德的欠缺、约束机制和整顿措施不完善等原因,导致假新闻事件层出不穷,不仅会误导不明真相的读者,而且会造成恶劣的社会影响。
[0004]为检测假新闻,很多组织采用人工标注方法核查新闻的真实性。大量假新闻出现之后,劳动密集型的人工标注方法已无法实现对假新闻及时处理。对比人工标注方法,假新闻智能检测已成为假新闻识别的新方向。现有卷积神经网络(CNN)、循环神经网络(RNN)等深度学习方法在假新闻检测已经取得很大的成功,该类方法的最大优势在于不依赖人工特征且能够分析可变长度的序列数据并发现文本数据中隐藏的复杂模式。然而,由于卷积核大小的限制,CNN 无法捕获长距离和非连续单词之间的依赖关系;虽然长短期记忆网络(LongShort Term Memory,LSTM)克服了RNN长距离依赖梯度消失的困难,但仍不能有效捕获长距离依赖。
[0005]假新闻智能检测中首要环节就是文本向量化,将文本数据转换为计算机可以识别的二进制数字表示。One

hot编码将每一个单词或字符对应一个向量,但编码的向量无法体现出单词之间的相似性和联系,也不包含任何语义信息。作为改进方法,词嵌入是将单词表示为维度较低且稠密向量的一种方法,每个维度上都有实数。将词嵌入与全连接神经网络结合后,提出了Word2vec、Glove 和FastText等一系列深度学习技术,为文本提供了多种数值化的表示方法。以短文本呈现内容数据已经成为信息传播的一种重要形式,但是,其所包含的数据单词个数少、描述信息弱,造成文本特征稀疏,难以从文本中抽取到样本特征用于文本向量化。

技术实现思路

[0006]为了解决上述
技术介绍
中存在的技术问题,本专利技术提供基于图内图间联合信息传播的假新闻检测方法及系统,基于文本中存在的多种信息,实现同构和异构信息的全局交互,解决了短文本向量化时存在的特征稀疏问题,丰富了文本向量表示,解决了长距离和非连续文本信息交互缺失问题,提高了文本表示的精确度。
[0007]为了实现上述目的,本专利技术采用如下技术方案:
[0008]本专利技术的第一个方面提供基于图内图间联合信息传播的假新闻检测方法,其包括:
[0009]获取待检测文本,并进行预处理;
[0010]基于预处理后的文本,分别提取文本顺序特征、文本语法特征和文本语义特征,进而构建文本顺序图、文本语法图和文本语义图;
[0011]基于文本顺序图、文本语法图和文本语义图,先进行图内信息交互,再进行图间信息交互后,得到联合信息文本顺序图、联合信息文本语法图和联合信息文本语义图;
[0012]基于联合信息文本顺序图、联合信息文本语法图和联合信息文本语义图,通过图注意力机制和节点注意力机制,得到待检测文本的向量表示;
[0013]将待检测文本的向量表示输入到分类器,得到待检测文本是否属于假新闻的结果。
[0014]进一步地,所述预处理为对所述待检测文本进行归一化处理后,进行数据增强。
[0015]进一步地,所述归一化处理包括:去除特殊字符、分词、删除停用词、词干提取和单词小写。
[0016]进一步地,所述数据增强包括同义词替换、随机插入、随机交换和随机删除。
[0017]进一步地,所述文本顺序特征的提取方法为:
[0018]利用滑动窗口机制遍历所述预处理后的文本,计算每个单词对在同一滑动窗口中出现的次数,以及每个单词在所有滑动窗口中出现的次数;
[0019]基于所述每个单词对在同一滑动窗口中出现的次数和每个单词在所有滑动窗口中出现的次数,计算文本顺序权重。
[0020]进一步地,所述图内信息交互采用重置门和更新门,分别对文本顺序图、文本语法图和文本语义图中的节点表示以及节点之间的权重进行更新。
[0021]进一步地,所述图间信息交互在进行图内信息交互后的文本顺序图、文本语法图和文本语义图之间进行信息传播。
[0022]本专利技术的第二个方面提供基于图内图间联合信息传播的假新闻检测系统,其包括:
[0023]预处理模块,其被配置为:获取待检测文本,并进行预处理;
[0024]图构建模块,其被配置为:基于预处理后的文本,分别提取文本顺序特征、文本语法特征和文本语义特征,进而构建文本顺序图、文本语法图和文本语义图;
[0025]信息传播模块,其被配置为:基于文本顺序图、文本语法图和文本语义图,先进行图内信息交互,再进行图间信息交互后,得到联合信息文本顺序图、联合信息文本语法图和联合信息文本语义图;
[0026]向量表示模块,其被配置为:基于联合信息文本顺序图、联合信息文本语法图和联合信息文本语义图,通过图注意力机制和节点注意力机制,得到待检测文本的向量表示;
[0027]分类模块,其被配置为:将待检测文本的向量表示输入到分类器,得到待检测文本是否属于假新闻的结果。
[0028]本专利技术的第三个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于图内图间联合信息传播的假新闻检测方法中的步骤。
[0029]本专利技术的第四个方面提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于图内图间联合信息传播的假新闻检测方法中的步骤。
[0030]与现有技术相比,本专利技术的有益效果是:
[0031]本专利技术提供了基于图内图间联合信息传播的假新闻检测方法,其通过使用三阶文本图张量描述文本,达到丰富文本特征的目的,解决短文本存在的特征稀疏问题,提高了假新闻检测的精度。
[0032]本专利技术提供了基于图内图间联合信息传播的假新闻检测方法,其通过对文本进行图内图间联合信息传播,实现同构和异构信息的全局交互,解决长距离和非连续文本交互缺失问题,提高了文本表示的精确度。
附图说明
[0033]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0034]图1是本专利技术实施例一的基于图内图间联合信息传播的假新闻检测方法流程图;
[0035]图2是本专利技术实施例一的文本归一化流程图;
[0036]图3是本专利技术实施例一的语法特征提取流程图;
[0037]图4(a)是本专利技术实施例一的图内信息传播流程图;
[0038]图4(b)是本专利技术实施例一的图间信息传播流程图。
具体实施方式
[0039]下面结合附图与实施例对本专利技术作进一步说明。
[0040]应该指出本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于图内图间联合信息传播的假新闻检测方法,其特征在于,包括:获取待检测文本,并进行预处理;基于预处理后的文本,分别提取文本顺序特征、文本语法特征和文本语义特征,进而构建文本顺序图、文本语法图和文本语义图;基于文本顺序图、文本语法图和文本语义图,先进行图内信息交互,再进行图间信息交互后,得到联合信息文本顺序图、联合信息文本语法图和联合信息文本语义图;基于联合信息文本顺序图、联合信息文本语法图和联合信息文本语义图,通过图注意力机制和节点注意力机制,得到待检测文本的向量表示;将待检测文本的向量表示输入到分类器,得到待检测文本是否属于假新闻的结果。2.如权利要求1所述的基于图内图间联合信息传播的假新闻检测方法,其特征在于,所述预处理为对所述待检测文本进行归一化处理后,进行数据增强。3.如权利要求2所述的基于图内图间联合信息传播的假新闻检测方法,其特征在于,所述归一化处理包括:去除特殊字符、分词、删除停用词、词干提取和单词小写。4.如权利要求2所述的基于图内图间联合信息传播的假新闻检测方法,其特征在于,所述数据增强包括同义词替换、随机插入、随机交换和随机删除。5.如权利要求1所述的基于图内图间联合信息传播的假新闻检测方法,其特征在于,所述文本顺序特征的提取方法为:利用滑动窗口机制遍历所述预处理后的文本,计算每个单词对在同一滑动窗口中出现的次数,以及每个单词在所有滑动窗口中出现的次数;基于所述每个单词对在同一滑动窗口中出现的次数和每个单词在所有滑动窗口中出现的次数,获取文本顺序特征。6.如权利要求1所述的基于图内图间联合信息传播的假新闻检测方法,其特征在于,所述图内信息交互采用...

【专利技术属性】
技术研发人员:马坤崔本宽纪科陈贞翔杨波
申请(专利权)人:济南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1