System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及虚假新闻检测,特别涉及一种链接外部知识库的虚假新闻对抗检测系统及方法。
技术介绍
1、信息时代,互联网与社交媒体的快速发展降低了人们获取信息资源的门槛、提高了人们传播信息的速度,也同时带来了虚假新闻泛滥问题。随着新闻创作与获取的门槛大幅降低,新闻的权威性受到极大挑战,验证新闻真实性的假新闻检测已经变得紧迫而重要。从个人角度来看,假新闻的迅速传播可能会对新闻当事人产生不可磨灭的负面影响,进而给当事人带来困扰;从社会角度来看,社交媒体虚假新闻的广泛传播会在政治、经济、军事和社会民生等领域带来严重危害,破坏社会和谐,引发经济与政治动荡。因此,检测假新闻对于稳定社会秩序,正确维护社会舆论以及保护国家形象等方面具有不可估量的积极意义。
2、现有的假新闻检测方法已从文本、图像的检测发展至多模态检测,并结合新闻自身所隐含内容及用户交互行为进行多维度检测;现阶段越来越多的新闻中包含了文本、图像、视频等不同模态的信息,多模态新闻检测分别对网络虚假新闻的文本和图像特征进行提取,并将提取的文本内容特征和图像内容特征融合成新的参数的多模态特征作为输入进行虚假新闻检测,该方法与单模态假新闻检测相比,大幅提高了检测准确率;但现阶段多模态特征融合多以简单拼接为主,忽略了不同模态之间的特征相关性。此外,每个模态的特征多为独立提取,并未利用其他模态的相关信息,这使得不同模态特征融合缺少相关性。
技术实现思路
1、为解决上述问题,本专利技术提供了一种链接外部知识库的虚假新闻对抗检测系统,具体
2、系统包括多模态特征提取单元、外部知识库比较单元以及分类识别模型,所述分类识别模型包括事件分类器以及虚假新闻检测单元;
3、所述多模态特征提取单元包括文本多模态特征提取层、图像多模态特征提取层和全连接层;
4、所述外部知识库比较单元包括实体表示和实体比较,所述实体表示包括文本表示和图像表示;
5、所述事件分类器包括全连接层及其对应的激活函数,与所述多模态特征提取单元连接,用于对不同事件进行分类并评估不同事件的相似性;
6、所述虚假新闻检测单元包括一个全连接层,与所述多模态特征提取单元连接,用于寻求最优参数完成对中英文图文混合新闻真伪互证辨别;
7、所述分类识别模型的损失函数如下:
8、lfinal(θf,θd,θe)=ld(θf,θd)-λle(θf,θe)
9、其中,le(θf,θe)表示事件分类器的分类损失,ld(θf,θd)表示虚假新闻检测器的检测损失,λ表示假新闻检测损失函数与事件分类损失函数之间的权重参数。
10、进一步的,所述文本多模态特征提取层采用卷积神经网络为核心架构进行文本多模态特征提取,利用不同大小窗口的卷积核提取新闻本体文本特征并与发布该新闻的社交媒体用户的其它文本特征进行链接;
11、所述图像多模态特征提取层,采用vgg-19对图像的不同位置赋予不同权重,基于不同权重设置不同的卷积核,进行特征提取,权重较高的部分采用的卷积核较小。
12、进一步的,所述事件分类器的分类损失通过交叉熵进行定义,分类损失函数,表示如下:
13、
14、其中,gf(m;θf)表示多模态特征提取器,m表示一个图文混合新闻数据,θf表示要学习的参数,ge(rf;θe)表示事件分类器,θe表示事件分类器的参数,rf表示融合后得到实体多模态特征,ye表示事件标签集。
15、进一步的,所述虚假新闻检测器采用交叉熵计算检测损失,检测损失表示如下:
16、
17、其中,y表示数据真假标签,pθ(m)表示图文混合新闻数据的识别检测结果,θf表示要学习的参数。
18、本专利技术还提供了一种链接外部知识库的虚假新闻对抗检测方法,具体如下:
19、s1:获取公开的包含图像和文本混合信息的新闻数据,并基于设定的语言和判别的真实性结果,对新闻数据进行分类处理,构建新闻数据集;
20、s2:对构建的新闻数据集进行预处理,将图像和文本数据分离,并输入到多模态特征提取单元进行对应的多模态特征提取;
21、s3:将提取的文本多模态特征和图像多模态特征进行融合得到实体多模态特征;
22、s4:提取实体的文本和图像特征获取实体的文本表示和图像表示,并通过门控函数对不同来源的实体嵌入进行整合,得到知识库的实体表示;
23、s5:将得到的知识库的实体表示与提取到的实体多模态特征链接,进行实体对比,获取新闻内容和知识库之间的语义、图像一致性,并建立对应的基于知识库的实体表示之间的对比向量;
24、s6:通过事件分类器基于多模态特征进行事件分类;
25、s7:将多模态特征输入到虚假新闻检测器中,进行混合新闻的真实性的识别,获得识别结果。
26、进一步的,所述设定的语言包括中文和英文,构建的所述新闻数据集包括中文真实新闻数据集、英文真实新闻数据集、中文虚假新闻数据集、中文虚假新闻数据集。
27、进一步的,所述文本特征的提取,具体过程如下:
28、将文本中的每个单词都表示为单词嵌入向量,并进行初始化,获取具有n个单词的句子的表示:
29、t1:n=t1⊕t2⊕...⊕tn;
30、将relu函数作为激活函数,对于每个特征向量,利用最大池化操作取最大值,然后利用不同大小的窗口,提取具有不同粒度的文本特征。
31、进一步的,所述图像特征的提取,具体过程如下:
32、对图像进行分块处理,然后进行微分滤波,得到各个分块的复杂度参数,根据复杂度参数设定权重;
33、将处理后的图像输入到vgg-19模型中,根据权重设定不同的卷积核,提取图像特征。
34、进一步的,步骤s3中,通过所述全连接层,将提取得到的文本多模态特征和图像多模态特征调整为相同维度尺寸,通过串联将文本多模态特征和图像多模态特征进行融合。
35、进一步的,步骤s4中,将外部知识库对于实体描述的第一段作为该实体的文本描述,通奴工lstm来学习对实体基于文本的描述,进行编码后得到该实体的文本表示;
36、将外部知识库对于实体的第一张主图作为该实体的图像描述,通过vgg-19来学习对实体基于图像的描述,进行编码后得到该实体的图像表示;
37、通过门控函数进行整合,得到所述实体表示:
38、eb=ge⊙et+(1-ge)⊙ev
39、其中,表示门控向量,(用于对两个来源的信息之间做权衡,其元素的取值范围是[1,0],满足文本表示和图像表示的各维度权重相加);为文本表示,为图像表示,为实体表示。
40、进一步的,步骤s6中,将多模态特征输入到虚假新闻检测器中,进行混合新闻的真实性的识别,具体表示如下:
41、pθ(mi)=gd(gf(mi;θf);θd)
本文档来自技高网...【技术保护点】
1.一种链接外部知识库的虚假新闻对抗检测系统,其特征在于,系统包括多模态特征提取单元、外部知识库比较单元以及分类识别模型,所述分类识别模型包括事件分类器以及虚假新闻检测单元;
2.根据权利要求1所述的链接外部知识库的虚假新闻对抗检测系统,其特征在于,所述文本多模态特征提取层采用卷积神经网络为核心架构进行文本多模态特征提取,利用不同大小窗口的卷积核提取新闻本体文本特征并与发布该新闻的社交媒体用户的其它文本特征进行链接;
3.根据权利要求1所述的链接外部知识库的虚假新闻对抗检测系统,其特征在于,所述事件分类器的分类损失通过交叉熵进行定义,分类损失函数,表示如下:
4.根据权利要求1所述的链接外部知识库的虚假新闻对抗检测系统,其特征在于,所述虚假新闻检测器采用交叉熵计算检测损失,检测损失表示如下:
5.一种链接外部知识库的虚假新闻对抗检测方法,其特征在于,包括:
6.根据权利要求5所述的链接外部知识库的虚假新闻对抗检测方法,其特征在于,所述设定的语言包括中文和英文,构建的所述新闻数据集包括中文真实新闻数据集、英文真实新闻数据集
7.根据权利要求5所述的链接外部知识库的虚假新闻对抗检测方法,其特征在于,文本多模态特征的提取,具体过程如下:
8.根据权利要求5所述的链接外部知识库的虚假新闻对抗检测方法,其特征在于,图像多模态特征的提取,具体过程如下:
9.根据权利要求5所述的链接外部知识库的虚假新闻对抗检测方法,其特征在于,步骤S4中,将外部知识库对于实体描述的第一段作为该实体的文本描述,通奴工LSTM来学习对实体基于文本的描述,进行编码后得到该实体的文本表示;
10.根据权利要求5所述的链接外部知识库的虚假新闻对抗检测方法,其特征在于,步骤S6中,将多模态特征输入到虚假新闻检测器中,进行混合新闻的真实性的识别,具体表示如下:
...【技术特征摘要】
1.一种链接外部知识库的虚假新闻对抗检测系统,其特征在于,系统包括多模态特征提取单元、外部知识库比较单元以及分类识别模型,所述分类识别模型包括事件分类器以及虚假新闻检测单元;
2.根据权利要求1所述的链接外部知识库的虚假新闻对抗检测系统,其特征在于,所述文本多模态特征提取层采用卷积神经网络为核心架构进行文本多模态特征提取,利用不同大小窗口的卷积核提取新闻本体文本特征并与发布该新闻的社交媒体用户的其它文本特征进行链接;
3.根据权利要求1所述的链接外部知识库的虚假新闻对抗检测系统,其特征在于,所述事件分类器的分类损失通过交叉熵进行定义,分类损失函数,表示如下:
4.根据权利要求1所述的链接外部知识库的虚假新闻对抗检测系统,其特征在于,所述虚假新闻检测器采用交叉熵计算检测损失,检测损失表示如下:
5.一种链接外部知识库的虚假新闻对抗检测方法,其特征在于,包括:
6.根据权利要求5...
【专利技术属性】
技术研发人员:刘鑫,戴礼灿,王侃,张海瀛,宋丹,
申请(专利权)人:中国电子科技集团公司第十研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。