当前位置: 首页 > 专利查询>广州大学专利>正文

一种基于多模态异常检测机制的假新闻识别方法技术

技术编号:36520753 阅读:10 留言:0更新日期:2023-02-01 15:56
本发明专利技术公开了一种基于多模态异常检测机制的假新闻识别方法,包括如下步骤:S1,从新闻网站中获取新闻中图片和文本的信息;S2,根据具体的算法挖掘图片和文本的相关信息;S3,检测输入的新闻中的图片和文本信息是否一致,判别真假新闻。本发明专利技术首次提出一种基于多模态异常检测机制的假新闻识别检测新方法,解决了单模态假新闻识别方法的盲区,旨在挖掘和利用图片中区域特征和文本中单词特征之间的具体关系。系。系。

【技术实现步骤摘要】
一种基于多模态异常检测机制的假新闻识别方法


[0001]本专利技术属于人工智能
,特别涉及一种基于多模态异常检测机制的假新闻识别方法。

技术介绍

[0002]目前,虚假新闻会对个人、国家和社会造成十分严重的影响,利用AI技术来识别假新闻有着巨大的实际需求。基于文本分析的假新闻识别方法会找到文本上下文的语义不一致,以此判别是否为假新闻。基于图像造假检测的假新闻识别方法可以鉴别出新闻中的图片是否被修改,以此判别是否为假新闻。
[0003]现有的技术无论是基于文本分析的还是基于图像造假检测的假新闻识别方法,都只利用文本和图像等单模态数据,而对于包含文本和图像新闻来说,这些方法没有充分考虑新闻的多模态属性以及多模态数据之间的联系,对假新闻的识别准确性较差。在假新闻中,有一种新闻是图片是没经过任何修改,文本的上下文语义也一致,但是由于图片和文本不匹配而导致的虚假新闻。无论是基于文本分析的方法或者是基于图像造假检测的方法都无法识别该类型的虚假新闻,这是基于单模态假新闻识别方法的盲区。

技术实现思路

[0004]针对图片和文本不匹配导致的虚假新闻,本专利技术提供一种基于多模态异常检测机制的假新闻识别方法,以解决现有的假新闻识别方法的盲区问题。
[0005]本专利技术提供如下的技术方案:
[0006]一种基于多模态异常检测机制的假新闻识别方法,其特征在于,其包括如下步骤:
[0007]S1,从新闻网站中获取新闻中图片和文本的信息;
[0008]S2,根据具体的算法挖掘图片和文本的相关信息;
[0009]S3,检测输入的新闻中的图片和文本信息是否一致,判别真假新闻。
[0010]进一步地,所述S2中的根据具体的算法挖掘图片的相关信息,包括:将图片通过Faster

Rcnn得到图片特征I={I1,I2,

,I
m
},其中Faster

Rcnn的作用是提取图片中区域的特征,I
m
为单个区域的特征,m为区域的个数。
[0011]进一步地,所述S2中的根据具体的算法挖掘文本的相关信息,包括:将文本通过BERT得到文本特征为C={C1,C2,

,C
n
},其中BERT的作用是提取文本中单个单词的特征,C
n
为单个区域的特征,n为单词的个数。
[0012]进一步地,所述S2中的根据具体的算法挖掘图片和文本的相关信息,包括:将图片与文本特征通过全连接层映入相同语义空间,公式如下:
[0013]I

=W
img
I;
[0014]C

=W
cap
C。
[0015]其中C为文本特征,I为图片特征;W
img
是对图片进行嵌入处理的全连接层中需要学习的参数,W
caP
是对文本进行嵌入处理的全连接层中需要学习的参数;C

为文本有包含单词
特征的文本特征,C={C1,C2,...,C
n
};I

为图片有包含区域特征的图片特征,I

={I
′1,I
′2,...,I

m
}。
[0016]进一步地,所述S2中的根据具体的算法挖掘图片和文本的相关信息包括:
[0017]在图卷积神经网络的传导规则中,需要输入邻接矩阵和节点特征矩阵;对于邻接矩阵,使用扩展后的相关性矩阵代替;在同一语义空间中,对于图片有包含区域特征的图片特征I

={I
′1,I
′2,...,I

m
},对于文本有包含单词特征的文本特征C

={C
′1,C
′2,...,C

n
};
[0018]为了得到图片和文本的相关性,引入Attontion机制来获取图片中不同区域和文本中不同单词的相关性矩阵,利用通过下列公式计算得到相关性矩阵A:
[0019][0020]其中I

i
是有包含区域特征的图片特征,C

j
是有包含单词特征的文本特征,T为线性代数中的转置符号;i为图片中图片区域的标号,j为文本中单词的标号;A
ij
表示图片中不同区域和文本中不同单词的相关性矩阵;
[0021]将扩展后的矩阵作为图的邻接矩阵,使后续的图卷积神经网络在挖掘图中节点信息时可以抓住重点,挖掘出图片区域和文本单词的重要相关信息;
[0022]对于节点特征,将同一语义空间中的图片和文本特征进行拼接作为节点特征作为输入;通过以下公式将图片和文本特征拼接,可以得到图中每个节点的特征:
[0023]X=concat{I

,C

};
[0024]其中concat函数的作用是将两个特征在第一维进行拼接;C为图片有包含区域特征的图片特征,C

={C
′1,C
′2,...,C

n
};I

为文本有包含单词特征的文本特征,I

={I
′1,I
′2,...,I

m
};
[0025]为了挖掘图中节点之间的相关性信息,使用两层图卷积层对信息进行获取,通过两层图卷积神经网络可得到图中每个节点对该图的贡献程度,通过以下公式计算:
[0026][0027][0028]其中f(X,A)是图卷积神经网络的传导函数,W
(0)
是第一层图卷积层需要学习的参数,Z
(0)
是第一层图卷积层的输出,W
(1)
是第二层图卷积层需要学习的参数;X为图片特征和文本特征拼接后的全部节点特征,A为由相关性矩阵得到的扩展矩阵,是经过归一化后的邻接矩阵。
[0029]进一步地,所述S3中的检测输入的新闻中的图片和文本信息是否一致包括:
[0030]经过两层图卷积层后,加入一层全连接层对输入的图片和文本是否一致进行预测,通过以下公式进行实现:
[0031]Y=WZ
(1)
[0032]其中Y为预测结果,W为最后的全连接层需要学习的参数,Z
(1)
为两层卷积层后的输出。
[0033]与现有技术相比,本专利技术技术方案的有益效果是:
[0034]本专利技术首次提出一种基于多模态异常检测机制的假新闻识别检测新方法,解决了单模态假新闻识别方法的盲区,旨在挖掘和利用图片中区域特征和文本中单词特征之间的具体关系。
[0035]能快速准确地检测出输入的图片和文本是否一致,主要应用是进行假新闻识别在图片和文本一致性上的检测,以辅助甄别真假新闻。
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态异常检测机制的假新闻识别方法,其特征在于,其包括如下步骤:S1,从新闻网站中获取新闻中图片和文本的信息;S2,根据具体的算法挖掘图片和文本的相关信息;S3,检测输入的新闻中的图片和文本信息是否一致,判别真假新闻。2.根据权利要求1所述的基于多模态异常检测机制的假新闻识别方法,其特征在于,所述S2中的根据具体的算法挖掘图片的相关信息,包括:将图片通过Faster

Rcnn得到图片特征I={I1,I2,

,I
m
},其中Faster

Rcnn的作用是提取图片中区域的特征,I
m
为单个区域的特征,m为区域的个数。3.根据权利要求1所述的基于多模态异常检测机制的假新闻识别方法,其特征在于,所述S2中的根据具体的算法挖掘文本的相关信息,包括:将文本通过BERT得到文本特征为C={C1,C2,

,C
n
},其中BERT的作用是提取文本中单个单词的特征,C
n
为单个区域的特征,n为单词的个数。4.根据权利要求1所述的基于多模态异常检测机制的假新闻识别方法,其特征在于,所述S2中的根据具体的算法挖掘图片和文本的相关信息,包括:将图片与文本特征通过全连接层映入相同语义空间,公式如下:I'=W
img
I;C'=W
cap
C;其中C为文本特征,I为图片特征;W
img
是对图片进行嵌入处理的全连接层中需要学习的参数,W
cap
是对文本进行嵌入处理的全连接层中需要学习的参数;C

为文本有包含单词特征的文本特征,C

={C
′1,C
′2,...,C

n
};I

为图片有包含区域特征的图片特征,I

={I
′1,I
′2,...,I

m
}。5.根据权利要求1所述的基于多模态异常检测机制的假新闻识别方法,其特征在于,所述S2中的根据具体的算法挖掘图片和文本的相关信息包括:在图卷积神经网络的传导规则中,需要输入邻接矩阵和节点特征矩阵;对于邻接矩阵,使用扩展后的相关性矩阵代替;在同一语义空间中,对于图片有包含区域特征的图片特征I'={I
′1,I
′2,...,I

m
},对于...

【专利技术属性】
技术研发人员:郑立刚徐翰
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1