一种基于预训练语言模型的多模态网络谣言检测方法技术

技术编号：24171111 阅读：104 留言：0更新日期：2020-05-16 02:59

本发明专利技术公开了一种基于预训练语言模型的多模态网络谣言检测方法，包括：获取待检测信息，所述待检测信息包括图像以及相关的文本信息；通过预训练的深度卷积神经网络提取图像的特征向量，通过预训练的语言模型提取文本信息的文本特征向量；将图像的特征向量与文本特征向量映射到同一个特征空间并进行连接，获得多模态特征向量；利用Softmax二分类器，获得待检测信息为谣言和非谣言这两个类别的概率。该方法可以实现网络谣言的自动、迅速和精确地检测。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于预训练语言模型的多模态网络谣言检测方法
本专利技术涉及网络空间安全
，尤其涉及一种基于预训练语言模型的多模态网络谣言检测方法。
技术介绍
当今社交网络平台用户活跃度最高，影响范围广泛，以微博平台为例，每天都有上亿用户发布并分享数量庞大，种类繁多的信息。同时，由于以上特点，这些社交网络平台很容易成为网络谣言滋长传播的土壤，因此针对网络谣言的自动检测和提前检测对网络空间安全具有重要意义。网络谣言检测最初基于人工的鉴别方法，经过人工审核、用户反馈和专业辟谣平台辟谣等方式进行鉴别。这类检测方法具有两个缺点。首先，该过程需要消耗大量人力资源，需要很多相关从业人员和用户的参与；其次，这些方法的效率较低，往往谣言已经经过一段时间的传播后，才能检测出结果，所以不能及时阻止谣言传播。为了提升检测速度、提高鉴别精度并减轻人力负担，基于特征工程的检测方法被提出。这类方法针对谣言的统计特征进行鉴别和分类，在一定程度上可以提高谣言检测效率。但是这类方法有两个缺陷，首先，选取合适的特征需要精心的设计和评估；其次，谣言的种类...

【技术保护点】
1.一种基于预训练语言模型的多模态网络谣言检测方法，其特征在于，包括：/n获取待检测信息，所述待检测信息包括图像以及相关的文本信息；/n通过预训练的深度卷积神经网络提取图像的特征向量，通过预训练语言模型提取文本信息的文本特征向量；/n将图像的特征向量与文本特征向量映射到同一个特征空间并进行连接，获得多模态特征向量；/n利用Softmax二分类器，获得待检测信息为谣言和非谣言这两个类别的概率。/n

【技术特征摘要】
20191225 CN 20191135576221.一种基于预训练语言模型的多模态网络谣言检测方法，其特征在于，包括：
获取待检测信息，所述待检测信息包括图像以及相关的文本信息；
通过预训练的深度卷积神经网络提取图像的特征向量，通过预训练语言模型提取文本信息的文本特征向量；
将图像的特征向量与文本特征向量映射到同一个特征空间并进行连接，获得多模态特征向量；
利用Softmax二分类器，获得待检测信息为谣言和非谣言这两个类别的概率。

2.根据权利要求1所述的一种基于预训练语言模型的多模态网络谣言检测方法，其特征在于，所述通过训练好的深度卷积神经网络提取图像的特征向量包括：
深度卷积神经网络包括依次连接若干卷积层以及全连接层，每一卷积层后都接入批标准化层进行正则化；经过若干卷积层处理得到的特征图通过全连接层进行整合，得到图像的特征向量。

3.根据权利要求1所述的一种基于预训练语言模型的多模态网络谣言检测方法，其特征在于，所述通过训练好的语言模型提取文本信息的文本特征向量包括：
对文本信息进行预处理，过滤掉特征字符与统一...

【专利技术属性】
技术研发人员：张勇东，毛震东，邓旭冉，王鹏辉，
申请(专利权)人：北京中科研究院，中国科学技术大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人