基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号:31238491 阅读:18 留言:0更新日期:2021-12-08 10:25
本发明专利技术公开了一种基于注意力机制多特征融合的虚信息检测方法、装置、电子设备及存储介质,获取微博和推特数据集,对所述微博和推特数据集中文本和图片进行预处理;将预处理得到的文本数据输入到BERT预训练模型中获取语义信息提取文本特征向量;将文本数据输入到情感特征提取器中提取到文本中的情感特征向量;将预处理得到的图片数据输入到VGG

【技术实现步骤摘要】
基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质


[0001]本专利技术涉及信息
中的自然语言处理领域,尤其涉及深度学习、多模态特征融合等
,具体地提供一种基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质。

技术介绍

[0002]网络和社交媒体的快速发展,降低了传播信息的成本,使得人们之间的交流更加频繁。但这也给虚假信息的迅速传播提供了机会。微博,推特等社交媒体因及时和全面的提供世界各地的新闻,也已经成为各种领域中重要的新闻媒体和舆论平台。
[0003]现在的自媒体还是专业媒体都开始向基于图、文、短视频的多媒体新闻形式转变。多媒体内容承载着更加丰富与直观的信息。虚假信息中真实图片和虚假文本、虚假图片和真实文本的结合让单一模态的虚假信息检测的性能直线下降。如何充分利用多模态的信息,准确快速地识别虚假信息是一个挑战。因此针对虚假信息的有效迅速检测具有重要的意义。
[0004]近年来,因神经网络和深度学习模型的进展迅速,产生了同时利用文本和视觉模态信息来判别真实性的多模态检测方法。在现有工作中,具有代表性的包括:attRNN、EANN、MVAE和BDANN。这些方法虽然在多模态形式的虚假信息检测中提供了启发式的思路,但仍有缺点。一是对于图像和文本两种信息的提取过程仍比较粗糙;二是在特征融合阶段往往都是将两种模态特征简单拼接,并未发挥多模态的优势。

技术实现思路

[0005]本专利技术目的在于。提供一种基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备以及存储介质。该方法获取微博和推特数据集,对所述微博和推特数据集中文本和图片进行预处理;将预处理得到的文本数据输入到BERT预训练模型中获取语义信息提取文本特征向量;将文本数据输入到情感特征提取器中提取到文本中的情感特征向量;将预处理得到的图片数据输入到VGG

19预训练模型中提取视觉特征;通过注意力机制融合文本特征和情感特征,形成文本情感融合特征;将多模态特征输入到虚假信息识别器和领域分类器中,得到最终的分类结果。本专利技术通过增加情感特征以及用注意力机制融合的方式,有效地利用了多模态的优势,提高了虚假信息检测的准确率。
[0006]本专利技术所述的一种基于注意力机制多特征融合的虚假信息检测方法,按下列步骤进行:
[0007]a、获取微博和推特数据集,对所述微博和推特数据集中文本和图片进行预处理,包括数据清洗、图片大小格式转换、中文数据集进行分词、去停用词、推特数据集非英文文本统一翻译为英文,并将两个数据集划分为训练集、验证集和测试集,并通过聚类方法,为每条数据附上领域标签;
[0008]b、将步骤a得到的预处理文本数据输入到BERT预训练模型中,获取语义信息提取文本特征向量是在句子的开始位置添加特殊标记[CLS],结束位置添加特殊标记[SEP],使用BERT语言模型进行编码,最终取[CLS]位置处的输出向量作为整个句子的语义表示;
[0009]c、将原始文本数据输入到情感特征提取器分别提取情感分类、情感词汇、情感强度和情感辅助特征组成文本中的情感特征向量;
[0010]d、将步骤a得到的预处理图片数据转换为224
×
224
×
3,输入到VGG

19预训练模型中获得图片的视觉表示;
[0011]e、通过注意力机制融合步骤b文本特征和步骤c情感特征,通过软性注意力机制融合得到文本情感特征;
[0012]f、将步骤e所述的融合得到的文本情感特征与步骤d视觉特征通过Pytorch框架进行拼接,得到最终的多模态特征向量;
[0013]g、将步骤f中所述的多模态特征输入到虚假信息识别器和领域分类器中,得到最终的分类结果。
[0014]步骤a所述训练集、验证集和测试集中所含的数据分别属于不同领域。
[0015]步骤e中所述文本特征向量设置为Key和Value,情感特征向量设置为Query。
[0016]一种基于注意力机制多特征融合的虚假信息检测装置,该装置是由数据预处理模块、文本特征提取模块、视觉特征提取模块、情感特征提取模块、多特征融合模块、虚假信息判别模块和领域分类模块组成,其中:
[0017]数据预处理模块:获取微博和推特数据集,对所述微博和推特数据集中文本和图片进行预处理;包括:数据集切分单元、领域聚类单元、文本数据预处理单元和图片数据预处理单元;
[0018]文本特征提取模块:提取数据集文本中的语义信息,用于句子的开始位置添加特殊标记[CLS],结束位置添加特殊标记[SEP],使用BERT语言模型进行编码,最终取[CLS]位置处的输出向量作为整个句子的语义表示,并转换成文字特征向量;
[0019]视觉特征提取模块:提取数据集图片中的视觉信息,转换为224
×
224
×
3的图片,使用预训练好的VGG

19模型进行提取,获得图片的视觉特征向量;
[0020]情感特征提取模块:提取数据集文本中的情感信息,分别是情感分类、情感词汇、情感强度和情感辅助特征,最后组合成情感特征向量;
[0021]多特征融合模块:用于将提取的文本特征与情感特征,通过注意力机制融合,得到新的文本情感联合表示,并将视觉特征与文本情感特征进行拼接得到最终的多模态特征,包括注意力机制融合单元:用于将文本特征和情感特征通过软性注意力机制融合得到文本情感联合表示;特征拼接单元:将文本情感联合特征与视觉特征通过拼接的方式组成最后的多模态特征;
[0022]虚假信息判别模块:用于将基于融合得到的多模态特征通过softmax函数进行虚假信息判别,输出最后结果,对虚假信息进行分类;
[0023]领域分类模块:用于对输入文本的所属领域进行分类。
[0024]数据预处理模块中的数据集切分单元:用于将微博数据集和推特数据集划分为训练集、验证集和测试集;领域聚类单元:对数据集中的文本进行聚类,属于统一领域的数据拥有相同的领域标签;文本数据预处理单元:删除重复数据、中文数据集文本进行分词、去
停用词、推特数据集非英文文本统一翻译为英文;图片数据预处理单元:删除重复数据、原始图片转换为224
×
224
×
3格式。
[0025]一种电子设备,该设备包括至少一个处理器;至少一个GPU计算卡;以及与处理器通信连接的存储器;其中:所述存储器存储有至少一个处理器执行的指令,所述指令被至少一个处理器执行或至少一个GPU计算卡执行,以使至少一个处理器能或至少一个GPU计算卡能够执行权利要求1

3中所述的方法。
[0026]一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1

3中所述的方法。
附图说明
[0027]图1为本专利技术提供的基于注意力机制多特征融合的虚假信息检测方法结构本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制多特征融合的虚假信息检测方法,其特征在于,按下列步骤进行:a、获取微博和推特数据集,对所述微博和推特数据集中文本和图片进行预处理,包括数据清洗、图片大小格式转换、中文数据集进行分词、去停用词、推特数据集非英文文本统一翻译为英文,并将两个数据集划分为训练集、验证集和测试集,并通过聚类方法,为每条数据附上领域标签;b、将步骤a得到的预处理文本数据输入到BERT预训练模型中,获取语义信息提取文本特征向量是在句子的开始位置添加特殊标记[CLS],结束位置添加特殊标记[SEP],使用BERT语言模型进行编码,最终取[CLS]位置处的输出向量作为整个句子的语义表示;c、将原始文本数据输入到情感特征提取器分别提取情感分类、情感词汇、情感强度和情感辅助特征组成文本中的情感特征向量;d、将步骤a得到的预处理图片数据转换为,输入到VGG

19预训练模型中获得图片的视觉表示;e、通过注意力机制融合步骤b文本特征和步骤c情感特征,通过软性注意力机制 融合得到文本情感特征;f、将步骤e所述的融合得到的文本情感特征与步骤d视觉特征通过Pytorch框架进行拼接,得到最终的多模态特征向量;g、将步骤f中所述的多模态特征输入到虚假信息识别器和领域分类器中,得到最终的分类结果。2.根据权利要求1所述的一种基于注意力机制多特征融合的虚假信息检测方法,其特征在于,步骤a所述训练集、验证集和测试集中所含的数据分别属于不同领域。3.根据权利要求1所述的一种基于注意力机制多特征融合的虚假信息检测方法,其特征在于,步骤e中所述文本特征向量设置为Key和Value,情感特征向量设置为Query。4.一种基于注意力机制多特征融合的虚假信息检测装置,其特征在于,该装置是由数据预处理模块、文本特征提取模块、视觉特征提取模块、情感特征提取模块、多特征融合模块、虚假信息判别模块和领域分类模块组成,其中:数据预处理模块:获取微博和推特数据集,对所述微博和推特数据集中文本和图片进行预处理;包括:数据集切分单元、领域聚类单元、文本数据预处理单元和图片数据预处理单元;文本特征提取模块:提取数据集文本中的语义信息,用...

【专利技术属性】
技术研发人员:马博地力夏提
申请(专利权)人:中国科学院新疆理化技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1