【技术实现步骤摘要】
多模态信息性推文检测方法及系统
[0001]本专利技术属于信息处理
,尤其涉及多模态信息性推文检测方法及系统。
技术介绍
[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]近年来,社交媒体的迅速普及,使其成为各种公共事件期间沟通与交流的重要渠道,用户在社交媒体上发布的推文可应用于情感分析、医学研究以及危机信息检测等多个领域,并且,用户发布的海量、实时性的推文发挥着对传统媒体的补充作用,尤以公共危机事件期间为例,用户发布的推文中通常包含基础设施损坏情况、人员伤亡情况以及对该事件的看法,已有研究表明,若能有效地筛选和分析有关危机事件的推文,将对人道主义救援活动的规划与开展起到支撑作用。
[0004]人工筛选明显不是一种可行的方案,因此,挑战之一在于如何从海量推文中筛选信息性的推文。推文中通常包含文本与图像两种模态的数据,不同模态之间的数据具有互补信息却又存在一定的异质性差异,已有研究采用单模态的图像数据或文本数据进行推文的筛选与分析,但忽略了多模态数据之间 ...
【技术保护点】
【技术特征摘要】
1.多模态信息性推文检测方法,其特征是,包括:分别提取多模态信息性推文中的图像模态数据特征以及文本模态数据特征;将上述来自不同模态的特征映射到同一数据域中,分别获取文本数据域下分类决策结果及图像数据域下的分类决策结果;将上述两个数据域下的分类决策结果进行加权融合获得最终的分类决策结果。2.如权利要求1所述的多模态信息性推文检测方法,其特征是,提取图像模态数据特征之前需要进行预处理:将图像调整为统一大小,之后,使用随机水平翻转与随机垂直翻转对图像数据集进行增广,然后将图像处理为数组之后进行归一化。3.如权利要求2所述的多模态信息性推文检测方法,其特征是,预处理步骤之后进行特征提取步骤,具体为:将经过预处理后的图像数据作为输入进行特征提取,获取图像数据的多通道特征;之后对多通道特征进行序列信息依赖学习,获取多通道特征之间的相关性;将最终全连接层的输出作为最终的图像特征。4.如权利要求1所述的多模态信息性推文检测方法,其特征是,采用ResNet
‑
A对多通道特征进行序列信息依赖学习,包括:由各个多通道特征分别生成q
i
,k
i
,v
i
矩阵,之后通过计算q
i
与k
j
之间的相似性,得到关于q
i
与k
j
的权重系数,通过对v
j
加权求和得到最终的注意力数值h
i
将得到的注意力数值进行拍平并使用一层全连接层对得到的特征进行整流。5.如权利要求1所述的多模态信息性推文检测方法,其特征是,提取文本模态数据特征之前需要进行预处理:将文本句子中的转发标题用户句柄、以及停用词和标点符号进行删除,之后对句子进行分词操作,最后在每个句子的开头与结尾分别加入设定字符生成经过...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。