一种用于社交媒体的自演化假消息检测方法技术

技术编号:37292086 阅读:34 留言:0更新日期:2023-04-21 03:23
本发明专利技术公开了一种用于社交媒体的自演化假消息检测方法,收集社交媒体数据,利用深度学习模型提取特征训练分类器,并利用特征相似度迁移模型存储的已学习相似历史事件知识帮助实现对新事件假消息分类器的训练,实现持续假消息检测。该发明专利技术基于两个核心机制实现:一是基于硬注意力的知识存储机制,记忆单元用于存储历史事件知识,事件掩码作为每个事件在记忆单元中的唯一标识可以随时调用历史事件知识;二是基于多头自注意力的知识迁移机制,对历史事件知识进行融合以提升分类器在当前事件上的假消息检测效果。本发明专利技术可持续不断地对社交媒体上的假消息进行检测,无需存储历史数据从头开始训练模型,提升了假消息检测方法的自演化自适应能力。自演化自适应能力。自演化自适应能力。

【技术实现步骤摘要】
一种用于社交媒体的自演化假消息检测方法


[0001]本专利技术属于深度学习
,具体涉及一种自演化假消息检测方法。

技术介绍

[0002]社交媒体平台(如新浪微博、推特等)上传播的假消息对社会稳定、公共安全产生了负面影响,例如疫情假消息对人们的日常出行、购物均会产生消极影响,同时容易造成恐慌。自动假消息检测对于假消息的治理至关重要,多数方法通过提取消息中包含的词法特征、句法特征、主题特征、传播特征等训练机器学习或深度学习分类器来检测假消息。这类方法均基于假设“不同事件的假消息的特征分布满足独立同分布”,然而不同事件假消息的特征分布往往存在一定的偏移,因为每个事件的消息都有独特的用词和传播模式。当新事件(模型训练过程中未见过的事件)与训练集中事件的数据分布差异较大时,这类方法难以检测出新事件当中的假消息。已有研究通过提取不同事件假消息的可迁移特征来检测新事件中的假消息,这些方法借助领域自适应、领域泛化等迁移学习技术将历史事件数据与新事件数据映射到同一特征空间,然后缩小事件分布差异以获取可迁移特征,再训练分类器以提升模型的泛化性。然而现有方法仍本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于社交媒体的自演化假消息检测方法,其特征在于,包括以下步骤:步骤1:利用Word2Vec将事件E
t
中的消息数据转换为特定维度的特征向量表示,然后利用Text

CNN网络提取消息的局部语义特征向量c;步骤2:引入一个由l层全连接神经网络组成的知识记忆单元,并利用一层随机初始化全连接网络为每个事件计算它们的事件嵌入向量t表示事件E
t
,i表示对应的知识记忆单元中的第i层,即每个任务在知识记忆单元中的每一层都有一个对应的事件嵌入向量;步骤3:根据为每个事件计算事件掩码event mask,计算公式为:其中σ表示sigmoid函数,s表示一个扩展因子;将与知识记忆单元的每一层的输出相乘得到对应的特征向量保存知识记忆单元最后一层输出至集合{h
KM
}中;同时将每个事件的所有event mask保存到集合M={M1,M2,

,M
t
}中,其中步骤4:判断当前事件是否与历史事件相似,利用每个事件的第l个event mask计算事件之间的余弦相似度s
i
:若s
i
大于设定的阈值,则设置s
i
=1,表示事件E
i
与当前事件E
t
相似;否则设置s
i
=0,表示事件E
i
与当前事...

【专利技术属性】
技术研发人员:郭斌丁亚三刘琰李诺王柱梁韵基於志文张仕伟
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1