一种用于社交媒体上的谣言检测方法技术

技术编号:33029676 阅读:18 留言:0更新日期:2022-04-15 09:05
本发明专利技术公开了一种用于社交媒体上的谣言检测方法,先构建待验证话题及相关评论的传播树,然后根据传播树的一阶子节点划分为多个子树,视为整个话题下的多个子话题,通过动态图神经网络先以动态演变的方式更新子话题下的各个节点表示,然后利用多分支注意力层自底向上地递归式提取子话题的表示向量,最后再整合这些表示向量作为谣言检测的判断依据,完成社交媒体上的谣言检测。交媒体上的谣言检测。交媒体上的谣言检测。

【技术实现步骤摘要】
一种用于社交媒体上的谣言检测方法


[0001]本专利技术属于社交媒体上的谣言检测
,更为具体地讲,涉及一种用于社交媒体上的谣言检测方法。

技术介绍

[0002]谣言检测(RumorDetection)的主要任务是根据社交媒体上发布的消息,以及这些消息下的大量转发或回复形成的传播,进行判断其原始消息是否为谣言。因此消息的传播结构,时间轴,以及文本内容对于判断至关重要。现有的方法要么只采用时间轴,而忽略传播结构;要么只采用传播结构,而忽略时间轴;将二者融合的方法中,也只是将传播结构和时间轴以嵌入的方式叠加入文本特征中,而忽视了传播结构的动态性。
[0003]社交媒体上的谣言检测(RumorDetection),其主要目标是根据社交媒体上发布的消息,以及这些消息下的大量转发或回复形成的传播,进行判断其原始消息是否为谣言。经典的方法分为三类:1)将原始消息与回复/转发按发布的时间先后排序,然后排序后的序列分成多段,用词频

逆文本频率指数值(tf

idf)表示每个时间段,最后用循环神经网络(RNN)得到整个序列的表示,以此作为该原始消息传播的表示,进行分类;2)将消息在社交媒体上的传播过程绘制成传播树结构,每个节点表示用户针对原始消息发布的评论,通过递归地提取整个传播树的表示以进行分类;3)对用户发布消息的时间以及其在传播树上的相对位置进行编号,采用嵌入(embedding)的方式,得到用户评论的时间表示以及结构表示,再将其叠加入模型的计算中去,以做到时间信息,文本信息以及结构信息相融合。
[0004]然而,现有方法总是将传播树作为一个整体,希望通过提取传播树的表示找到谣言与非谣言的判断依据,却忽视在社交媒体中直接基于原始消息回复的一阶子节点所引领的讨论是相互独立的,而这独立的讨论中,可能就包含了针对原始消息判断的重要线索。
[0005]其次,针对时间信息和结构信息的融合,现有的方法是直接将其以嵌套(embedding)的方式静态进行融合,而忽视了其传播的结构是随着时间不断变化的,不同的变化顺序将带来不同的结果。
[0006]另外,现有方法主要采用时间段进行时间编码,例如以十分钟为一个时间段,在这十分钟内的发布的评论都视为同一编码,忽视了评论间的真实时间间隔对于控制消息间的影响力有着重要作用。两条评论时间相隔越远,其相互间的影响越小,因为后来者可能在这较长的时间内获得了其他先验的知识,反之亦然。

技术实现思路

[0007]本专利技术的目的在于克服现有技术的不足,提供一种用于社交媒体上的谣言检测方法,通过动态图神经网络与多分支注意力模块相结合的方式提取子话题的表示向量,最后再整合这些表示向量作为谣言检测的判断依据,完成社交媒体上的谣言检测。
[0008]为实现上述专利技术目的,本专利技术为一种用于社交媒体上的谣言检测方法,其特征在于,包括以下步骤:
[0009](1)、利用待验证的话题构建传播树;
[0010]将待验证的话题作为传播树的根节点,对话题的直接评论作为一阶子节点,对话题的评论的评论作为二阶子节点,然后以此类推,从而构建出传播树;
[0011](2)、分话题;
[0012]将传播树按其一阶子节点拆分为多个子话题,每个子话题也是一个传播树,然后将待验证话题添加到每一个传播树中,作为每一个传播树的根节点,从而构建出多个子话题传播树;
[0013](3)、利用动态图神经网络以节点流的方式更新各个子话题传播树;
[0014](3.1)、将每一个子话题中的节点视为一个文字序列,记为s
i
={w1,w2,

,w
l
,

,w
L
},w
l
表示第i个节点中第l个单词,L表示单词总数量;
[0015](3.2)、利用动态图神经网络中的初始化单元将文字序列s
i
初始化为文本特征矩阵,记为S
i
,S
i
的维度大小为L
×
d,d为单词对应的词向量维度;
[0016](3.3)、利用动态图神经网络中的Transformer单元将文本特征矩阵S
i
映射为特征向量;
[0017]利用Transformer的n头注意力层将文本特征矩阵S
i
先映射为查询矩阵键矩阵和值矩阵V
ij

[0018][0019]其中,j∈[1,n]表示第j个注意力头,为第j个注意力头的权值矩阵,其维度大小均为
[0020]然后通过注意力机制提取各个注意力头的交互信息
[0021][0022]其中,表示第j个注意力头的维度,上标T表示转置;
[0023]最后将各个注意力头间的交互信息连接起来再通过前向反馈网络得到第i个节点的特征矩阵然后通过最大池化层从中提取显著信息,从而获得第i个节点的特征向量其维度大小为1
×
d;
[0024](3.4)、利用动态图神经网络中的更新单元更新特征向量
[0025](3.4.1)、设置元数据包含四个部分:父节点部分、子节点部分、节点表示和更新时间;
[0026](3.4.2)、将特征向量更新为元数据其中,表示节点i作为父节点时的特征信息;为映射矩阵,用于将特征向量映射到父节点空间;表示节点i作为子节点时的特征信息;
为映射矩阵,用于将特征向量映射到子节点空间;表示节点i的节点表示;为权值矩阵;t
i
为更新时间,初始化为节点i出现的时间,即节点i所代表的评论信息发布的时间;
[0027](3.4.3)、根据评论关系在子传播树中搜索节点i的父节点,记为post
p
,并得到父节点的元数据
[0028](3.4.4)、将节点i与其父节点post
p
的节点表示进行融合,得到此时的上下文表示:
[0029][0030]其中,ReLU(
·
)为非线性激活函数,u
p
是父节点post
p
的当前节点表示,u
i
是子节点i的当前节点表示,和分别代表父节点和子节点的权重;
[0031](3.4.5)、利用对时间敏感的长短期记忆网络Time

ware LSTM将此时的上下文表示e更新入节点i及其父节点post
p
的节点表示中;
[0032]将e以及时间间隔Δt=t
i

t
p
输入至Time

ware LSTM,更新节点i的父节点post
p
的元数据:
[0033][0034][0035]其中,表示父节点post
p
更新后的元数据中其作为父节点的特征信息,为权值矩阵,u
p
(new)表示更新后的父节点pos本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于社交媒体上的谣言检测方法,其特征在于,包括以下步骤:(1)、利用待验证的话题构建传播树;将待验证的话题作为传播树的根节点,对话题的直接评论作为一阶子节点,对话题的评论的评论作为二阶子节点,然后以此类推,从而构建出传播树;(2)、分话题;将传播树按其一阶子节点拆分为多个子话题,每个子话题也是一个传播树,然后将待验证话题添加到每一个传播树中,作为每一个传播树的根节点,从而构建出多个子话题传播树;(3)、利用动态图神经网络以节点流的方式更新各个子话题传播树;(3.1)、将每一个子话题中的节点视为一个文字序列,记为s
i
={w1,w2,

,w
l
,

,w
L
},w
l
表示第i个节点中第l个单词,L表示单词总数量;(3.2)、利用动态图神经网络中的初始化单元将文字序列s
i
初始化为文本特征矩阵,记为S
i
,S
i
的维度大小为L
×
d,d为单词对应的词向量维度;(3.3)、利用动态图图神神经网络中的Transformer单元将文本特征矩阵S
i
映射为特征向量;利用Transformer的n头注意力层将文本特征矩阵S
i
先映射为查询矩阵键矩阵和值矩阵V
ij
;其中,j∈[1,n]表示第j个注意力头,为第j个注意力头的权值矩阵,其维度大小均为然后通过注意力机制提取各个注意力头的交互信息然后通过注意力机制提取各个注意力头的交互信息其中,表示第j个注意力头的维度,上标T表示转置;最后将各个注意力头间的交互信息连接起来再通过前向反馈网络得到第i个节点的特征矩阵然后通过最大池化层从中提取显著信息,从而获得第i个节点的特征向量其维度大小为1
×
d;(3.4)、利用动态图神经网络中的更新单元更新特征向量(3.4.1)、设置元数据包含四个部分:父节点部分、子节点部分、节点表示和更新时间;(3.4.2)、将特征向量更新为元数据其中,表示节点i作为父节点时的特征信息;为映射矩阵,用于将特征向量映射到父节点空间;表示节点i作为子节点时的特征信息;
为映射矩阵,用于将特征向量映射到子节点空间;表示节点i的节点表示;为权值矩阵;t
i
为更新时间,初始化为节点i出现的时间,即节点i所代表的评论信息发布的时间;(3.4.3)、根据评论关系在子传播树中搜索节点i的父节点,记为post
p
,并得到父节点的元数据(3.4.4)、将节点i与其父节点post
p
的节点表示进行融合,得到此时的上下文表示:其中,ReLU(
·
)为非线性激活函数,u
p
是父节点post
p
的当前节点表示,u
i
是子节点i的当前节点表示,和分别代表父节点和子节点的权重;(3.4.5)、利用对时间敏感的长短期记忆网络Time

ware LSTM将此时的上下文表示e更新入节点i及其父节点post
p
的节点表示中;将e以及时间间隔Δt=t
i

t
p
输入至Time

ware LSTM,更新节点i的父节点post
p
的元数据:的元数据:其中,表示父节点post
p
更新后的元数据中其作为父节点的特征信息,为权值矩阵,u
p
(new)表示更新后的父节点post
p
的节点表示;将e以及时间间隔Δt=0输入至Time

ware LSTM,更新节点i的元数据:LSTM,更新节点i的元数据:其中,表示节点i更新后的元数据中其作为子节点的特征信息,表示权值矩阵,u
i
(new)表示更新后的节点i的节点表示;更新完成后,节点i的...

【专利技术属性】
技术研发人员:杨阳李骏宾燚
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1