【技术实现步骤摘要】
基于多级交互和图重构的异构图卷积谣言检测方法
[0001]本专利技术涉及基于多级交互和图重构的异构图卷积谣言检测方法,属于自然语言处理领域。
技术介绍
[0002]社交媒体中的谣言的早期检测需要考虑动态传播的语义信息,这是文本挖掘领域中一个重要而富有挑战性的任务。大多数的谣言检测方法只关注上下文信息、用户配置文件或传播模式的一部分,并且只有很少的人考虑在社交媒体上传播线索的全局级语义信息,然而,语义信息和传播模式对于社交媒体上的谣言检测都很重要。
[0003]随着NLP的快速发展,最近的许多研究已经融合多个特征来更好地实现检测。例如,Shu开发文本评论结合注意网络来学习句子和评论的可解释性;Wu提出一种自适应融合网络,实现文本与评论之间情感关联和语义冲突的交互融合,并建立特征关联,提高了谣言检测的性能。此外,图卷积网络(GCN)作为最近几年来很受欢迎的神经网络结构。一些研究探索了社交媒体信息的拓扑结构,以便从传播结构中获得有效的特征。Bian等人创建双向图卷积网络,通过自上而下和自下而上的模式研究谣言传播和扩散;Li ...
【技术保护点】
【技术特征摘要】
1.基于多级交互和图重构的异构图卷积谣言检测方法,其特征在于:所述方法的具体步骤如下:Step1、对谣言数据集进行预处理,通过词频
‑
逆文档频率TF
‑
IDF构建文本与词之间的关系E
pw
,互信息PMI来计算词与词节点之间边的权重E
ww
,用户转发或回复源推文的时间倒数构建文本与用户之间的关系权重E
pu
;将构建的文本
‑
词
‑
用户图分解为文本
‑
词子图和文本
‑
用户子图;Step2、通过双通道卷积层分别使用图卷积GCN和图注意力网络GAT学习子图节点特征,将图卷积层获得的节点特征利用变分图自编码VGAE实现图重构为节点寻找更好的嵌入向量,再对文本
‑
词子图中的全局语义关系和文本
‑
用户子图的用户传播信息嵌入向量利用决策级全局特征策略和自适应门控融合策略进行有效地过滤筛选,采用联合训练同时学习和更新各子图之间的参数。2.根据权利要求1所述的基于多级交互和图重构的异构图卷积谣言检测方法,其特征在于:所述Step1的具体步骤为:Step1.1、通过词频
‑
逆文档频率TF
‑
IDF、互信息PMI、用户转发或回复源推文的时间的倒数来计算边的权重,分别构建文本
‑
词关联图和文本
‑
用户子图:G=(V,E)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)V=(P,W,U)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)E=(E
pw
,E
ww
,E
pu
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中,V=(P,W,U)和E=(E
pw
,E
ww
,E
pu
)分别表示图中节点和边的集合,由三部分组成:句子集合P、词集合W和用户集合U,P={p1,p2,...,p
m
}是网络舆情下的多条文本信息,m表示文本数量,W={w1,w2,...,w
n
}是所有文本经过分词后的单词,U={u1,u2,...,u
o
}表示社交媒体中的用户集合;E
pw
,E
ww
,E
pu
分别代表文本与词、词与词、文本与用户之间的关系;Step1.2、对于文本与词的关系E
pw
,使用词频
‑
逆文档频率TF
‑
IDF的方法来计算句子节点i和词节点j之间边的权重,具体如下:TF
‑
IDF
ij
=TF
ij
×
IDF
J
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)Step1.3、为了利用词的全局共现信息,使用互信息PMI来计算词与词节点之间边的权重E
ww
;Step1.4、文本与用户之间的关系权重E
pu
是用户转发或回复与源推文相关的文本的时间倒数。3.根据权利要求1所述的基于多级交互和图重构的异构图卷积谣言检测方法,其特征在于:所述Step2的具体步骤如下:Step2.1、经过分解后的文本
‑
词子图节点表示为文本
‑
用户子图节点表示为X
’
P
和X
’
U
是通过变换矩阵变换后的节点表示;利用GCN对子图进行编码,首先采用GCN学习高斯分布,然后从该分布中采样z,高斯分布由均值μ和标准差σ分别唯一地确定,最后通过图重构生成一个新的邻接矩阵;
A
pw
和A
pu
分别表示文本
‑
词子图和文本
‑
用户子图之间关系的邻接矩阵,通过GCN分别学习均值μ和标准偏差σ,采用重新参数化方法构造z及更新梯度,公式如下:H1=GCN(X,A
pw
)=A
pw
σ(A
pw
XW0)W1,
ꢀꢀꢀꢀꢀꢀꢀꢀ
(6)μ=GCN
μ
(H1,A
pw
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)logσ=GCN
σ
(H1,A
pw
)
ꢀꢀꢀꢀꢀꢀ
(8)z
pw
=μ+∈σ
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)其中表示第一层GCN的隐藏向量,是A
pw
邻接矩阵的特征向量,∈是从标准高斯分布中取样的参数,W0,W1是GCN的可训练参数,GCN
μ
(H1,A
pw
)和GCN
σ
(H1,A
pw
)共享第一层GCN参数,采用相同的计算方法学习文本
‑
用户子图的高斯分布z
pu
;为了获得足够的表达能力,使用GAT学习子图中节点之间的权重,图注意力层的设计如下:e
ij
=LeakyReLU(W
a
x
i
,W
q
x
j
),x
i
,x
j
∈X
pw(pu)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)(10)其中W
a
,W
q
,W
k
为可训练...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。