当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于图卷积网络和外部知识嵌入的粤语谣言检测方法技术

技术编号:38893491 阅读:108 留言:0更新日期:2023-09-22 14:16
本发明专利技术公开了一种基于图卷积网络和外部知识嵌入的粤语谣言检测方法,首先采集社交网络平台上的包含原始推文、转推和评论的粤语谣言数据,并严格地进行了人工标注,构建一个较为完善的结构化粤语谣言数据集;其次构建一个有向异质知识图,使用异质图卷积神经网络获取外部知识嵌入;之后使用BERT提取推文的文本特征,并通过对比网络获取推文文本和外部知识的相关性向量;此外使用双向图卷积神经网络获取谣言传播过程中的结构特征;最终,构建了基于嵌入外部知识的双向图卷积神经网络的粤语谣言检测模型BGK,融合文本特征、对比特征和结构特征,实现对粤语谣言的分类。本发明专利技术的检测模型具有很好的检测效果,泛化能力强,并具有较好的抗噪声的能力。好的抗噪声的能力。好的抗噪声的能力。

【技术实现步骤摘要】
一种基于图卷积网络和外部知识嵌入的粤语谣言检测方法


[0001]本专利技术涉及计算机科学与技术中的网络安全领域
,具体为一种基于图卷积网络和外部知识嵌入的粤语谣言检测方法。

技术介绍

[0002]随着互联网的迅速发展,社交媒体成为用户获取新闻信息、发表言论的重要途径,根据Digital 2022,全世界有46.2亿个社交媒体用户,占世界总人口的58.4%,并且年增长率超过了10%,某个具有顶级影响力的社交媒体平台,其全球注册人数已经达到29.63亿,成为用户获要社交媒体网站要社交媒体网站之一。然而,社交媒体的迅速发展不仅扩宽了谣言的传播范围,也增加了其传播的速度,导致谣言对社会稳定、网络环境等多方面的威胁不断加剧,同时由于谣言具有独有的似真性与广泛的传播性,为谣言的辨别与控制带来了极大的成本和困难。
[0003]作为全球华人使用人数众多的语言之一,粤语起源于中国广东省,其使用人数超过8240万人,不仅成为中国东南部地区的通用语言,同时也在世界五大洲的华人社区广泛使用。由于粤语的泛用性,在社交媒体上的粤语谣言也对社会稳定、网络环境等本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于图卷积网络和外部知识嵌入的粤语谣言检测方法,其特征在于,包括以下步骤:步骤1:数据收集与标注:通过爬虫程序爬取某社交网络上包括帖子信息、评论信息、转推结构和用户信息的数据,并完成数据标注的工作,从而构建的粤语谣言数据集;步骤2:特征提取:根据粤语谣言数据集,分析并提取粤语谣言的特征,并为每一条谣言生成特征向量;对于文本特征,构建多领域的粤语语料库,对BERT中文预训练模型进行进一步预训练,使用BERT获取原始推文的文本特征向量;对于结构特征,使用双向图卷积神经网络,获取推文自上而下和自下向上的传播特征,并通过根结点增强,获得谣言传播过程中的结构特征向量;步骤3:外部知识嵌入:基于图卷积神经网络将外部知识嵌入到文本特征;首先构建外部知识图,再使用异质图卷积神经网络提取外部知识的嵌入特征,最后通过对比网络获取外部知识嵌入特征和推文文本特征的对比特征;步骤4:检测模型:将步骤2生成的文本特征向量和结构特征向量,以及步骤3生成的对比特征进行拼接,并将其输入到由BERT、Bi

GCN和对比网络构建的基于图卷积网络和外部知识嵌入的粤语谣言检测模型BGK中,完成对社交网络平台上的粤语谣言的检测。2.根据权利要求1所述的基于图卷积网络和外部知识嵌入的粤语谣言检测方法,其特征在于,所述步骤1的爬虫程序选用Selenium作为爬虫程序框架,选取Python脚本语言;在程序中,创建浏览器对象,使Selenium框架与浏览器驱动建立联系,Selenium调用远程控制服务器,打开浏览器并按照脚本要求,执行对页面跳转和数据获取的操作;使用Selenium框架爬取平台页面信息的流程如下:1)通过Selenium创建浏览器对象,并与浏览器驱动建立联系;2)通过Core唤起浏览器页面,进行基础配置,并跳转网页;3)控制器通过XPath定位元素,模拟登录和页面点击的处理;4)通过爬虫控制器对所需爬取内容进行相对位置定位;5)各对象被依次获取,并在脚本中解析出对应属性存储;采用Selenium提供的相对位置定位以及父子层级切换定位,实现数据准确定位与爬取;使用睡眠函数限制爬取速度,并对每天爬取数量与时间进行限定,及时切换IP,清除浏览器记录以应对爬取限制;将爬虫挂载到服务器进行持续爬取,使用错误告警结构进行编程防止脚本意外中断,以保证爬取数据量。3.根据权利要求1所述的基于图卷积网络和外部知识嵌入的粤语谣言检测方法,其特征在于,所述步骤1中数据标注时,要求两名标注者独立浏览数据集中的所有推文,然后通过计算Kappa系数来评估标注者之间的一致性;Kappa系数的定义如下式:其中,K为Kappa系数,A1为第一个标注者标注的推文集合,B为第二个标注者标注的推文集合,C为第一个标注者无法判
断是否为谣言的推文集合,D为第二个标注者无法判断是否为谣言的推文集合,E是所有推文的集合,|.|是一个集合的大小;当Kappa系数大于等于0.9,则表明标注者在识别谣言方面达成高度的共识。4.根据权利要求1所述的基于图卷积网络和外部知识嵌入的粤语谣言检测方法,其特征在于,所述文本特征向量提取包括:首先将BERT

Base

Chinese中文预训练模型在粤语语料上进行再训练,再使用Network

CR

Dataset数据集对再训练后的BERT模型进行微调,从而得到一个粤语词嵌入提取器;同时将原推文及转推/评论数据V={V1,V2,...,V
m
}标记化后得到V'={V1',V2',...,V
m
'},并将V'输入至经过再训练和微调的BERT模型,得到词向量W={w1,w2,...,w
m
},如下式所示:V'=Tokenize(V)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)W=BERT(V')
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中,Tokenize为分词函数,BERT为预训练模型,L为最大序列长度。5.根据权利要求4所述的基于图卷积网络和外部知识嵌入的粤语谣言检测方法,其特征在于,所述异质图卷积神经网络包含2个图卷积层,将外部知识的邻接矩阵A和特征矩阵X输入至异质GCN网络,如下式所示:如下式所示:其中,和分别表示第1层和第2层的隐含特征,n为节点数,d为每个节点隐含特征的维度;是归一化的邻接矩阵,代表第i个节点的度,A为外部知识的邻接矩阵,I
N
为单位矩阵;为节点的度;W0和W1为可训练的权重矩阵;σ(
·
)为激活函数;在每个图卷积层上使用Dropout来避免出现过拟合问题;最后隐含特征经过全连接层得到外部知识的,其中m为原推文的数量,6.根据权利要求5所述的基于图卷积网络和外部知识嵌入的粤语谣言检测方法,其特征在于,所述结构特征向量的提取包括:1)推文传播图构建给定推文的原始推文、转发和评论信息,使用C
m
={c1,c2,...,c
m
}表示全部的谣言数据集,其中c
i
表示第i个谣言事件表示为其中表示第j个转发和评论,n
i
表示谣言事件c
i
包含的评论和转发的总数;G
i
表示谣言事件c
i
构成的谣言传播图,定义为G
i
={V
i
,E
i
},其中节点集合为r
i
是传播图中的根结点,边集合每一条边表示推文和转推、评论之间的有向关系;对于的邻接矩阵,初始值计算为:
其中,当边在边集合E
i
中时,初始值可取为1,否则取为0;对于每一个谣言事件c
i
,都有一个对应的标签y
i
∈Y,Y表示不同...

【专利技术属性】
技术研发人员:王海舟王晓达罗沉香郭腾达刘章睿张炯炎
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1