一种基于社交网络的谣言早期检测预警方法技术

技术编号:38465064 阅读:8 留言:0更新日期:2023-08-11 14:41
本发明专利技术公开了一种基于社交网络的谣言早期检测预警方法,该方法首先对用户传播路径上的用户、社交响应文本进行预处理,生成社交网络异构图。在社交网络中加载社交网络异构图进行谣言早期检测,以此发现谣言。本发明专利技术谣言早期检测方法可以更好地捕捉到社交平台上帖子发布早期的用户特征、文本信息特征以及传播特性,在小传播范围内尽早发现谣言。在小传播范围内尽早发现谣言。在小传播范围内尽早发现谣言。

【技术实现步骤摘要】
一种基于社交网络的谣言早期检测预警方法


[0001]本专利技术涉及谣言检测领域,特别是涉及社交平台上的谣言早期检测领域。

技术介绍

[0002]网络社交媒体以其低成本、传播速度快、范围广等特性,成为人们日常生活中交流、获取信息的主要平台,并逐渐成为信息的主要载体。社交平台给人们生活带来了极大的便利,但同时也为谣言的传播提供了渠道。谣言在网络平台上快速、广泛地传播,给社会、经济带来了显著的影响。
[0003]目前针对谣言的检测技术主要有两种,一种是基于文本内容的检测方法,另一种是基于信息传播路径的方法。基于文本内容的方法是通过对比信息与已知事实或者分析信息的文本特征、写作风格进行检测,这种方法虽然可以在谣言的传播初期将其检测出来,并具有不错的准确率,但无法适应虚假信息文本风格改变的情况,并且现有的一些方法都是针对长文本的信息,然而社交平台上通常都是短文本,会产生数据稀疏问题,不利于谣言的检测。基于信息传播路径的方法是通过构建分析传播路径的树或图进行检测,比基于内容的方法具有更高的鲁棒性,但是无法实现谣言的早期检测,并且传播路径上的很多用户都会因为隐私问题隐藏或删除社交记录,会增加检测难度。
[0004]因此,为解决上述问题,提出一种针对网络社交平台的、以帖子源文本、用户信息、社交响应文本等信息作为原始输入的谣言早期检测预警技术。

技术实现思路

[0005]本专利技术方法一方面用于对社交平台上的虚假信息进行检测,另一方面用于对社交平台上的谣言进行检测,能够提高检测准确率和效率,可以在虚假信息、谣言等传播初期阻断其的传播。
[0006]为了实现上述的目的,本专利技术采用的技术方案是:将文本信息、传播用户路径、传播用户等整合起来,设计一种基于社交网络的谣言早期检测模型,即ER-CM模型。应用该ER-CM模型对社交平台上的虚假信息、谣言等进行训练后,获得对虚假信息特征、谣言特征的提取。本专利技术基于社交网络的谣言早期检测模型(ER-CM模型)主要包括有:
[0007]采用基于Transformer的双向编码器(Bidirectional Encoder Representation from Transformers,BERT)对文本信息内容进行表征,得到文本的特征表示。
[0008]采用图注意力网络(Graph Attention Network,GAT)对社交网络异构图中的用户信息以及社交响应文本信息进行信息聚合,得到用户表征、文本表征。
[0009]采用残差门控图卷积网络(Residual Gated Graph ConvNets,RGGCN)对社交网络异构图中的用户、文本以及知识实体等异构信息进行信息聚合,得到用户表征、文本表征。
[0010]采用全局平均池化(Global Mean Pool,GMP)对社交网络异构图中的用户集、文本集分别信息聚合,得到全局用户、文本标正。
[0011]本专利技术的一种社交平台的谣言早期检测预警平台,其包括有社交网络异构图生成
模块、节点信息表示模块和谣言检测分类模块;
[0012]社交网络异构图生成模块,第一方面是将用户集USER中的用户依据传播用户路径得到用户社交网络异构图UG;第二方面是依据文本集TEXT
USER
、维基实体集WE和ConceptNet实体集CE得到文本社交网络异构图TG;第三方面是将UG和TG融合生成社交网络异构图GG;
[0013]节点信息表示模块,使用GAT模型和RGGCN模型生成用户表征和文本表征
[0014]谣言检测分类模块,第一方面是依据用户表征和文本表征得到社交网络异构图表征MGG;第二方面依据MGG使用全连接层FC判断是否是谣言。
[0015]本专利技术方法与现有的方法相比,本专利技术方法具有如下优点:通过将文本与维基百科、ConceptNet知识图谱做实体链接,将实体特征与文本特征融合,丰富了文本的特征表示。在构建社交网络异构图过程中,充分利用了谣言在社交网络上传播早期的用户、文本以及传播等信息特征,与现有的方法相比,在传播用户较少的情况下,谣言早期检测的性能有所提升。
附图说明
[0016]图1是用户社交网络异构图。
[0017]图2是文本社交网络异构图。
[0018]图3是本专利技术构建得到的基于社交网络的谣言早期检测结构图。
[0019]图4~图9是不同检测方法的谣言早期检测评估指标的对比图。
具体实施方式
[0020]下面将结合附图和实施例对本专利技术做进一步的详细说明。
[0021]在本专利技术中,应用的是同一网络社交平台中的信息文本text、用户user和传播用户路径propa。用户社交网络异构图,记为UG,文本社交网络异构图,记为TG,社交网络异构图,记为GG。基于社交网络的谣言早期检测模型,记为ER-CM模型。
[0022]第一部分,社交平台的谣言早期检测预警平台
[0023]参见图3所示,本专利技术针对的是社交平台的谣言早期检测预警平台,包括有社交网络异构图生成模块、节点信息表示模块和谣言检测分类模块。
[0024]社交网络异构图生成模块,第一方面是将用户集USER中的用户依据传播用户路径得到用户社交网络异构图UG;第二方面是依据文本集TEXT
USER
、维基实体集WE和ConceptNet实体集CE得到文本社交网络异构图TG;第三方面是将UG和TG融合生成社交网络异构图GG。
[0025]节点信息表示模块,使用GAT模型和RGGCN模型生成用户表征和文本表征
[0026]谣言检测分类模块,第一方面是依据用户表征和文本表征得到社交网络异构图表征MGG;第二方面依据MGG使用全连接层判断是否是谣言。
[0027]第二部分,构建ER-CM模型
[0028]本专利技术针对的是社交网络平台上的早期谣言、早期虚假信息的特征提取,并依据
该特征来构建基于社交网络的谣言早期检测模型(ER-CM模型),构建ER-CM模型包括有以下步骤。
[0029]建模步骤一,设置传播用户长度ζ;
[0030]在本专利技术中,传播用户长度,记为ζ;设置的所述ζ为一个数组。
[0031]例如:传播用户长度ζ设置为5、10、15、20、25、30、40、50的传播用户长度,即ζ=[5,10,15,20,2,5,30,40,50]。
[0032]建模步骤二,传播用户路径的获取;
[0033]在本专利技术中,传播用户路径,记为propa。所述propa是指依据ζ获得同一网络社交平台中用户间的传输路径。
[0034]将用户传播路径propa上存在的多个用户采用集合形式表示,记为用户集USER,且下角标i表示用户的标识号,下角标B表示用户传播路径上的用户总数。
[0035]user1表示第1个用户。
[0036]user2表示第2个用户。
[0037]user
i
表示第i个用户。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种社交平台的谣言早期检测预警平台,其特征在于:包括有社交网络异构图生成模块、节点信息表示模块和谣言检测分类模块;社交网络异构图生成模块,第一方面是将用户集USER中的用户依据传播用户路径得到用户社交网络异构图UG;第二方面是依据文本集TEXT
USER
、维基实体集WE和ConceptNet实体集CE得到文本社交网络异构图TG;第三方面是将UG和TG融合生成社交网络异构图GG;节点信息表示模块,使用GAT模型和RGGCN模型生成用户表征和文本表征谣言检测分类模块,第一方面是依据用户表征和文本表征得到社交网络异构图表征MGG;第二方面依据MGG使用全连接层FC判断是否是谣言。2.对根据权利要求1所述的社交平台的谣言早期检测预警平台的ER-CM模型构建,其特征在于包括有下列步骤:建模步骤一,设置传播用户长度ζ;设置的传播用户长度ζ为一个数组;建模步骤二,传播用户路径的获取;传播用户路径,记为propa;所述propa是指依据ζ获得同一网络社交平台中用户间的传输路径;将用户传播路径propa上存在的多个用户采用集合形式表示,记为用户集USER;任意一用户user
i
拥有的用户简介信息集,记为即用户传播路径propa上所有用户的用户简介信息集,记为用户携带信息集MPR;建模步骤三,生成文本初始特征集;建模步骤301,社交响应文本信息获取;传播用户路径propa上存在的所有用户发表的多个社交响应文本信息,记为TEXT
USER
;所述TEXT
USER
的集合长度大小赋值为ζ;建模步骤302,BERT预训练模型的应用;采用BERT预训练模型对社交响应文本集TEXT
USER
进行处理,生成文本初始特征集,记为FT;建模步骤四,预处理社交响应文本集;建模步骤401,在TAGME工具中依据维基百科词条信息进行的链接;采用TAGME工具包对任意一文本信息与维基百科进行实体链接,得到链接后的维基百科-描述文本,记为任意一文本信息将对应多个维基百科-描述文本,采用集合形式表示维基百科-描述文本集,记为建模步骤402,BERT预训练模型的应用;采用BERT预训练模型对进行处理,得到维基百科-实体特征集,记为
建模步骤403,基于维基百科词条信息的特征合并;将TEXT
USER
中的所有文本对应的维基百科-描述文本集进行合并,得到维基实体集MWE;将TEXT
USER
中的所有文本对应的维基百科-实体特征集进行合并,得到维基实体特征集MFW;建模步骤404,在COCOEX工具中依据ConceptNet知识图谱进行的链接;采用TAGME工具包对任意一文本信息与ConceptNet知识图谱进行实体链接,得到链接后的图谱-描述文本,记为任意一文本信息将对应多个图谱-描述文本,采用集合形式表示为图谱-描述文本集,记为建模步骤405,ConceptNet

Numberbatch工具包的应用;采用ConceptNet

Numberbatch工具包对进行处理,得到图谱-实体特征集,记为建模步骤406,基于ConceptNet知识图谱的特征合并;将TEXT
USER
中的所有文本对应的ConceptNet知识图谱表征的图谱-描述文本集进行合并,得到图谱实体集MCE;将TEXT
USER
中的所有文本对应的ConceptNet知识图谱表征的图谱-实体特征集进行合并,得到图谱实体特征集MFC;建模步骤五,构建社交网络异构图;依据用户集USER、文本集TEXT
USER
、文本初始特征集FT、维基实体特征集MFW、图谱实体特征集MFC和用户携带信息集MPR来完成社交网络异构图的构建;建模步骤501,依据用户和用户携带信息来构建用户社交网络异构图;用户社交网络异构图,记为UG;将传播用户路径propa上的任意一用户user
i
作为UG中的一个节点所述的节点特征为节点与节点之间的连接边按照转发时序、评论回复、余弦相似度三种关系进行构造;在本发明中,转发时序关系是指将所有用户按照参与转发或者评论时间排序,生成转发用户时序链表,时序相邻用户之间使用边连接,权重为1;在本发明中,评论回复关系是指按照评论回复关系建立用户之间的边,边的权重为1;在本发明中,用户之间的余弦相似度为:为:
为用户user
i
的用户简介信息集;为用户user
j
的用户简介信息集;为用户user
i
的自我介绍单词的数量;为用户user
i
的网名的字符数量;为用户user
i
的用户性别;为用户user
j
的自我介绍单词的数量;为用户user
j
的网名的字符数量;为用户user
j
的用户性别;使用三元组描述用户之间边的关系使用三元组描述用户之间边的关系是用户user
i
与用户user
j
之间的边关系;建模步骤502,依据文本信息、初始文本特征、两种实体集及其特征集来构建文本社交网络异构图;文本社交网络异构图,记为TG;将文本集TEXT
USER
中的任意文本作为文本节点,其节点特征为FT;将维基实体集WE和ConceptNet实体集CE的任意实体作为实体节点,其节点特征分别为FC、FW;建模步骤503,依据用户社交网络异构图和文本社交网络异构图构建社交网络异构图;将用户社交网络异构图U...

【专利技术属性】
技术研发人员:夏春和刘卓栋麦贤慧吕良双王天博
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1