一种对于推特用户的社交机器人检测方法及存储介质技术

技术编号:37150992 阅读:19 留言:0更新日期:2023-04-06 22:06
本发明专利技术涉及一种对于推特用户的社交机器人检测方法和存储介质,属于文本处理技术领域;解决现有技术中的社交机器人检测对用户的特征提取不够,难以反映其社交关系,导致社交机器人检测不准确的问题;本发明专利技术的社交机器人检测方法,包括以下步骤:获取待检测用户的信息数据及数据间的关系;所述用户的信息数据包括User、Tweet、List和HashTag数据;所述待检测用户的类型包括人类用户和社交机器人用户;对用户的各类所述信息数据分别进行向量化,并基于向量化后的所述信息数据构建社交网络图谱;将所述社交网络图谱输入预先训练的社交机器人检测模型,得到所述待检测用户的类型。得到所述待检测用户的类型。得到所述待检测用户的类型。

【技术实现步骤摘要】
一种对于推特用户的社交机器人检测方法及存储介质


[0001]本专利技术涉及文本处理
,特别涉及一种对于推特用户的社交机器人检测方法和存储介质。

技术介绍

[0002]社交机器人检测(Social Bot Detection)是一个广泛的社交网络账号检测任务,目前主流的研究集中在以Twitter用户作为研究对象,旨在对于一个Twitter用户进行综合判断(包括用户配置文件、推文等等),判断其为人类用户还是社交机器人用户,可以视为一个二分类的任务。
[0003]社交机器人是由自动化程序控制的社交平台账户。社交机器人经营者经常发起社交机器人活动来追求恶意的目标,对于社交网络的话语真实性和正确性造成了很大影响。社交机器人从2010年以来在各大社交平台上开始陆续出现,造成了虚假信息传播、干预政治选举、垃圾邮件等诸多问题,社交社交机器人检测的研究也随之展开来,广义上来看,社交机器人检测也是一种异常检测任务[1]。
[0004]目前社交机器人检测的研究方法主要可以分为三类:基于特征(feature

based)的方法,基于文本的方法(text

based)和基于图网络的方法(graph

based)。但目前的社交机器人检测方法存在如下问题:基于特征的方法目前缺乏一个对于用户特征提取的通用做法,并且提取的特征不够,难以反映其社交关系;基于文本的方法主要以文本为判断手段,难以考虑用户元数据信息;基于图网络的方法目前均是以用户作为节点(节点种类只有1种),并没有充分考虑在社交网络中存在的多种元素,其他元素也往往是用户的重要特征。

技术实现思路

[0005]鉴于上述的分析,本专利技术旨在提供一种对于推特用户的社交机器人检测方法和存储介质;解决现有技术中的社交机器人检测对用户的特征提取不够,难以反映其社交关系,导致社交机器人检测不准确的问题。
[0006]本专利技术的目的主要是通过以下技术方案实现的:
[0007]一方面,本专利技术提供了一种对于推特用户的社交机器人检测方法,包括以下步骤:获取待检测用户的信息数据及数据间的关系;所述用户的信息数据包括User、Tweet、List和HashTag数据;所述待检测用户的类型包括人类用户和社交机器人用户;
[0008]对用户的各类所述信息数据分别进行向量化,并基于向量化后的所述信息数据构建社交网络图谱;
[0009]将所述社交网络图谱输入预先训练的社交机器人检测模型,得到所述待检测用户为社交机器人用户的概率。
[0010]进一步的,所述构建社交网络图谱,包括:
[0011]以所述User、Tweet、List和HashTag数据作为实体节点,以实体节点之间的关系为边,构建初始社交网络图谱;
[0012]基于所述初始社交网络图谱,提取Tweet与Tweet之间的关系,构建子图谱;所述关系包括转发、引用和回复关系,对应的所述子图谱包括retweet子图谱、quote子图谱和reply子图谱;
[0013]基于所述retweet子图谱、quote子图谱和reply子图谱,得到社交网络图谱。
[0014]进一步的,所述基于所述初始社交网络图谱,提取Tweet与Tweet之间的关系,构建子图谱,包括:
[0015]基于所述初始社交网络图谱,去除Tweet与Tweet之间所有quote关系和reply关系的边,并去除孤立结点,得到retweet子图谱;
[0016]基于所述初始社交网络图谱,去除Tweet与Tweet之间所有retweet关系和reply关系的边,并去除孤立结点,得到quote子图谱;
[0017]基于所述初始社交网络图谱,去除Tweet与Tweet之间所有retweet关系和quote关系的边,并去除孤立结点,得到reply子图谱。
[0018]进一步的,所述社交机器人检测模型为基于GAT的预训练模型;
[0019]所述社交机器人检测模型的训练,包括:
[0020]获取训练数据集;所述训练数据集中包括User、Tweet、List和HashTag实体数据、各个实体间的关系标签及User为人类用户或社交机器人用户标签;
[0021]利用训练数据集中的实体数据作为节点构建图谱,并提取retweet子图谱、quote子图谱和reply子图谱;
[0022]设置GAT模型的节点特征聚合策略对各个实体节点的向量表示进行聚合;
[0023]基于聚合后的向量表示利用所述retweet子图谱、quote子图谱和reply子图谱分别进行训练,得到retweet子模型、quote子模型和reply子模型;基于各个子模型得到所述社交机器人检测模型。
[0024]进一步的,所述对各个实体节点的向量表示进行聚合,包括:
[0025]设置邻居元路径,基于所述元路径得到各个实体节点的邻居集合;
[0026]基于多层感知机对各个实体节点的向量表示进行向量长度对齐;
[0027]计算各个实体节点与邻居节点之间的注意力系数;
[0028]利用所述注意力系数对各个实体节点的向量表示进行聚合。
[0029]进一步的,所述设置邻居元路径,基于所述元路径得到各个实体节点的邻居集合,包括:
[0030]若user与user之间存在以下关系之一,则两个user之间为邻居;
[0031][0032][0033]其中,A∈{post,pin,like},B∈{retweet,quote,reply},C∈{follow,member}。
[0034]进一步的,通过下述公式计算实体节点与邻居节点之间的注意力系数:
[0035][0036]其中,a表示共享参数的自注意力器,n
i
,n
j
分别表示实体节点i和j的向量表示,为实体节点i的邻居集合,k表示邻居集合的某一个邻居,n
k
表示邻居节点k的向量表示。
[0037]进一步的,所述将所述社交网络图谱输入预先训练的社交机器人检测模型,得到社交机器人检测结果,包括:
[0038]将所述retweet子图谱、quote子图谱和reply子图谱分别输入对应的子模型,得到各个子模型的预测结果;
[0039]对各个子模型的预测结果取平均值,得到所述待检测用户为社交机器人用户的概率。
[0040]进一步的,所述对用户的所述信息数据进行向量化,包括:
[0041]对所述信息数据中的数字信息直接向量化得到数字信息向量表示,对文本信息采用预先训练的模型进行向量化得到文本信息向量表示;
[0042]对于同时包含数字信息和文字信息的数据,对向量化后的向量表示进行拼接得到对应信息数据的向量表示。
[0043]另一方面,还公开了一种对于推特用户的社交机器人检测存储介质,所述存储介质存储有计算机指令,所述指令用于被计算机执行以实现前述的对于推特用户本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对于推特用户的社交机器人检测方法,其特征在于,包括以下步骤:获取待检测用户的信息数据及数据间的关系;所述用户的信息数据包括User、Tweet、List和HashTag数据;所述待检测用户的类型包括人类用户和社交机器人用户;对用户的各类所述信息数据分别进行向量化,并基于向量化后的所述信息数据构建社交网络图谱;将所述社交网络图谱输入预先训练的社交机器人检测模型,得到所述待检测用户为社交机器人用户的概率。2.根据权利要求1所述的对于推特用户的社交机器人检测方法,其特征在于,所述构建社交网络图谱,包括:以所述User、Tweet、List和HashTag数据作为实体节点,以实体节点之间的关系为边,构建初始社交网络图谱;基于所述初始社交网络图谱,提取Tweet与Tweet之间的关系,构建子图谱;所述关系包括转发、引用和回复关系,对应的所述子图谱包括retweet子图谱、quote子图谱和reply子图谱;基于所述retweet子图谱、quote子图谱和reply子图谱,得到社交网络图谱。3.根据权利要求2所述的对于推特用户的社交机器人检测方法,其特征在于,所述基于所述初始社交网络图谱,提取Tweet与Tweet之间的关系,构建子图谱,包括:基于所述初始社交网络图谱,去除Tweet与Tweet之间所有quote关系和reply关系的边,并去除孤立结点,得到retweet子图谱;基于所述初始社交网络图谱,去除Tweet与Tweet之间所有retweet关系和reply关系的边,并去除孤立结点,得到quote子图谱;基于所述初始社交网络图谱,去除Tweet与Tweet之间所有retweet关系和quote关系的边,并去除孤立结点,得到reply子图谱。4.根据权利要求2所述的对于推特用户的社交机器人检测方法,其特征在于,所述社交机器人检测模型为基于GAT的预训练模型;所述社交机器人检测模型的训练,包括:获取训练数据集;所述训练数据集中包括User、Tweet、List和HashTag实体数据、各个实体间的关系标签及User为人类用户或社交机器人用户标签;利用训练数据集中的实体数据作为节点构建图谱,并提取retweet子图谱、quote子图谱和reply子图谱;设置GAT模型的节点特征聚合策略对各个实体节点的向量表示进行聚合;基于聚合后的向量表示利用所述retweet子图谱、quote子图谱和reply子图谱分别进行训练,得到retweet子模型、...

【专利技术属性】
技术研发人员:蒋致书高云鹏褚晓泉朱一凡万怀宇
申请(专利权)人:北京智谱华章科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1