一种社交媒体机器人的识别方法、装置、设备及存储介质制造方法及图纸

技术编号:37170941 阅读:18 留言:0更新日期:2023-04-20 22:42
本申请涉及社交媒体机器人识别模型的训练方法、识别方法、装置、设备及存储介质,属于社交媒体用户识别技术领域。本申请包括:获取待训练的用户数据,用户数据带有人工标注的类别标签,包括:机器人、疑似机器人和非机器人;对用户数据进行特征提取,并对提取得到的特征数据归一化处理;特征数据至少包括:档案特征、语言特征、情感特征和时序特征;将归一化处理后的特征数据,输入到预先构建的图注意力网络模型中进行训练,直至图注意力网络模型收敛,得到社交媒体机器人识别模型;社交媒体机器人识别模型判断当前用户的类别标签。通过本申请,有助于解决现有技术中由于忽略了用户数据中的情感特征,导致对社交媒体机器人识别准确率低的问题。率低的问题。率低的问题。

【技术实现步骤摘要】
一种社交媒体机器人的识别方法、装置、设备及存储介质


[0001]本申请属于社交媒体安全治理
,具体涉及社交媒体机器人的识别方法、装置、设备及存储介质。

技术介绍

[0002]随着在线社交网络迅速发展,Facebook、Twitter、微博等社交平台已经成为获取、传播和发布信息的重要渠道。社交媒体机器人是一种由算法操控的自动化社交媒体的非正常用户,其在社交平台上能模仿正常人类的社交行为,与正常用户进行互动,其大量的观点、言论形成强烈的社会舆论,影响民众的判断。因此,社交媒体机器人的识别技术应运而生。通过对社交媒体机器人进行识别,判断出用户属于机器人、疑似机器人和非机器人的概率,进而对机器人和疑似机器人的用户进行注销或者管控,以减少恶意内容的传播,有助于保障网络空间的安全。
[0003]目前,对于社交媒体机器人的识别的方法是提取社交媒体中用户账号的特征,根据提取的特征训练识别模型,对这些社交媒体中的用户进行识别,检测出社交媒体机器人。但是由于社交媒体中账号的特征繁多,现有的识别方法中提取的多以用户相关特征、内容特征和部分社交关系特征为主,忽略了重要的情感特征,以致社交媒体机器人的识别准确率较低,并且用户数据的特征中特征值参差不齐,范围较大,无法进行很好的归一化,对识别模型的训练速度和识别准确率造成影响。

技术实现思路

[0004]为此,本申请提供一种社交媒体机器人的识别方法、装置、设备及存储介质,有助于解决现有技术中由于忽略了用户数据中的情感特征,导致对社交媒体机器人识别准确率低的问题。r/>[0005]为实现以上目的,本申请采用如下技术方案:
[0006]第一方面,本申请提供社交媒体机器人识别模型的训练方法,包括:
[0007]获取待训练的用户数据,所述用户数据带有人工标注的类别标签;
[0008]所述类别标签包括:机器人、疑似机器人和非机器人;
[0009]对所述用户数据进行特征提取,并对提取得到的特征数据进行归一化处理;
[0010]所述特征数据至少包括:档案特征、语言特征、情感特征和时序特征;
[0011]将归一化处理后的特征数据,输入到预先构建的图注意力网络模型中进行训练,直至所述图注意力网络模型收敛,得到社交媒体机器人识别模型;
[0012]所述社交媒体机器人识别模型用于接收归一化处理后的特征数据,并计算归一化处理后的特征数据属于不同类别标签的概率,将概率最大值对应的类别标签作为当前用户的类别标签。
[0013]进一步地,若所述特征数据包括档案特征,对所述用户数据进行特征提取,包括:
[0014]提取用户的用户名长度、昵称长度、注册时长、是否采用默认档案、好友数量、粉丝
数量、关注数量、推文发文数量、推文转发数量、推文提及数量、回复数量和推文被转发数量中的至少之一。
[0015]进一步地,若所述特征数据包括语言特征,对所述用户数据进行特征提取,包括:
[0016]提取用户数据中的不同词性的词语,包括:动词、名词、形容词、情态助词、介词、感叹词、副词和代词中的至少之一;
[0017]对于每一个词性,提取得到每一条推文中该词性的词语数量和占比;根据所有推文中该词性的词语数量和占比,分别计算得到该词性在所有推文中的最小值、最大值、中值、平均值、标准差、偏度、峰度和熵。
[0018]进一步地,若所述特征数据包括情感特征,对所述用户数据进行特征提取,包括:
[0019]提取用户数据中的不同情感指标的词语和表情,包括幸福感、效价、唤醒程度、正向表情、负向表情和总表情中的至少之一;
[0020]对于每一个情感指标,提取得到每一条推文中该情感指标的得分;根据所有推文中该情感指标的得分,分别计算得到该情感指标在所有推文中的最小值、最大值、中值、平均值、标准差、偏度、峰度和熵。
[0021]进一步地,若所述特征数据包括时序特征,对所述用户数据进行特征提取,包括:
[0022]提取用户数据中的用户发出推文的时间、用户转发推文的时间和用户提及推文的时间中的至少之一;
[0023]分别计算每发出两条推文、转发两条推文和提及两条推文的时间间隔;
[0024]根据所有推文的时间间隔,分别计算得到每发出两条推文、转发两条推文和提及两条推文的时间间隔中的最小值、最大值、中值、平均值、标准差、偏度、峰度和熵。
[0025]进一步地,所述对提取得到的特征数据进行归一化处理,包括:
[0026]根据所述提取得到的特征数据的不同取值范围,预设相应的分段值;
[0027]根据所述预设分段值,对所述提取得到的特征数据进行归一化处理。
[0028]进一步地,所述将归一化处理后的特征数据,输入到预先构建的图注意力网络模型中进行训练,包括:
[0029]构建G层的图注意力网络模型,并进行初始化;
[0030]根据用户数据中的社交信息,确定所述用户对应的相邻用户;
[0031]所述归一化处理后的特征数据作为所述图注意力网络模型的第一层的输入特征数据;
[0032]根据所述用户的所述输入特征数据和相邻用户的输入特征数据,计算得到每个注意力头该用户与所述相邻用户对应的注意力系数;
[0033]根据相邻用户的所述输入特征数据和对应的注意力系数,计算得到所述用户该层的每个注意力头的输出特征数据;
[0034]对于所述图注意力网络模型的第一层至第G

1层的任意一层,对所述用户该层的所有注意力头的输出特征数据进行拼接,得到该用户该层的输出特征数据;所述该层的输出特征数据为该用户的下一层的输入特征数据;
[0035]对于所述图注意力网络模型的第G层,对所述用户该层的所有注意力头的输出特征数据求均值,得到所述用户的预测结果;
[0036]根据所有用户的预测结果,利用交叉熵损失函数更新所述图注意力网络模型,直
至所述图注意力网络模型收敛,得到社交媒体机器人识别模型。
[0037]第二方面,本申请提供一种社交媒体机器人识别方法,包括:
[0038]获取待识别的社交媒体的用户数据;
[0039]对所述用户数据进行特征提取,并对提取得到的特征数据进行归一化处理;
[0040]所述特征数据至少包括:档案特征、语言特征、情感特征和时序特征;
[0041]将归一化处理后的特征数据,输入上述任一项所述的方法训练得到的社交媒体机器人识别模型中,得到所述用户数据的类别标签;
[0042]所述类别标签包括:机器人、疑似机器人和非机器人。
[0043]第三方面,本申请提供一种社交媒体机器人的识别装置,其特征在于,所述装置包括:
[0044]数据获取模块,用于获取待训练的用户数据,所述用户数据带有人工标注的类别标签;所述类别标签包括:机器人、疑似机器人和非机器人;
[0045]特征提取,用于对所述用户数据进行特征提取,并对提取得到的特征数据进行归一化处本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种社交媒体机器人识别模型的训练方法,其特征在于,包括:获取待训练的用户数据,所述用户数据带有人工标注的类别标签;所述类别标签包括:机器人、疑似机器人和非机器人;对所述用户数据进行特征提取,并对提取得到的特征数据进行归一化处理;所述特征数据至少包括:档案特征、语言特征、情感特征和时序特征;将归一化处理后的特征数据,输入到预先构建的图注意力网络模型中进行训练,直至所述图注意力网络模型收敛,得到社交媒体机器人识别模型;所述社交媒体机器人识别模型用于接收归一化处理后的特征数据,并计算归一化处理后的特征数据属于不同类别标签的概率,将概率最大值对应的类别标签作为当前用户的类别标签。2.根据权利要求1所述的方法,其特征在于,若所述特征数据包括档案特征,对所述用户数据进行特征提取,包括:提取用户的用户名长度、昵称长度、注册时长、是否采用默认档案、好友数量、粉丝数量、关注数量、推文发文数量、推文转发数量、推文提及数量、回复数量和推文被转发数量中的至少之一。3.根据权利要求1所述的方法,其特征在于,若所述特征数据包括语言特征,对所述用户数据进行特征提取,包括:提取用户数据中的不同词性的词语,包括:动词、名词、形容词、情态助词、介词、感叹词、副词和代词中的至少之一;对于每一个词性,提取得到每一条推文中该词性的词语数量和占比;根据所有推文中该词性的词语数量和占比,分别计算得到该词性在所有推文中的最小值、最大值、中值、平均值、标准差、偏度、峰度和熵。4.根据权利要求1所述的方法,其特征在于,若所述特征数据包括情感特征,对所述用户数据进行特征提取,包括:提取用户数据中的不同情感指标的词语和表情,包括幸福感、效价、唤醒程度、正向表情、负向表情和总表情中的至少之一;对于每一个情感指标,提取得到每一条推文中该情感指标的得分;根据所有推文中该情感指标的得分,分别计算得到该情感指标在所有推文中的最小值、最大值、中值、平均值、标准差、偏度、峰度和熵。5.根据权利要求1所述的方法,其特征在于,若所述特征数据包括时序特征,对所述用户数据进行特征提取,包括:提取用户数据中的用户发出推文的时间、用户转发推文的时间和用户提及推文的时间中的至少之一;分别计算每发出两条推文、转发两条推文和提及两条推文的时间间隔;根据所有推文的时间间隔,分别计算得到每发出两条推文、转发两条推文和提及两条推文的时间间隔中的最小值、最大值、中值、平均值、标准差、偏度、峰度和熵。6.根据权利要求1所述的方法,其特征在于,所述对提取得到的特征数据进行归一化处理,包括:根据所述提取得到的特征数据的不同取值范围,预设相应的分段值;
根据所述预设分段值,对所述提取得到的特征数据进行归一化处理。7.根据权利要求1所述的方法,其特征在于,所述将归一化处理后的特征数据,...

【专利技术属性】
技术研发人员:李慧郭超韦崴李健鹏
申请(专利权)人:中国电子产业工程有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1