一种社交机器人分类方法及系统技术方案

技术编号:35581165 阅读:15 留言:0更新日期:2022-11-12 16:10
本发明专利技术公开了一种社交机器人分类方法及系统,涉及社交机器人检测技术领域,该方法,包括:获取目标社交机器人关于目标话题的博文内容;将博文内容输入社交机器人分类模型得到所属类别;社交机器人分类模型包括话题相关性目标模型和观点句识别目标模型;社交机器人分类模型的确定方法为:基于迁移学习构建源域数据集;基于社交机器人识别模型确定目标域数据集;对源域数据集中的设定话题进行扩充和内容压缩;根据源域数据集、目标域数据集、压缩后的话题扩充序列和孪生网络确定话题相关性目标模型;根据源域数据集、目标域数据集、基于规则的观点句识别方法和文本分类模型确定观点句识别目标模型。本发明专利技术能提高分类方法的通用性和可解释性。和可解释性。和可解释性。

【技术实现步骤摘要】
一种社交机器人分类方法及系统


[0001]本专利技术涉及社交机器人检测
,特别是涉及一种社交机器人分类方法及系统。

技术介绍

[0002]随着推特、微博、微信、直播等社交网络的兴起,人们可以随时在社交网络上就不同的话题进行广泛的交流和分享。与此同时,人工智能技术的快速发展,社交机器人应运而生。
[0003]由于社交机器人形形色色,真假难辨。因此,开展对社交机器人进行检测和分类的研究是十分必要的。一方面可以帮助监管部门溯本清源,另一方面监管部门可以对不同类型的社交机器人采取不同的管控措施。对于具有正面影响的社交机器人允许它们在一定的范围内,正常开展业务和服务。而对于具有负面影响的社交机器人进行重点管控,限制其滋生和发展。从而更好的为真实用户营造一个健康、安全的网络环境,促进社会的和谐和稳定。
[0004]目前,针对社交网络中社交机器人分类问题的研究较少,已有的研究主要通过选取社交机器人的账号特征,然后采用分类器分类,主要有以下几种:
[0005]第一,有文献将异常用户分为产品营销广告发布者、发布内容与话题标签信息不符的内容污染者以及攻击、谩骂等不良言论发布者,对社交网络数据集提取用户内容、行为、属性、关系特征,选择可以有效利用多维特征并且在样本集严重不均衡时依然有效的极端梯度提升(eXtreme Gradient Boosting, XGBoost)算法构建分类模型。
[0006]第二,有文献将社交账号分为主动骚扰型垃圾用户、过度关注型垃圾用户、重复发送型垃圾用户、营销广告型垃圾用户和正常用户,首先选择一对多支持向量机(SupportVectorMachine,SVM)来构造多类分类器,然后采用模糊聚类来进行模糊处理,以解决一对多SVM中的漏分问题。
[0007]第三,有文献提出了一种同时考虑良性机器人和恶意机器人的分类方法。将社交机器人分为广播机器人、消费机器人和垃圾邮件机器人三类。广播机器人由特定组织管理,主要用于信息传播目的。消费机器人用于聚合来自不同来源的内容并提供更新服务,而垃圾邮件机器人用于传递恶意内容,主要涵盖恶意机器人。该文首先通过绘制几个关键属性的累积分布函数(CDF),以便了解机器人和人类账户的活动模式。然后提出相应的分类特征,最后采用朴素贝叶斯、随机森林、支持向量机和逻辑回归模型进行分类。
[0008]第四,有文献将社交账号分为正常用户、认证用户、推广员和趋势劫持者。其中,推广员包括发布包含恶意url信息的账户。趋势劫持者包括为了宣传特定的产品或服务,发布与主题事件不相关推文的账户,以及为了意见操纵和政治宣传,发布与主题事件相关推文的账户。该文献根据相似账户的共享应用程序链接相似账户,并在生成的相似图上构建马尔可夫随机场模型以进行分类。
[0009]以上文献均通过调研提取各种账号特征,然后进行特征选择或绘制CDF 曲线检验
选取的特征是否有效,最后采用机器学习方法进行多分类。但是,这些文献没有明确地给出不同类别的划分标准,也没有提出针对性的特征以区分不同类别的社交机器人,可解释性较差。
[0010]第五,有文献通过分析每一类社交机器人发布推文的特点,提出了更具有针对性的检测特征。将社交机器人分为机器人、电子人和人类垃圾邮件发送者。其中机器人的推文使用的词汇非常有限,推文遵循一种非常结构化的模式。电子人倾向于从其他来源复制内容,它们的词汇量比普通机器人大得多。垃圾邮件发送者滥用算法发布一系列几乎无法区分的推文,以欺骗Twitter的垃圾邮件检测协议。相较于选择普通账号特征的方法,该类方法深入分析了不同类型机器人的差异,总结规律并提取特征,进一步推进了社交机器人分类方法的研究。
[0011]综上可以发现,现有研究都是依据社交机器人的行为表现和博文内容提取特征以进行分类,但是机器人账号的行为和言论可能会依据检测机制、生成技术的变化而做出调整。因此,现有分类方案不能很好的识别与模型范例形式不同的社交机器人,只能学习已有类型机器人的特征,无法随时间进化应变。所以,设计一个能够适应不断变化的社交机器人的分类方法是至关重要的。

技术实现思路

[0012]基于此,本专利技术实施例提供一种社交机器人分类方法及系统,以提高分类方法的通用性和可解释性。
[0013]为实现上述目的,本专利技术提供了如下方案:
[0014]一种社交机器人分类方法,包括:
[0015]获取目标社交机器人关于目标话题的博文内容;
[0016]将所述目标社交机器人关于目标话题的博文内容输入社交机器人分类模型中,得到所述目标社交机器人的类别;所述类别包括内容污染者、知识传播者和新闻评论者;所述社交机器人分类模型包括话题相关性目标模型和观点句识别目标模型;
[0017]所述内容污染者表示所述目标社交机器人发布的博文内容与所述目标话题不相关;所述知识传播者表示所述目标社交机器人发布的博文内容与所述目标话题相关,且发表意见以及表达观点;所述新闻评论者表示所述目标社交机器人发布的博文内容与所述目标话题相关,且传播信息以及说明客观事件;
[0018]其中,所述社交机器人分类模型的确定方法为:
[0019]基于迁移学习的方法构建源域数据集;所述源域数据集包括第一类数据集和第二类数据集;所述第一类数据集包括在微博平台上爬取的在设定话题下的账号发布的原创博文内容、在与设定话题相关的话题下的账号发布的原创博文内容以及对应分类标签;所述分类标签包括所述账号属于内容污染者或者所述账号数据知识传播者;所述第二类数据集包括由社交机器人样本数据生成模型生成的已标注为新闻评论者的账号发布的观点型博文;
[0020]基于社交机器人识别模型确定目标域数据集;所述目标域数据集包括已标注类别的社交机器人真实博文内容;
[0021]对所述源域数据集中的设定话题进行扩充和话题内容压缩,得到话题扩充序列;
[0022]根据所述源域数据集、所述目标域数据集、所述话题扩充序列和孪生网络,确定所述话题相关性目标模型;所述话题相关性目标模型用于识别内容污染者;
[0023]根据所述源域数据集、所述目标域数据集、基于规则的观点句识别方法以及文本分类模型,确定所述观点句识别目标模型;所述观点句识别目标模型用于知识传播者和新闻评论者。
[0024]可选地,所述根据所述源域数据集、所述目标域数据集、所述话题扩充序列和孪生网络,确定所述话题相关性目标模型,具体包括:
[0025]将所述源域数据集和所述话题扩充序列输入孪生网络,以均方差误差函数最小为目标对所述孪生网络进行初步训练,确定所述孪生网络的相似度阈值;所述源域数据集中的账号属于内容污染者时,所述原创博文内容与所述话题扩充序列的相似度小于所述相似度阈值;
[0026]初步训练确定好相似度阈值的孪生网络为话题相关性源模型;
[0027]采用所述目标域数据集和对应的目标域话题填充序列,对所述话题相关性源模型的相似度阈值进行微调;
[0028]将相似度阈值微调后的话题相关性源本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种社交机器人分类方法,其特征在于,包括:获取目标社交机器人关于目标话题的博文内容;将所述目标社交机器人关于目标话题的博文内容输入社交机器人分类模型中,得到所述目标社交机器人的类别;所述类别包括内容污染者、知识传播者和新闻评论者;所述社交机器人分类模型包括话题相关性目标模型和观点句识别目标模型;所述内容污染者表示所述目标社交机器人发布的博文内容与所述目标话题不相关;所述知识传播者表示所述目标社交机器人发布的博文内容与所述目标话题相关,且发表意见以及表达观点;所述新闻评论者表示所述目标社交机器人发布的博文内容与所述目标话题相关,且传播信息以及说明客观事件;其中,所述社交机器人分类模型的确定方法为:基于迁移学习的方法构建源域数据集;所述源域数据集包括第一类数据集和第二类数据集;所述第一类数据集包括在微博平台上爬取的在设定话题下的账号发布的原创博文内容、在与设定话题相关的话题下的账号发布的原创博文内容以及对应分类标签;所述分类标签包括所述账号属于内容污染者或者所述账号数据知识传播者;所述第二类数据集包括由社交机器人样本数据生成模型生成的已标注为新闻评论者的账号发布的观点型博文;基于社交机器人识别模型确定目标域数据集;所述目标域数据集包括已标注类别的社交机器人真实博文内容;对所述源域数据集中的设定话题进行扩充和话题内容压缩,得到话题扩充序列;根据所述源域数据集、所述目标域数据集、所述话题扩充序列和孪生网络,确定所述话题相关性目标模型;所述话题相关性目标模型用于识别内容污染者;根据所述源域数据集、所述目标域数据集、基于规则的观点句识别方法以及文本分类模型,确定所述观点句识别目标模型;所述观点句识别目标模型用于知识传播者和新闻评论者。2.根据权利要求1所述的一种社交机器人分类方法,其特征在于,所述根据所述源域数据集、所述目标域数据集、所述话题扩充序列和孪生网络,确定所述话题相关性目标模型,具体包括:将所述源域数据集和所述话题扩充序列输入孪生网络,以均方差误差函数最小为目标对所述孪生网络进行初步训练,确定所述孪生网络的相似度阈值;所述源域数据集中的账号属于内容污染者时,所述原创博文内容与所述话题扩充序列的相似度小于所述相似度阈值;初步训练确定好相似度阈值的孪生网络为话题相关性源模型;采用所述目标域数据集和对应的目标域话题填充序列,对所述话题相关性源模型的相似度阈值进行微调;将相似度阈值微调后的话题相关性源模型确定为所述话题相关性目标模型。3.根据权利要求1所述的一种社交机器人分类方法,其特征在于,所述根据所述源域数据集、所述目标域数据集、基于规则的观点句识别方法以及文本分类模型,确定所述观点句识别目标模型,具体包括:提取所述源域数据集的句子特征;所述句子特征包括关键词特征、位置特征、语义特征和长度特征;
对所述句子特征进行归一化处理并加权求和,得到每条句子的观点句得分;根据所述观点句得分确定基于规则的观点句识别模型的观点句阈值;采用所述目标域数据集中观点句得分小于所述观点句阈值的数据对卷积神经网络进行训练,并将训练好的卷积神经网络确定为文本分类模型;观点句阈值确定的基于规则的观点句识别模型和所述文本分类模型构成观点句识别源模型;采用所述目标域数据集对所述观点句识别源模型中的观点句阈值和卷积神经网络参数进行微调;将微调后的观点句识别源模型确定为所述观点句识别目标模型。4.根据权利要求1所述的一种社交机器人分类方...

【专利技术属性】
技术研发人员:徐雅斌毛文清
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1