当前位置: 首页 > 专利查询>四川大学专利>正文

基于主动学习的社交机器人检测数据集扩展方法及系统技术方案

技术编号:24853870 阅读:39 留言:0更新日期:2020-07-10 19:07
本发明专利技术公开了一种基于主动学习的社交机器人检测数据集扩展方法及系统,该拓展方法包括采集微博用户数据,提取部分数据样本进行人工标注,构建初始标记数据集,采用主动学习方法训练分类器后对剩余未标记数据集进行标注,根据标记结果扩展数据集。本发明专利技术解决了微博中的社交机器人检测研究中缺乏可靠的大样本数据集的问题,实现了全自动化的数据标注与分类,极大程度上减少了不必要的人力资源的消耗,很大程度上提高了数据标注的效率。

【技术实现步骤摘要】
基于主动学习的社交机器人检测数据集扩展方法及系统
本专利技术涉及微博数据集采集
,具体涉及一种基于主动学习的社交机器人检测数据集扩展方法及系统。
技术介绍
近年来,互联网技术的快速发展加速了在线社交网络(OnlineSocialNetworks,OSNs)的广泛普及。在线社交网络是一种被人们广泛应用的互联媒体,它作为当代社会中人们交流传播信息过程中的媒介,产生的影响已经深入人们日常生活的方方面面。通过注册账号,并提供相应的个人信息,使用者能够便捷且快速地获取实时资讯,与家人、朋友随时随地进行互动。在线社交网络,已经成为当代社会中信息传递的重要载体。随着在线社交网络的不断发展,在线社交网络中出现了一类特殊的用户群体——社交机器人,即一类由程序控制的账户。起初,这些社交机器人是被设计为用于服务人类、提高人类生活质量的。然而,随着社交机器人技术的不断发展,逐渐兴起的恶意社交机器人对在线社交网络平台造成了极大的消极影响。恶意社交机器人是由程序控制、人为操控并用于实现涨粉、刷赞,恶意评论与转发等目的一些账户。随着恶意社交机器人的不断本文档来自技高网...

【技术保护点】
1.一种基于主动学习的社交机器人检测数据集扩展方法,其特征在于,包括以下步骤:/nS1、分别采集微博中的潜在正常用户数据和潜在社交机器人数据,并加入到用户池中保存;/nS2、提取用户池中保存的设定数量潜在正常用户和潜在社交机器人进行人工标注,构建初始标记数据集;/nS3、采用主动学习方法,利用初始标记数据集和查询策略筛选的优化标记数据集优化训练分类器后对剩余未标记数据集进行标注,根据标记结果扩展数据集。/n

【技术特征摘要】
1.一种基于主动学习的社交机器人检测数据集扩展方法,其特征在于,包括以下步骤:
S1、分别采集微博中的潜在正常用户数据和潜在社交机器人数据,并加入到用户池中保存;
S2、提取用户池中保存的设定数量潜在正常用户和潜在社交机器人进行人工标注,构建初始标记数据集;
S3、采用主动学习方法,利用初始标记数据集和查询策略筛选的优化标记数据集优化训练分类器后对剩余未标记数据集进行标注,根据标记结果扩展数据集。


2.根据权利要求1所述的基于主动学习的社交机器人检测数据集扩展方法,其特征在于,所述步骤S1中采集微博中的数据的方法为:
提取ProxyIPPool中存储的有效代理IP地址,将每一个向微博发起的HTTP请求添加代理;
利用网络爬虫通过多并发采集线程对目标站点进行并发爬取,采集目标站点URL;
对网络爬虫爬取的数据进行清洗;
对清洗后的数据进行结构化的存储。


3.根据权利要求1或2所述的基于主动学习的社交机器人检测数据集扩展方法,其特征在于,所述步骤S1中分别采集微博中的潜在正常用户数据和潜在社交机器人数据具体为:
将微博中同城推荐的用户作为潜在正常用户,对其数据进行采集;
首先选取预设数量的粉丝与关注列表中包含高于设定数量社交机器人的用户作为种子用户,然后爬取种子用户的粉丝列表与关注列表中的用户的数据,作为潜在的社交机器人数据。


4.根据权利要求1所述的基于主动学习的社交机器人检测数据集扩展方法,其特征在于,所述步骤S2中进行人工标注的评判标准为:
判断微博中的用户信息完整性、用户社交关系合理性、用户互动情况、用户博文的原创性、发布微博时间是否规律、发布原创微博博文的质量中是否存在任一条件不满足设定要求,若是则将该用户标注为社交机器人,否则标注为正常用户。


5.根据权利要求1所述的基于主动学习的社交机器人检测数据集扩展方法,其特征在于,所述步骤S3具体包括以下分步骤:
S31、利用决策树模型构建分类器,对步骤S2构建的初始标记数据集进行训练,得到初始分类器;
S32、采用基于熵的不确定性抽样算法作为查询策略,从用户池中筛选熵值最大的若干个未标记数据样本进行人工标注,构建优化标记数据集;
S33、利用步骤S31得到的初始分类器对步骤S32构建的优化标记数据集进行训练,得到优化分类器;
S34、利用步骤S33得到的优化分类器对用户池中剩余的未标记数据集进行标注,根据标记结果扩展数据集。


6.根据权利要求5所述的基于主动学习的社交机器人检测数据集扩展方法,其特征在于,所述步骤S32具体包括以下分步骤:
S321、提取用户池中的未标记数据样本的特征;
S322、利...

【专利技术属性】
技术研发人员:王海舟方钰舟魏来武玉豪商帅康晋京
申请(专利权)人:四川大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1