【技术实现步骤摘要】
基于特定区域的活跃人员、常驻人员的分析方法及系统
本专利技术涉及计算机信息
更具体地说,本专利技术涉及一种基于特定区域的活跃人员、常驻人员的分析方法及系统。
技术介绍
当今社会,互联网发展十分迅速,导致网民的数量急剧上升。随着网民数量的上升,互联网越来越成为人们获取信息的主要途径,一些有影响力的门户网站,博客,社交工具逐渐变得越来越受欢迎。众多社交工具成为受人们欢迎的交流方式之一。在互联网上,世界各地的信息每天都在以惊人的速度增长,如何实现对特定区域互联网上海量信息的抓取和分析成为人们研究网络舆情的重要难题。在
上,目前特定区域社交工具信息的采集技术已趋于成熟,而对于特定区域活跃人员以及其中常驻人员的分析却缺乏比较科学的方法,所以需要一种关于特定区域活跃用户以及其中常驻人员分析的方法。
技术实现思路
本专利技术的一个目的是解决至少上述问题,并提供至少后面将说明的优点。本专利技术还有一个目的是提供一种基于特定区域的活跃人员、常驻人员的分析方法及装置,其可以有效地统计和识别出某个特定区域的社交渠道上的活跃人员和常驻人员,进而实现更加高效和多方面的支持网络舆情的分析工作。为了实现根据本专利技术的这些目的和其它优点,提供了一种基于特定区域的活跃人员、常驻人员的分析方法,其包括:S1、采集特定区域内的社交渠道上的所有出现的账户信息;S2、对账户信息进行去重,并将去重后的账户信息存储至人员记录库中;根据人员记录库中的账户信息更新人员统计库中的账户ID、账户 ...
【技术保护点】
1.基于特定区域的活跃人员、常驻人员的分析方法,其特征在于,其包括:/nS1、采集特定区域内的社交渠道上的所有出现的账户信息;/nS2、对账户信息进行去重,并将去重后的账户信息存储至人员记录库中;根据人员记录库中的账户信息更新人员统计库中的账户ID、账户的出现时间、账户所在地的经纬度以及账户的出现次数;账户信息至少包括账户ID、账户所在地的经纬度以及被采集时间;/nS3、基于人员统计库,将账户按出现次数从高到低的顺序进行排名;将出现次数排名靠前的账户标识为活跃人员;/nS4、基于人员记录库,从活跃人员中分别过滤出有效人员、稳定人员,有效人员和稳定人员的并集为常驻人员;/n有效人员、稳定人员的过滤具体为:/nS41、统计活跃人员对应的账户的每天出现的最早时间和最晚时间,计算最早时间和最晚时间的时间间隔,并记为停留时长;/nS42、对于任一活跃人员:若一定时间段内平均每天的停留时长大于第一预设值时,则将该活跃人员标识为有效人员;/nS43、若一定时间段内每天停留时长大于第一预设值的天数大于第二预设值时,则将该活跃人员标识为稳定人员;有效人员和稳定人员的并集为常驻人员。/n
【技术特征摘要】
1.基于特定区域的活跃人员、常驻人员的分析方法,其特征在于,其包括:
S1、采集特定区域内的社交渠道上的所有出现的账户信息;
S2、对账户信息进行去重,并将去重后的账户信息存储至人员记录库中;根据人员记录库中的账户信息更新人员统计库中的账户ID、账户的出现时间、账户所在地的经纬度以及账户的出现次数;账户信息至少包括账户ID、账户所在地的经纬度以及被采集时间;
S3、基于人员统计库,将账户按出现次数从高到低的顺序进行排名;将出现次数排名靠前的账户标识为活跃人员;
S4、基于人员记录库,从活跃人员中分别过滤出有效人员、稳定人员,有效人员和稳定人员的并集为常驻人员;
有效人员、稳定人员的过滤具体为:
S41、统计活跃人员对应的账户的每天出现的最早时间和最晚时间,计算最早时间和最晚时间的时间间隔,并记为停留时长;
S42、对于任一活跃人员:若一定时间段内平均每天的停留时长大于第一预设值时,则将该活跃人员标识为有效人员;
S43、若一定时间段内每天停留时长大于第一预设值的天数大于第二预设值时,则将该活跃人员标识为稳定人员;有效人员和稳定人员的并集为常驻人员。
2.如权利要求1基于特定区域的活跃人员、常驻人员的分析方法,其特征在于,还包括:计算常驻人员在一定时间段内出现的平均最早时间a和平均最晚时间b,若a与b形成的时间区间位于同一天的上午7时到下午19时之间的时长,和a与b形成的时间区间的总时长的比值大于0.5时,则将该常驻人员标识为白天人员。
3.如权利要求1基于特定区域的活跃人员、常驻人员的分析方法,其特征在于,对账户信息进行去重,并将去重后的账户信息存储至人员记录库中具体为:将特定区域的ID、每条账户信息的账户ID和被采集时间组合成一个特征字符一,利用MurmurHash算法计算特征字符一的哈希值,记为唯一标识一;利用Bloomfilter算法查找内存记录中是否存在唯一标识一,若内存记录中不存在该唯一标识一时,则将该唯一标识一存储至内存记录中,并将该唯一标识一对应的账户信息存储至人员记录库中;若内存记录中存在该唯一标识一时,则该唯一标识一对应的账户信息不存储。
4.如权利要求3基于特定区域的活跃人员、常驻人员的分析方法,其特征在于,根据人员记录库中的账户信息...
【专利技术属性】
技术研发人员:张旭,梁汝锋,刘春阳,刘正阳,刘巨安,
申请(专利权)人:国家计算机网络与信息安全管理中心,北京蓝光汇智网络科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。