基于特定区域的活跃人员、常驻人员的分析方法及系统技术方案

技术编号:25689991 阅读:23 留言:0更新日期:2020-09-18 21:01
本发明专利技术公开了一种基于特定区域的活跃人员、常驻人员的分析方法,其包括:S1、采集特定区域内的账户信息;S2、对账户信息进行去重;根据人员记录库中的账户信息更新人员统计库中的账户ID、账户的出现时间、账户所在地的经纬度以及账户的出现次数;S3、基于人员统计库,将出现次数排名靠前的账户标识为活跃人员;S4、基于人员记录库,从活跃人员中分别过滤出有效人员、稳定人员,有效人员和稳定人员的并集为常驻人员。本发明专利技术可有效地统计和识别出某个特定区域的社交渠道上的活跃人员和常驻人员,进而实现更加高效和多方面的支持网络舆情的分析工作。

【技术实现步骤摘要】
基于特定区域的活跃人员、常驻人员的分析方法及系统
本专利技术涉及计算机信息
更具体地说,本专利技术涉及一种基于特定区域的活跃人员、常驻人员的分析方法及系统。
技术介绍
当今社会,互联网发展十分迅速,导致网民的数量急剧上升。随着网民数量的上升,互联网越来越成为人们获取信息的主要途径,一些有影响力的门户网站,博客,社交工具逐渐变得越来越受欢迎。众多社交工具成为受人们欢迎的交流方式之一。在互联网上,世界各地的信息每天都在以惊人的速度增长,如何实现对特定区域互联网上海量信息的抓取和分析成为人们研究网络舆情的重要难题。在
上,目前特定区域社交工具信息的采集技术已趋于成熟,而对于特定区域活跃人员以及其中常驻人员的分析却缺乏比较科学的方法,所以需要一种关于特定区域活跃用户以及其中常驻人员分析的方法。
技术实现思路
本专利技术的一个目的是解决至少上述问题,并提供至少后面将说明的优点。本专利技术还有一个目的是提供一种基于特定区域的活跃人员、常驻人员的分析方法及装置,其可以有效地统计和识别出某个特定区域的社交渠道上的活跃人员和常驻人员,进而实现更加高效和多方面的支持网络舆情的分析工作。为了实现根据本专利技术的这些目的和其它优点,提供了一种基于特定区域的活跃人员、常驻人员的分析方法,其包括:S1、采集特定区域内的社交渠道上的所有出现的账户信息;S2、对账户信息进行去重,并将去重后的账户信息存储至人员记录库中;根据人员记录库中的账户信息更新人员统计库中的账户ID、账户的出现时间、账户所在地的经纬度以及账户的出现次数;账户信息至少包括账户ID、账户所在地的经纬度以及被采集时间;S3、基于人员统计库,将账户按出现次数从高到低的顺序进行排名;将出现次数排名靠前的账户标识为活跃人员;S4、基于人员记录库,从活跃人员中分别过滤出有效人员、稳定人员,有效人员和稳定人员的并集为常驻人员;有效人员、稳定人员的过滤具体为:S41、统计活跃人员对应的账户的每天出现的最早时间和最晚时间,计算最早时间和最晚时间的时间间隔,并记为停留时长;S42、对于任一活跃人员:若一定时间段内平均每天的停留时长大于第一预设值时,则将该活跃人员标识为有效人员;S43、若一定时间段内每天停留时长大于第一预设值的天数大于第二预设值时,则将该活跃人员标识为稳定人员;有效人员和稳定人员的并集为常驻人员。优选的是,基于特定区域的活跃人员、常驻人员的分析方法,还包括:计算常驻人员在一定时间段内出现的平均最早时间a和平均最晚时间b,若a与b形成的时间区间位于同一天的上午7时到下午19时之间的时长,和a与b形成的时间区间的总时长的比值大于0.5时,则将该常驻人员标识为白天人员。优选的是,基于特定区域的活跃人员、常驻人员的分析方法,对账户信息进行去重,并将去重后的账户信息存储至人员记录库中具体为:将特定区域的ID、每条账户信息的账户ID和被采集时间组合成一个特征字符一,利用MurmurHash算法计算特征字符一的哈希值,记为唯一标识一;利用Bloomfilter算法查找内存记录中是否存在唯一标识一,若内存记录中不存在该唯一标识一时,则将该唯一标识一存储至内存记录中,并将该唯一标识一对应的账户信息存储至人员记录库中;若内存记录中存在该唯一标识一时,则该唯一标识一对应的账户信息不存储。优选的是,基于特定区域的活跃人员、常驻人员的分析方法,根据人员记录库中的账户信息更新人员统计库中的账户ID、账户的出现时间、账户所在地的经纬度以及账户的出现次数具体为:将特定区域的ID、账户ID组合成一个特征字符二,利用MurmurHash算法计算特征字符二的哈希值,记为唯一标识二;利用Bloomfilter算法查找内存记录中是否存在唯一标识二,若内存记录中不存在该唯一标识二时,则将该唯一标识二存储至内存记录中,将该唯一标识二对应的账户信息中的账户ID、被采集时间和账户所在地的经纬度存储至人员记录库中,并将给被采集时间标识为账户的出现时间,并将该账户的出现次数记为1;若内存记录中存在该唯一标识二,则根据该唯一标识二对应的账户信息更新人员统计库中对应的账户的出现时间、账户所在地的经纬度,并将该账户的出现次数增加1。优选的是,基于特定区域的活跃人员、常驻人员的分析方法,一定时间段为一个月;第一预设值为5小时;第二预设值为5天。优选的是,基于特定区域的活跃人员、常驻人员的分析方法步骤S3中出现次数排名前200的账户标识为活跃人员。本专利技术还提供一种基于特定区域的活跃人员、常驻人员的分析系统,其包括:采集模块,其用于采集特定区域内的社交渠道上的所有出现的账户信息;账户信息去重模块,其用于对账户信息进行去重,并将去重后的账户信息存储至人员记录库中;人员统计库更新模块,其根据人员记录库中账户信息更新人员统计库中账户ID、账户的出现时间、账户所在地的经纬度以及账户的出现次数;账户信息包括账户ID、账户账号、账户所在地的经纬度以及被采集时间;排序模块,其基于人员统计库,将账户按出现次数从高到低的顺序进行排名;将出现次数排名靠前的账户标识为活跃人员;过滤模块,其用于基于人员记录库,从活跃人员中分别过滤出有效人员、稳定人员,有效人员和稳定人员的并集为常驻人员。本专利技术还提供一种电子设备,包括:至少一个处理器;与所述至少一个处理器通信连接的存储器,其存储有指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述方法。本专利技术还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时,实现上述方法。本专利技术至少包括以下有益效果:本专利技术通过定期扫描特定区域内社交渠道上的出现的账户信息,并对账户信息进行去重、统计、分析,从而快速、清晰地识别出特定区域内的活动于社交渠道上的活跃人员,进一步在活跃人员中识别出常驻人员,再经一步的从常驻人员中识别出白天人员,进而实现对社交渠道上的人员的识别与划分,以达到支持网络舆情高效的、多方面的分析工作。本专利技术的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本专利技术的研究和实践而为本领域的技术人员所理解。附图说明图1为本专利技术所述的基于特定区域的活跃人员、常驻人员的分析方法的流程示意图;图2为本专利技术所述的基于特定区域的活跃人员、常驻人员的分析系统的结构示意图。具体实施方式下面结合附图及实施例对本专利技术做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。需要说明的是,下述实施方案中所述实验方法,如无特殊说明,均为常规方法,所述试剂和材料,如无特殊说明,均可从商业途径获得。在本专利技术的描述中,术语“横向”、“纵向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“本文档来自技高网...

【技术保护点】
1.基于特定区域的活跃人员、常驻人员的分析方法,其特征在于,其包括:/nS1、采集特定区域内的社交渠道上的所有出现的账户信息;/nS2、对账户信息进行去重,并将去重后的账户信息存储至人员记录库中;根据人员记录库中的账户信息更新人员统计库中的账户ID、账户的出现时间、账户所在地的经纬度以及账户的出现次数;账户信息至少包括账户ID、账户所在地的经纬度以及被采集时间;/nS3、基于人员统计库,将账户按出现次数从高到低的顺序进行排名;将出现次数排名靠前的账户标识为活跃人员;/nS4、基于人员记录库,从活跃人员中分别过滤出有效人员、稳定人员,有效人员和稳定人员的并集为常驻人员;/n有效人员、稳定人员的过滤具体为:/nS41、统计活跃人员对应的账户的每天出现的最早时间和最晚时间,计算最早时间和最晚时间的时间间隔,并记为停留时长;/nS42、对于任一活跃人员:若一定时间段内平均每天的停留时长大于第一预设值时,则将该活跃人员标识为有效人员;/nS43、若一定时间段内每天停留时长大于第一预设值的天数大于第二预设值时,则将该活跃人员标识为稳定人员;有效人员和稳定人员的并集为常驻人员。/n

【技术特征摘要】
1.基于特定区域的活跃人员、常驻人员的分析方法,其特征在于,其包括:
S1、采集特定区域内的社交渠道上的所有出现的账户信息;
S2、对账户信息进行去重,并将去重后的账户信息存储至人员记录库中;根据人员记录库中的账户信息更新人员统计库中的账户ID、账户的出现时间、账户所在地的经纬度以及账户的出现次数;账户信息至少包括账户ID、账户所在地的经纬度以及被采集时间;
S3、基于人员统计库,将账户按出现次数从高到低的顺序进行排名;将出现次数排名靠前的账户标识为活跃人员;
S4、基于人员记录库,从活跃人员中分别过滤出有效人员、稳定人员,有效人员和稳定人员的并集为常驻人员;
有效人员、稳定人员的过滤具体为:
S41、统计活跃人员对应的账户的每天出现的最早时间和最晚时间,计算最早时间和最晚时间的时间间隔,并记为停留时长;
S42、对于任一活跃人员:若一定时间段内平均每天的停留时长大于第一预设值时,则将该活跃人员标识为有效人员;
S43、若一定时间段内每天停留时长大于第一预设值的天数大于第二预设值时,则将该活跃人员标识为稳定人员;有效人员和稳定人员的并集为常驻人员。


2.如权利要求1基于特定区域的活跃人员、常驻人员的分析方法,其特征在于,还包括:计算常驻人员在一定时间段内出现的平均最早时间a和平均最晚时间b,若a与b形成的时间区间位于同一天的上午7时到下午19时之间的时长,和a与b形成的时间区间的总时长的比值大于0.5时,则将该常驻人员标识为白天人员。


3.如权利要求1基于特定区域的活跃人员、常驻人员的分析方法,其特征在于,对账户信息进行去重,并将去重后的账户信息存储至人员记录库中具体为:将特定区域的ID、每条账户信息的账户ID和被采集时间组合成一个特征字符一,利用MurmurHash算法计算特征字符一的哈希值,记为唯一标识一;利用Bloomfilter算法查找内存记录中是否存在唯一标识一,若内存记录中不存在该唯一标识一时,则将该唯一标识一存储至内存记录中,并将该唯一标识一对应的账户信息存储至人员记录库中;若内存记录中存在该唯一标识一时,则该唯一标识一对应的账户信息不存储。


4.如权利要求3基于特定区域的活跃人员、常驻人员的分析方法,其特征在于,根据人员记录库中的账户信息...

【专利技术属性】
技术研发人员:张旭梁汝锋刘春阳刘正阳刘巨安
申请(专利权)人:国家计算机网络与信息安全管理中心北京蓝光汇智网络科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1