网站日志中访客信息的识别方法及装置制造方法及图纸

技术编号:14140658 阅读:56 留言:0更新日期:2016-12-10 16:15
本发明专利技术公开了一种网站日志中访客信息的识别方法及装置。该方法包括:获取待处理的访客ID和预先创建的分布式数据库,其中,待处理的访客ID为待处理网站日志中的访客ID,分布式数据库为存储有历史访客ID的分布式数据库;以及通过分布式数据库对待处理的访客ID进行识别,确定待处理的访客ID为新访客的ID或旧访客的ID。本发明专利技术解决了相关技术中识别网站日志中新旧访客的速度慢的技术问题。

【技术实现步骤摘要】

本专利技术涉及互联网数据处理
,具体而言,涉及一种网站日志中访客信息的识别方法及装置
技术介绍
网站日志是记录Web服务器接收处理请求和Web服务器运行时等各种原始信息的文件。网站日志中记录了网站运营中,被访问请求的数据信息。通过网站日志也可以获知用户访问网页的具体信息。网站日志分析是互联网中常见的场景,在每天的网站日志中,都存在大量的访客,往往需要判断各个访客是否为新访客。新旧访客的判断原理为,每个访客都会有一个固定ID,该访客ID第一次出现则为新访客,将该访客ID写入数据库,保证在第二次进行该访客ID查询时,该访客成为旧用户。现有技术中采用的传统数据库存储旧访客ID,在执行新旧访客判断时,通过访客ID与数据库中存储的访客ID进行比较,即可判断出新旧访客的信息。但是在需要同时判断大量新旧访客的过程中,因为传统数据库只能在单机上运行,并行度差,因此导致处理速度慢。针对相关技术中识别网站日志中新旧访客的速度慢的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种网站日志中访客信息的识别方法及装置,以至少解决相关技术中识别网站日志中新旧访客的速度慢的技术问题。根据本专利技术实施例的一个方面,提供了一种网站日志中访客信息的识别方法,该方法包括:获取待处理的访客ID和预先创建的分布式数据库,其中,待处理的访客ID为待处理网站日志中的访客ID,分布式数据库为存储有历史访客ID的分布式数据库;以及通过分布式数据库对待处理的访客ID进行识别,确定待处理的访客ID为新访客的ID或旧访客的ID。进一步地,通过分布式数据库对待处理的访客ID进行识别,确定待处理的访客
ID为新访客的ID或旧访客的ID包括:判断待处理的访客ID是否在分布式数据库中已经存在;如果待处理的访客ID在分布式数据库中已经存在,判定待处理的访客ID为旧访客的ID;以及如果待处理的访客ID在分布式数据库中不存在,判定待处理的访客ID为新访客的ID。进一步地,待处理网站日志中包括待处理网站日志的时间信息和待处理的访客ID,在判定待处理的访客ID为新访客的ID之后,该方法还包括:将新访客的ID存储至分布式数据库;以及根据待处理网站日志的时间信息修改分布式数据库中新访客的ID对应的时间戳。进一步地,待处理网站日志中包括待处理网站日志的时间信息和待处理的访客ID,通过分布式数据库对待处理的访客ID进行识别,确定待处理的访客ID为新访客的ID或旧访客的ID包括:获取待处理网站日志的时间信息;判断待处理网站日志的时间信息与分布式数据库中待处理的访客ID对应的时间戳是否相同;如果待处理网站日志的时间信息与分布式数据库中待处理的访客ID对应的时间戳相同,确定待处理的访客ID为新访客的ID;以及如果待处理网站日志的时间信息与分布式数据库中待处理的访客ID对应的时间戳不相同,确定待处理的访客ID为旧访客的ID。进一步地,在获取待处理的访客ID和预先创建的分布式数据库之前,该方法还包括:创建分布式数据库;获取历史访客ID;以及将历史访客ID存储至分布式数据库。进一步地,本专利技术实施例提供的一种网站日志中访客信息的识别方法中任一项的分布式数据库为HBase数据库。根据本专利技术实施例的另一方面,还提供了一种网站日志中访客信息的识别装置,该装置包括:获取单元,用于获取待处理的访客ID和预先创建的分布式数据库,其中,待处理的访客ID为待处理网站日志中的访客ID,分布式数据库为存储有历史访客ID的分布式数据库;以及确定单元,用于通过分布式数据库对待处理的访客ID进行识别,确定待处理的访客ID为新访客的ID或旧访客的ID。进一步地,确定单元包括:第一判断模块,用于判断待处理的访客ID是否在分布式数据库中已经存在;第一判定模块,用于在待处理的访客ID在分布式数据库中已经存在的情况下,判定待处理的访客ID为旧访客的ID;以及第二判定模块,用于在待处理的访客ID在分布式数据库中不存在的情况下,判定待处理的访客ID为新访客的ID。进一步地,待处理网站日志中包括待处理网站日志的时间信息和待处理的访客ID,确定单元包括:获取模块,用于获取待处理网站日志的时间信息;第二判断模块,用
于判断待处理网站日志的时间信息与分布式数据库中待处理的访客ID对应的时间戳是否相同;第一确定模块,用于在待处理网站日志的时间信息与分布式数据库中待处理的访客ID对应的时间戳相同的情况下,确定待处理的访客ID为新访客的ID;以及第二确定模块,用于在待处理网站日志的时间信息与分布式数据库中待处理的访客ID对应的时间戳不相同,确定待处理的访客ID为旧访客的ID。进一步地,本专利技术实施例提供的一种网站日志中访客信息的识别装置中任一项的分布式数据库为HBase数据库。在本专利技术实施例中,采用获取待处理的访客ID和预先创建的分布式数据库,其中,待处理的访客ID为待处理网站日志中的访客ID,分布式数据库为存储有历史访客ID的分布式数据库;以及通过分布式数据库对待处理的访客ID进行识别,确定待处理的访客ID为新访客的ID或旧访客的ID,达到了提升识别网站日志中新旧访客速度的目的,从而实现了提升识别网站日志中新旧访客的速度的技术效果,进而解决了相关技术中识别网站日志中新旧访客的速度慢的技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的网站日志中访客信息的识别方法的流程图;以及图2是根据本专利技术实施例的网站日志中访客信息的识别装置的示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方
法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。根据本专利技术实施例,提供了一种网站日志中访客信息的识别的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。图1是根据本专利技术实施例的网站日志中访客信息的识别方法的流程图。如图1所示,该方法包括如下步骤:步骤S102,获取待处理的访客ID和预先创建的分布式数据库。获取待处理的访客ID和预先创建的分布式数据库,其中,待处理的访客ID为待处理网站日志中的访客ID,分布本文档来自技高网
...
网站日志中访客信息的识别方法及装置

【技术保护点】
一种网站日志中访客信息的识别方法,其特征在于,包括:获取待处理的访客ID和预先创建的分布式数据库,其中,所述待处理的访客ID为待处理网站日志中的访客ID,所述分布式数据库为存储有历史访客ID的分布式数据库;以及通过所述分布式数据库对所述待处理的访客ID进行识别,确定所述待处理的访客ID为新访客的ID或旧访客的ID。

【技术特征摘要】
1.一种网站日志中访客信息的识别方法,其特征在于,包括:获取待处理的访客ID和预先创建的分布式数据库,其中,所述待处理的访客ID为待处理网站日志中的访客ID,所述分布式数据库为存储有历史访客ID的分布式数据库;以及通过所述分布式数据库对所述待处理的访客ID进行识别,确定所述待处理的访客ID为新访客的ID或旧访客的ID。2.根据权利要求1所述的方法,其特征在于,通过所述分布式数据库对所述待处理的访客ID进行识别,确定所述待处理的访客ID为新访客的ID或旧访客的ID包括:判断所述待处理的访客ID是否在所述分布式数据库中已经存在;如果所述待处理的访客ID在所述分布式数据库中已经存在,判定所述待处理的访客ID为旧访客的ID;以及如果所述待处理的访客ID在所述分布式数据库中不存在,判定所述待处理的访客ID为新访客的ID。3.根据权利要求2所述的方法,其特征在于,所述待处理网站日志中包括待处理网站日志的时间信息和所述待处理的访客ID,在判定所述待处理的访客ID为新访客的ID之后,所述方法还包括:将所述新访客的ID存储至所述分布式数据库;以及根据所述待处理网站日志的时间信息修改所述分布式数据库中新访客的ID对应的时间戳。4.根据权利要求1所述的方法,其特征在于,所述待处理网站日志中包括待处理网站日志的时间信息和所述待处理的访客ID,通过所述分布式数据库对所述待处理的访客ID进行识别,确定所述待处理的访客ID为新访客的ID或旧访客的ID包括:获取所述待处理网站日志的时间信息;判断所述待处理网站日志的时间信息与所述分布式数据库中待处理的访客ID对应的时间戳是否相同;如果所述待处理网站日志的时间信息与所述分布式数据库中待处理的访客ID对应的时间戳相同,确定所述待处理的访客ID为新访客的ID;以及如果所述待处理网站日志的时间信息与所述分布式数据库中待处理的访客ID对应的时间戳不相同,确定所述待处理的访客ID为旧访客的ID。5.根据权利要求1所述的方法,其特征在于,在获取...

【专利技术属性】
技术研发人员:祁国晟饶峰云
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1