【技术实现步骤摘要】
本专利技术涉及互联网大数据领域,特别涉及一种对海量日志进行实时UV统计的方法及系统。
技术介绍
UV是uniquevisitor的简写,是指通过互联网访问、浏览这个网页或APP的自然人,中文又称独立访问用户。UV是一个反映实际使用者的概念,每个独立用户相对于每个ip,更加准确地对应一个实际的浏览者。使用UV作为统计量,可以更加准确的了解单位时间内实际上有多少个访问者来到了相应的页面,是衡量一个网站或APP的用户使用情况的一个重要指标。相对于UV,还有一个重要的概念就是PV。PV是PageView的简写,即页面浏览量,在一定统计周期内用户每次刷新网页一次即被计算一次PV,和UV一样,PV也是衡量一个网站或APP访问情况的一个重要指标。用户每次刷新网页系统会记录一条访问日志,访问日志又称PVLog,通常以文件的形式存在。每条访问日志一般至少要记录谁在什么时间访问了什么页面,根据实际需求,也会有其它的信息被一起记录。从PV和UV这两个概念的定义可知,UV是从对PVLog中在一段时间范围内的相同用户进行去重计算而得,此处的一段时间范围是指UV统计的时间周期,可以为天或小时,对应天级UV或小时级UV。由于,UV的计算可以通过对PVLog(PV日志)中在一段时间范围内的相同用户的去重计算。我们知道,对于大型网站而言,PVLog通常都是海量的,比如国内某知名C2C电商网站搜索页面的日PV达到数十亿级,而 ...
【技术保护点】
一种对海量日志进行实时UV统计的方法,其特征在于包括:采集PV Log页面浏览量日志,进行分发后等待处理;同时设置UV计数器;创建Bloom Filter布隆过滤器,在当前进程的堆内存中创建Bit Array位数组,以及定义k个不同的Hash函数;将Bit Array中所有位都初始化为0;接收等待处理的PV Log,并对其中每条PV Log通过k个不同的Hash函数映射到Bit Array的k个bit位;判断上述k个bit位是否全部为1,若不是则所述UV计数器加1,并将这个k个bit位全部置为1;输出UV计数器的值,完成UV统计。
【技术特征摘要】
1.一种对海量日志进行实时UV统计的方法,其特征在于包括:
采集PVLog页面浏览量日志,进行分发后等待处理;同时设置UV计
数器;
创建BloomFilter布隆过滤器,在当前进程的堆内存中创建BitArray位
数组,以及定义k个不同的Hash函数;
将BitArray中所有位都初始化为0;
接收等待处理的PVLog,并对其中每条PVLog通过k个不同的Hash
函数映射到BitArray的k个bit位;
判断上述k个bit位是否全部为1,若不是则所述UV计数器加1,并将
这个k个bit位全部...
【专利技术属性】
技术研发人员:桂洪冠,陈运文,高翔,于敬,江永青,
申请(专利权)人:达而观信息科技上海有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。