网站访问率统计方法及系统技术方案

技术编号:8107719 阅读:176 留言:0更新日期:2012-12-21 07:51
本发明专利技术提供了一种网站访问率统计方法及系统,其中,所述方法包括:S1、抽样,选取不同地区的设备日志;S2、根据所述设备日志,将访问用户划分为多个统计对象;S3、根据统计对象、统计条件、统计时间范围,从设备日志中获取可用数据;S4、对可用数据根据统计对象,包含统计条件的URL,统计时间进行聚类汇总,获取不同统计对象对不同URL的访问数量;S5、将统计数据根据统计对象、网站、时间段进行二次归类;S6、计算各网站访问率。本发明专利技术弥补了日志中提取广告数据的空白,将日志数据进行二次利用,解决了当前网页网站访问率统计的片面性,失真行,以及不同网站见网站访问率统计的不可比较性等问题。

【技术实现步骤摘要】

本专利技术涉及ー种网站访问率统计方法及系统,尤其是涉及一种基于数据挖掘技术的网站访问率统计方法及系统。背景技木 随着互联网的发展和普及,越来越多的人从互联网上获取信息,越来越多的产品供应商,服务供应商会选择网络广告的形式宣传自己的产品和服务,然而选择在什么样的网站上投放广告可以使其投放的效益最大化,成为个供应商头疼的问题。产品供应商只能听取各大网络供应商的片面之词(网站内部统计的访问量,流量等)而盲目的投放广告。然而,当前对网络数据的统计,数据具有一定的片面性和失真性(重复统计,内部数据造假等),且不同网站统计数据的方法不统一,导致不同网站广告数据的可比性降低。
技术实现思路
为了解决上述问题,本专利技术的目的是提供一种网站访问率统计方法。该方法可从海量日志中通过数据挖掘技术提取出量化广告投放效益的数据。本专利技术的另ー目的是提供ー种网站访问率统计系统。其中,本专利技术ー实施方式的网站访问率统计方法包括以下步骤 51、抽样,选取不同地区的设备日志; 52、根据所述设备日志,将访问用户划分为多个统计对象; 53、根据统计对象、统计条件、统计时间范围,从设备日志中获取可用数据; 54、对可用数据根据统计对象,包含统计条件的URL,统计时间进行聚类汇总,获取不同统计对象对不同URL的访问数量; 55、将统计数据根据统计对象、网站、时间段进行二次归类; 56、计算各网站访问率。作为本专利技术的进ー步改进,所述S2步骤具体包括根据所述设备日志,将访问用户按照年龄、性别划分,获取样本不同聚类的加权人口。作为本专利技术的进ー步改进,所述S3步骤具体包括 采用分布式计算,根据统计对象、统计条件、统计时间范围,从设备日志中获取可用数据,并将垃圾数据剔除; 将不同设备日志的可同数据汇总到一个或ー类表格中。作为本专利技术的进ー步改进,所述S4步骤还包括 通过汇总条件的哈希算法去重。相应地,本专利技术ー实施方式的网站访问率统计系统包括 抽样单元,用于抽样,选取不同地区的设备日志; 划分单元,用于根据所述设备日志,将访问用户划分为多个统计对象;数据单元,用于根据统计对象、统计条件、统计时间范围,从设备日志中获取可用数据;统计单元,用于对可用数据根据统计对象,包含统计条件的URL,统计时间进行聚类汇总,获取不同统计对象对不同URL的访问数量; 二次统计单元,用于将统计数据根据统计对象、网站、时间段进行二次归类; 计算单元,用于计算各网站访问率。作为本专利技术的进ー步改进,所述划分単元具体用于 根据所述设备日志,将访问用户按照年龄、性别划分,获取样本不同聚类的加权人口。作为本专利技术的进ー步改进,所述数据単元具体用于 采用分布式计算,根据统计对象、统计条件、统计时间范围,从设备日志中获取可用数据,并将垃圾数据剔除; 将不同设备日志的可同数据汇总到一个或ー类表格中。 作为本专利技术的进ー步改进,所述统计単元还用于 通过汇总条件的哈希算法去重。相比于现有技术,本专利技术弥补了日志中提取广告数据的空白,将日志数据进行ニ次利用,解决了当前网页网站访问率统计的片面性,失真行,以及不同网站见网站访问率统计的不可比较性等问题。附图说明 图I是本专利技术ー实施例的网站访问率统计方法的流程 图2是本专利技术一实施例的网站访问率统计系统的模块图。具体实施方式 为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本专利技术进行详细描述。如图I所示,在本专利技术ー实施方式中,网站访问率统计方法,包括以下步骤 51、抽样,选取不同地区的设备日志; 52、根据所述设备日志,将访问用户划分为多个统计对象,优选地,根据统计对象的不同,将设备访问用户按照年龄,性别划分。例如按照年龄性别可以划分为F18-24,M18-24,F24-48,M24-48等,获取样本不同聚类加权人口( E样本权数); 53、采用分布式计算,根据统计对象(人群),统计条件(例如,advertisment的URL,点击3次以上的算ー个访问量),统计时间范围,从设备日志中获取可用数据,将垃圾数据裁剪剔除,提高下一步统计的效率,以及内存的利用率,并将不同设备日志的可用数据汇总到ー个或一类表格中(根据日志量的大小); 54、对可用数据根据统计对象,包含统计条件的URL,统计时间进行聚类汇总,获取不同统计对象对不同URL的访问数量,并通过汇总条件的哈希算法去重; 55、二次统计,将统计数据根据统计对象,网站(163,sina等),时间段,进行二次归类,获取相应人群,时间段,网站,同统计条件的访问人数; 56、统计数据计算,获取相应条件的各网站访问率,例如P18-24访问率(163)= P18-24访问量(163)/ P18-24采样人群数量;P24-48访问率(sina) = P24-48访问量(sina) /P24-48采样人群数量。如图2所示,在本专利技术ー实施方式中,网站访问率统计系统包括 抽样单元,用于抽样,选取不同地区的设备日志; 划分单元,用于根据所述设备日志,将访问用户划分为多个统计对象,优选地,根据统计对象的不同,将设备访问用户按照年龄,性别划分。例如按照年龄性别可以划分为F18-24,M 18-24,F24-48,M24-48等,获取样本不同聚类加权人口( E样本权数); 数据单元,用于采用分布式计算,根据统计对象(人群),统计条件(包含advertisment的URL,点击3次以上的算ー个访问量),统计时间范围,从设备日志中获取可用数据,将垃圾数据裁剪剔除,提高下一步统计的效率,以及内存的利用率,并将不同设备日志的可用数据汇总到一个或ー类表格(根据日志量的大小); 统计单元,用于对可用数据根据统计对象,包含统计条件的URL,统计时间进行聚类汇总,获取不同统计对象对不同URL的访问数量,并通过汇总条件的哈希算法去重; 二次统计单元,用于二次统计,将统计数据根据统计对象,网站(163,sina等),时间段,进行二次归类,获取相应人群,时间段,网站,同统计条件的访问人数; 计算单元,用于统计数据计算,获取相应条件的各网站访问率,例如P18-24访问率(163) = P18-24 访问量(163)/ P18-24 采样人群数量;P24_48 访问率(sina) = P24-48 访问量(sina)/ P24-48采样人群数量。综上所述,本专利技术通过海量日志数据提取,弥补了日志中提取广告数据的空白,将日志数据进行二次利用,解决了当前网页网站访问率统计的片面性,失真行,以及不同网站见网站访问率统计的不可比较性等问题。应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为ー个整体,各实施方式中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。上文所列出的一系列的详细说明仅仅是针对本专利技术的可行性实施方式的具体说明,它们并非用以限制本专利技术的保护范围,凡未脱离本专利技术技艺精神所作的等效实施方式或变更均应包含在本专利技术的保护范围之内。本文档来自技高网...

【技术保护点】
一种网站访问率统计方法,其特征在于,所述方法包括:S1、抽样,选取不同地区的设备日志;S2、根据所述设备日志,将访问用户划分为多个统计对象;S3、根据统计对象、统计条件、统计时间范围,从设备日志中获取可用数据;S4、对可用数据根据统计对象,包含统计条件的URL,统计时间进行聚类汇总,获取不同统计对象对不同URL的访问数量;S5、将统计数据根据统计对象、网站、时间段进行二次归类;S6、计算各网站访问率。

【技术特征摘要】
1.ー种网站访问率统计方法,其特征在于,所述方法包括 51、抽样,选取不同地区的设备日志; 52、根据所述设备日志,将访问用户划分为多个统计对象; 53、根据统计对象、统计条件、统计时间范围,从设备日志中获取可用数据; 54、对可用数据根据统计对象,包含统计条件的URL,统计时间进行聚类汇总,获取不同统计对象对不同URL的访问数量; 55、将统计数据根据统计对象、网站、时间段进行二次归类; 56、计算各网站访问率。2.根据权利要求I所述的网站访问率统计方法,其特征在于,所述S2步骤具体包括 根据所述设备日志,将访问用户按照年龄、性别划分,获取样本不同聚类的加权人口。3.根据权利要求I所述的网站访问率统计方法,其特征在于,所述S3步骤具体包括 采用分布式计算,根据统计对象、统计条件、统计时间范围,从设备日志中获取可用数据,并将垃圾数据剔除; 将不同设备日志的可同数据汇总到一个或ー类表格中。4.根据权利要求I所述的网站访问率统计方法,其特征在于,所述S4步骤还包括 通过汇总条件的哈希算法去重。5.ー种网站访问率统计系统...

【专利技术属性】
技术研发人员:高华何泽华
申请(专利权)人:苏州迈科网络安全技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1