一种用户行为数据采集方法和系统技术方案

技术编号:13331115 阅读:61 留言:0更新日期:2016-07-11 22:31
本发明专利技术提供了用户行为数据采集方法和系统。该方法包括:通过Apache进程记录用户对页面的访问请求关联的第一类采集数据,所述第一类采集数据包括:所述页面的标识信息、所述页面加载时生成的时间戳以及第一采集数据;通过Java脚本采集所述用户对页面的访问请求关联的第二类采集数据,所述第二类采集数据包括:所述页面的标识信息、所述页面加载时生成的时间戳以及第二采集数据;根据所述第一类采集数据和第二类采集数据中的页面的标识信息和时间戳对所述第一类采集数据和第二类采集数据进行匹配以得到所述用户的行为数据。根据本发明专利技术,可扩展用户行为数据采集的方式,改善用户行为数据采集的全面性。

【技术实现步骤摘要】

本专利技术涉及数据处理领域,更为具体而言,涉及一种用户行为数据采集方法和系统
技术介绍
随着互联网技术的飞速发展,大数据时代已经到来。许多热门的WEB网站的用户日均访问量都达到了千万级别,而这些用户访问行为的相关数据成为了大数据分析的基础元数据,动态数据采集也成为至关重要的环节。然而,现有的对WEB网站的页面数据采集大多数单一地采用Apache日志或者Javascript脚本的方式,而且每种采集方式所能够采集的数据也不同,因此现有的数据采集方式所采集的数据比较单一,不够充分和全面。
技术实现思路
为解决上述技术问题,本专利技术提供了一种用户行为数据采集方法和装置,通过将Apache和Java脚本两种方式从用户采集的数据进行匹配,作为用户的行为数据,可扩展用户行为数据采集的方式,显著改善用户行为数据的采集的全面度。根据本专利技术实施方式的第一方面,提供了一种用户行为数据采集方法,该方法包括:通过Apache进程记录用户对页面的访问请求关联的第一类采集数据,所述第一类采集数据包括:所述页面的标识信息、所述页面加载时生成的时间戳以及第一采集数据;通过Java脚本采集所述用户对页面的访问请求关联的第二类采集数据,所述第二类采集数据包括:所述页面的标识信息、所述页面加载时生成的时间戳以及第二采集数据;根据所述第一类采集数据和第二类采集数据中的页面的标识信息和时间戳对所述第一类采集数据和第二类采集数据进行匹配以得到所述用户的行为数据。在本专利技术的一些实施方式中,所述页面的标识信息包括统一资源定位符URL。在本专利技术的一些实施方式中,所述页面加载时生成的时间戳保存在页面的cookie中。在本专利技术的一些实施方式中,所述第一采集数据包括下述的一种或多种:HTTP状态码、站内搜索关键词、浏览的商品和加入购物车的商品。在本专利技术的一些实施方式中,所述第二采集数据包括下述的一种或多种:会话ID、用户代理、Flash版本、cookie、屏幕参数和页面停留时间。在本专利技术的一些实施方式中,所述根据所述第一类采集数据和第二类采集数据中的页面的标识信息和时间戳对所述第一类采集数据和第二类采集数据进行匹配包括:将所述第一类采集数据中的页面的标识信息和时间戳与所述第二类采集数据中的页面的标识信息和时间戳进行比对,若比对一致,则将所述第一类采集数据和所述第二类采集数据合并作为所述用户在所述页面上所述时间戳对应时刻的行为数据。根据本专利技术实施方式的第二方面,提供了用户行为数据采集系统,该系统包括:第一采集模块,用于通过Apache进程记录用户对页面的访问请求关联的第一类采集数据,所述第一类采集数据包括:所述页面的标识信息、所述页面加载时生成的时间戳以及第一采集数据;第二采集模块,通过Java脚本采集所述用户对页面的访问请求关联的第二类采集数据,所述第二类采集数据包括:所述页面的标识信息、所述页面加载时生成的时间戳以及第二采集数据;整合模块,用于根据所述第一类采集数据和第二类采集数据中的页面的标识信息和时间戳对所述第一类采集数据和第二类采集数据进行匹配以得到所述用户的行为数据。在本专利技术的一些实施方式中,所述页面的标识信息包括统一资源定位符URL。在本专利技术的一些实施方式中,所述页面加载时生成的时间戳保存在页面的cookie中。在本专利技术的一些实施方式中,所述第一采集数据包括下述的一种或多种:HTTP状态码、站内搜索关键词、浏览的商品和加入购物车的商品。在本专利技术的一些实施方式中,所述第二采集数据包括下述的一种或多种:会话ID、用户代理、Flash版本、cookie、屏幕参数和页面停留时间。在本专利技术的一些实施方式中,所述整合模块根据所述第一类采集数据和第二类采集数据中的页面的标识信息和时间戳对所述第一类采集数据和第二类采集数据进行匹配包括:将所述第一类采集数据中的页面的标识信息和时间戳与所述第二类采集数据中的页面的标识信息和时间戳进行比对,若比对一致,则将所述第一类采集数据和所述第二类采集数据合并作为所述用户在所述页面上所述时间戳对应时刻的行为数据。实施本专利技术实施方式提供用户行为数据采集方法和系统,可以扩展用户行为数据采集的方式,同时改善用户行为数据采集的全面度。附图说明图1是根据本专利技术一种实施方式的用户行为数据采集方法的流程示意图;图2是根据本专利技术一种实施方式的通过Apache方式采集用户关联数据的流程示意图;图3是根据本专利技术一种实施方式的通过Java脚本采集用户关联数据的流程示意图;图4是根据本专利技术一种实施方式的用户行为数据采集系统的结构示意图。具体实施方式以下结合附图和具体实施方式对本专利技术的各个方面进行详细阐述。其中,众所周知的模块、单元及其相互之间的连接、链接、通信或操作没有示出或未作详细说明。并且,所描述的特征、架构或功能可在一个或一个以上实施方式中以任何方式组合。本领域技术人员应当理解,下述的各种实施方式只用于举例说明,而非用于限制本专利技术的保护范围。还可以容易理解,本文所述和附图所示的各实施方式中的模块或单元或处理方式可以按各种不同配置进行组合和设计。下面就本专利技术涉及的一些概念进行说明。Apache,是ApacheHTTPServer的简称,是Apache软件基金会的一个开放源代码的网页服务器,可以在大多数计算机操作系统中运行,属于一种跨平台的WEB服务器软件。在本专利技术的实施方式中,可以利用Apache进程接收用户通过客户端浏览器向页面发起的超文本传输协议(HyperTextTransferprotocol,HTTP)请求,并记录相关日志。Java脚本,即Javascript,是一种直译式脚本语言,属于动态类型、弱类型、基于原型的语言。在本专利技术的实施方式,可以在每个页面嵌入公共的数据采集Java脚本,可实现采集自定义指标。下面结合附图描述本专利技术的用户行为数据采集方法。图1是根据本专利技术一种实施方式的用户行为数据采集方法的流程示意图;图2是根据本专利技术一种实施方式的通过Apache方式采集用户关联数据的流程示意图;图3是根据本专利技术一种实施方式的通过Java脚本采集用户关联数据的流程示意图。如图1所示,本专利技术实施方式的用户行为数据采集方法可包括步骤S11、S12和S13,在另外的一些实施方式中,本专利技术的用户行为数据采集方法还可包括其他的一些步骤,例如,在采集之前的预先配置和嵌入的步骤,以及在匹配之后的本文档来自技高网...

【技术保护点】
一种用户行为数据采集方法,其特征在于,所述方法包括:通过Apache进程记录用户对页面的访问请求关联的第一类采集数据,所述第一类采集数据包括:所述页面的标识信息、所述页面加载时生成的时间戳以及第一采集数据;通过Java脚本采集所述用户对页面的访问请求关联的第二类采集数据,所述第二类采集数据包括:所述页面的标识信息、所述页面加载时生成的时间戳以及第二采集数据;根据所述第一类采集数据和第二类采集数据中的页面的标识信息和时间戳对所述第一类采集数据和第二类采集数据进行匹配以得到所述用户的行为数据。

【技术特征摘要】
1.一种用户行为数据采集方法,其特征在于,所述方法包括:
通过Apache进程记录用户对页面的访问请求关联的第一类采集数据,所
述第一类采集数据包括:所述页面的标识信息、所述页面加载时生成的时间
戳以及第一采集数据;
通过Java脚本采集所述用户对页面的访问请求关联的第二类采集数据,
所述第二类采集数据包括:所述页面的标识信息、所述页面加载时生成的时
间戳以及第二采集数据;
根据所述第一类采集数据和第二类采集数据中的页面的标识信息和时间
戳对所述第一类采集数据和第二类采集数据进行匹配以得到所述用户的行为
数据。
2.根据权利要求1所述的方法,其特征在于,所述页面的标识信息包括
统一资源定位符URL。
3.根据权利要求1所述的方法,其特征在于,所述页面加载时生成的时
间戳保存在页面的cookie中。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述第一采
集数据包括下述的一种或多种:HTTP状态码、站内搜索关键词、浏览的商品
和加入购物车的商品。
5.根据权利要求1至3中任一项所述的方法,其特征在于,所述第二采
集数据包括下述的一种或多种:会话ID、用户代理、Flash版本、cookie、屏
幕参数和页面停留时间。
6.根据权利要求1至3中任一项所述的方法,其特征在于,所述根据所
述第一类采集数据和第二类采集数据中的页面的标识信息和时间戳对所述第
一类采集数据和第二类采集数据进行匹配包括:
将所述第一类采集数据中的页面的标识信息和时间戳与所述第二类采集
数据中的页面的标识信息和时间戳进行比对,若比对一致,则将所述第一类
采集数据和所述第二类采集数据合并作为所述用户在所述页面上所述时间戳
对应时刻的行为数据。
7.一种用户行为数据采集系...

【专利技术属性】
技术研发人员:王伟谢潇宇赵金鑫张舜华何小锋廖继逢胡宗维王明龙卢颖辉汪楠
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1