基于大数据的网站用户行为数据采集方法、系统及应用技术方案

技术编号:17705165 阅读:36 留言:0更新日期:2018-04-14 18:04
一种基于大数据的网站用户行为数据采集方法、系统及应用,包括网站插码的步骤,收集用户行为数据的步骤,将用户行为数据包转化成用户行为日志文件的步骤,将用户行为日志文件发送至数据收集云存储的步骤,将不断增加的用户行为日志文件中的数据实时传输给大数据存储的步骤,大数据存储的步骤,采用分布式集群部署,用户行为数据采集与网站应用本身分离,有效降低了用户行为数据采集对网站应用性能的影响。脱离了数据库存储网站用户行为采集数据的方式,分离了用户行为数据对数据库服务器的依赖关系,有效解决海量级数据的查询、分析和统计的问题。

【技术实现步骤摘要】
基于大数据的网站用户行为数据采集方法、系统及应用
本专利技术涉及一种数据采集方法及系统,具体的说是一种基于大数据的网站用户行为数据采集方法、系统及应用。
技术介绍
目前在大型网站中,需要对登录和非登录用户的行为数据进行采集,网站运营者通过对采集来的数据进行数据分析,帮助改进网站的栏目结构,提升用户的体验,以及进行商业化的用户行为分析,信息推送,广告投放等。传统的网站用户行为采集方案,基本都是采用在网站应用中部署采集代码和采集处理程序,通过网站应用本身进行用户行为数据的采集和收集,将用户行为数据直接记录入网站数据库中或应用本身的日志文件之中,这样的方案,会带来三个问题:(1)网站应用需要承担除了处理网站业务以外的其它工作,随着用户访问量的增加,网站应用的性能会出现显著降低,同时网站应用的故障率也逐步提升;(2)网站应用的数据库服务需要承受高频次的用户行为数据写入操作,数据库的数据存储量日益增加,数据库的性能逐步降低。伴随着行为数据的每日递增,数据库服务器的运行风险也呈现为递增趋势。(3)当用户行为数据的数据量变为海量级以后,传统的数据库查询已经无法应对海量级数据的查询、分析和统计。此外,对于大型或特大型的门户网站来说,大型、特大型门户网站的应用系统基本都是采用分布式集群方式部署在很多的服务器上的,网站系统在部署上提现为应用的多节点化、分散化,这为用户行为数据的采集带了很大的困扰,大规模的用户行为数据、分散的数据文件存储,已成为制约用户行为大数据分析的主要矛盾。本专利技术提出一种基于大数据的网站用户行为数据采集方法,包括以下步骤:(1)网站插码的步骤,由网站开发人员在网站页面上进行插码,插入用户行为数据采集脚本文件和脚本代码;(2)收集用户行为数据的步骤,当用户访问网站页面时,用户行为数据采集脚本文件和脚本代码收集用户行为数据,并将数据重组成指定规格的用户行为数据包,通过HTTP协议向用户行为采集服务器发送;(3)将用户行为数据包转化成用户行为日志文件的步骤,用户行为采集服务器接收网页端发出的用户行为数据包,并利用OpenResty组件将数据包转化成用户行为日志文件;(4)将用户行为日志文件发送至数据收集云存储的步骤,在用户行为采集服务器上部署LinuxShell脚本,定时将用户行为日志文件发送至统一的数据收集云存储上;(5)将不断增加的用户行为日志文件中的数据实时传输给大数据存储的步骤,采用监控数据工具监控数据收集云存储(NAS)上不断增加的用户行为日志文件,并实时的将日志文件中的数据传输给大数据存储;(6)大数据存储的步骤,使用HDFS作为大数据存储,将所有的用户行为数据存储于HDFS之中。进一步优选地,所述OpenResty组件为Lua和Nginx粘合的ngx_lua模块(Nginx+Lua);所述数据收集云存储为NAS云存储;所述监控数据工具为Flume。进一步优选地,所述将不断增加的用户行为日志文件中的数据实时传输给大数据存储的步骤,采用监控数据工具监控数据收集云存储(NAS)上新增加的用户行为日志文件,采用增量传递的方式实时的将日志文件中的数据传输给大数据存储。进一步的,本专利技术还提出一种基于大数据的网站用户行为数据采集系统,包括网站插码、用户行为数据采集服务器、文件数据传输部件、数据收集云存储、文件数据收集部件和HDFS大数据存储。所述网站插码包括用户行为数据采集脚本文件和脚本代码;所述用户行为数据采集服务器包括采集用户行为数据采集脚本文件和脚本代码收集的用户行为的采集部件,将用户行为数据重组成指定规格的用户行为数据包的数据转换部件,以及通过HTTP协议向用户行为采集服务器发送用户行为数据包的发送部件;所述文件数据传输部件包括将用户行为数据包转化成用户行为日志文件的数据转换部件,以及将用户行为日志文件发送至数据收集云存储的传输部件;所述数据收集云存储包括数据接收部件,以及数据存储部,所述数据接收部件接收文件数据传输部件发来的用户行为日志文件,所述数据存储部收集数据接收部件收到的用户行为日志文件;所述文件数据收集部件包括监控数据收集云存储上不断增加的用户行为日志文件的数据监控部件,以及实时的将日志文件中的数据传输给大数据存储数据传输部件;所述HDFS大数据存储包括数据存储器,支撑存储器的存储系统以及用户行为数据数据库。进一步优选地,所述文件数据收集部件包括监控数据收集云存储上新增加的用户行为日志文件的数据监控部件,以及实时的将日志文件中新增加的数据传输给大数据存储数据传输部件;进一步的,本专利技术还提出一种应用本专利技术基于大数据的网站用户行为数据采集方法的应用,包括网站、论坛、社区、APP、电子商务平台、网上商城、或微信平台。以及一种应用本专利技术基于大数据的网站用户行为数据采集系统的应用,包括网站、论坛、社区、APP、电子商务平台、网上商城、或微信平台。有益效果:本专利技术基于大数据的网站用户行为数据采集方法、系统,采用分布式集群部署,用户行为数据采集与网站应用本身分离,有效降低了用户行为数据采集对网站应用性能的影响。脱离了数据库存储网站用户行为采集数据的方式,分离了用户行为数据对数据库服务器的依赖关系,有效解决海量级数据的查询、分析和统计的问题。附图说明图1为基于大数据的网站用户行为数据采集方法步骤图;图2为基于大数据的网站用户行为数据采集系统结构示意图;图3为基于大数据的网站用户行为数据采集系统工作过程示意图。具体实施方式实施例1:如图1所示,一种基于大数据的网站用户行为数据采集方法,包括以下步骤:(1)网站插码的步骤,由网站开发人员在网站页面上进行插码,插入用户行为数据采集脚本文件和脚本代码;(2)收集用户行为数据的步骤,当用户访问网站页面时,用户行为数据采集脚本文件和脚本代码收集用户行为数据,并将数据重组成指定规格的用户行为数据包,通过HTTP协议向用户行为采集服务器发送;(3)将用户行为数据包转化成用户行为日志文件的步骤,用户行为采集服务器接收网页端发出的用户行为数据包,并利用OpenResty组件将数据包转化成用户行为日志文件;(4)将用户行为日志文件发送至数据收集云存储的步骤,在用户行为采集服务器上部署LinuxShell脚本,定时将用户行为日志文件发送至统一的数据收集云存储上;(5)将不断增加的用户行为日志文件中的数据实时传输给大数据存储的步骤,采用监控数据工具监控数据收集云存储(NAS)上不断增加的用户行为日志文件,并实时的将日志文件中的数据传输给大数据存储;(6)大数据存储的步骤,使用HDFS作为大数据存储,将所有的用户行为数据存储于HDFS之中。进一步优选地,所述OpenResty组件为Lua和Nginx粘合的ngx_lua模块(Nginx+Lua);所述数据收集云存储为NAS云存储;所述监控数据工具为Flume。如图2所示,进一步的,本专利技术还提出一种基于大数据的网站用户行为数据采集系统,包括网站插码、用户行为数据采集服务器、文件数据传输部件、数据收集云存储、文件数据收集部件和HDFS大数据存储。所述网站插码包括用户行为数据采集脚本文件和脚本代码;所述用户行为数据采集服务器包括采集用户行为数据采集脚本文件和脚本代码收集的用户行为的采集部件,将用户行为数据重组成指定规格的用户行本文档来自技高网...
基于大数据的网站用户行为数据采集方法、系统及应用

【技术保护点】
一种基于大数据的网站用户行为数据采集方法,其特征在于包括以下步骤:(1)网站插码的步骤,由网站开发人员在网站页面上进行插码,插入用户行为数据采集脚本文件和脚本代码;(2)收集用户行为数据的步骤,当用户访问网站页面时,用户行为数据采集脚本文件和脚本代码收集用户行为数据,并将数据重组成指定规格的用户行为数据包,通过HTTP协议向用户行为采集服务器发送;(3)将用户行为数据包转化成用户行为日志文件的步骤,用户行为采集服务器接收网页端发出的用户行为数据包,并利用OpenResty组件将数据包转化成用户行为日志文件;(4)将用户行为日志文件发送至数据收集云存储的步骤,在用户行为采集服务器上部署Linux Shell脚本,定时将用户行为日志文件发送至统一的数据收集云存储上;(5)将不断增加的用户行为日志文件中的数据实时传输给大数据存储的步骤,采用监控数据工具监控数据收集云存储(NAS)上不断增加的用户行为日志文件,并实时的将日志文件中的数据传输给大数据存储;(6)大数据存储的步骤,使用HDFS作为大数据存储,将所有的用户行为数据存储于HDFS之中。

【技术特征摘要】
1.一种基于大数据的网站用户行为数据采集方法,其特征在于包括以下步骤:(1)网站插码的步骤,由网站开发人员在网站页面上进行插码,插入用户行为数据采集脚本文件和脚本代码;(2)收集用户行为数据的步骤,当用户访问网站页面时,用户行为数据采集脚本文件和脚本代码收集用户行为数据,并将数据重组成指定规格的用户行为数据包,通过HTTP协议向用户行为采集服务器发送;(3)将用户行为数据包转化成用户行为日志文件的步骤,用户行为采集服务器接收网页端发出的用户行为数据包,并利用OpenResty组件将数据包转化成用户行为日志文件;(4)将用户行为日志文件发送至数据收集云存储的步骤,在用户行为采集服务器上部署LinuxShell脚本,定时将用户行为日志文件发送至统一的数据收集云存储上;(5)将不断增加的用户行为日志文件中的数据实时传输给大数据存储的步骤,采用监控数据工具监控数据收集云存储(NAS)上不断增加的用户行为日志文件,并实时的将日志文件中的数据传输给大数据存储;(6)大数据存储的步骤,使用HDFS作为大数据存储,将所有的用户行为数据存储于HDFS之中。2.根据权利要求1所述基于大数据的网站用户行为数据采集方法,其特征在于:所述OpenResty组件为Lua和Nginx粘合的ngx_lua模块;所述数据收集云存储为NAS云存储;所述监控数据工具为Flume。3.根据权利要求1所述基于大数据的网站用户行为数据采集方法,其特征在于:所述将不断增加的用户行为日志文件中的数据实时传输给大数据存储的步骤,采用监控数据工具监控数据收集云存储(NAS)上新增加的用户行为日志文件,采用增量传递的方式实时的将日志文件中的数据传输给大数据存储。4.采用权利要求1所述基于大数据的网站用户行为数据采集方法的系统,其特征在于...

【专利技术属性】
技术研发人员:甘傲然
申请(专利权)人:南京感度信息技术有限责任公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1