基于大数据的网站用户行为数据采集系统技术方案

技术编号:17977789 阅读:10 留言:0更新日期:2018-05-16 18:18
一种基于大数据的网站用户行为数据采集系统,包括访问终端,安装有网站插码的网站服务器,网络交换机,用户行为数据采集服务器,数据收集云存储,以及大数据存储HDFS,所述网站服务器、数据采集服务器、数据收集云存储NAS,以及大数据存储HDFS均与网络交换机网络连接,采用分布式集群部署,用户行为数据采集与网站应用本身分离,有效降低了用户行为数据采集对网站应用性能以及网站服务器性能资源的影响。脱离了数据库存储网站用户行为采集数据的方式,分离了用户行为数据对数据库服务器的依赖关系,有效解决海量级数据的查询、分析和统计的问题,以及网站服务器CPU、内存等资源消耗大的问题。

Website user behavior data collection system based on big data

A user behavior data acquisition system based on large data, including access terminals, web server, network switch, user behavior data acquisition server, data collection cloud storage, and large data storage HDFS, and the web server, data collection server, data collection cloud storage. The storage NAS and the large data storage HDFS are connected to the network switch network, and the distributed cluster deployment is used. The user behavior data collection is separated from the web application itself, which effectively reduces the effect of user behavior data collection on the performance of the web site and the performance resources of the web server. It separates the dependence of user behavior data on the database server, and effectively solves the problem of query, analysis and statistics of massive data, as well as the problems of large resources such as web server CPU, memory and so on.

【技术实现步骤摘要】
基于大数据的网站用户行为数据采集系统
本技术涉及一种数据采集系统,具体的说是一种基于大数据的网站用户行为数据采集系统。
技术介绍
目前在大型网站中,需要对登录和非登录用户的行为数据进行采集,网站运营者通过对采集来的数据进行数据分析,帮助改进网站的栏目结构,提升用户的体验,以及进行商业化的用户行为分析,信息推送,广告投放等。传统的网站用户行为采集方案,基本都是采用在网站应用中部署采集代码和采集处理程序,通过网站应用本身进行用户行为数据的采集和收集,将用户行为数据直接记录入网站数据库中或应用本身的日志文件之中,这样的方案,会带来三个问题:(1)网站应用需要承担除了处理网站业务以外的其它工作,随着用户访问量的增加,服务器资源消耗非常大,网站应用的性能会出现显著降低,同时网站应用的故障率也逐步提升;(2)网站应用的数据库服务需要承受高频次的用户行为数据写入操作,数据库的数据存储量日益增加,数据库的性能逐步降低。伴随着行为数据的每日递增,数据库服务器的运行风险也呈现为递增趋势,服务器磁盘故障率也会非常高。(3)当用户行为数据的数据量变为海量级以后,传统的数据库查询已经无法应对海量级数据的查询、分析和统计,传统网站因为海量级数据的查询、分析和统计,会造成服务器崩溃、瘫痪。此外,对于大型或特大型的门户网站来说,大型、特大型门户网站的应用系统基本都是采用分布式集群方式部署在很多的服务器上的,网站系统在部署上提现为应用的多节点化、分散化,这为用户行为数据的采集带了很大的困扰,大规模的用户行为数据、分散的数据文件存储,已成为制约用户行为大数据分析的主要矛盾。
技术实现思路
本技术提出一种基于大数据的网站用户行为数据采集系统,包括访问终端,安装有网站插码的网站服务器,网络交换机,用户行为数据采集服务器,数据收集云存储,以及大数据存储HDFS,所述网站服务器、数据采集服务器、数据收集云存储NAS,以及大数据存储HDFS均与网络交换机网络连接;所述网站服务器上安装有网站插码,所述用户行为数据采集服务器上安装有文件数据传输部件,所述数据收集云存储安装有文件数据收集部件,所述大数据存储HDFS为数据存储器,安装有支撑存储器的存储系统以及用户行为数据数据库。所述网站插码包括用户行为数据采集脚本文件和脚本代码;所述用户行为数据采集服务器包括采集用户行为数据采集脚本文件和脚本代码收集的用户行为的采集部件,将用户行为数据重组成指定规格的用户行为数据包的数据转换部件,以及通过HTTP协议向用户行为采集服务器发送用户行为数据包的发送部件;所述文件数据传输部件包括将用户行为数据包转化成用户行为日志文件的数据转换部件,以及将用户行为日志文件发送至数据收集云存储的传输部件;所述数据收集云存储包括数据接收部件,以及数据存储部,所述数据接收部件接收文件数据传输部件发来的用户行为日志文件,所述数据存储部收集数据接收部件收到的用户行为日志文件;所述文件数据收集部件包括监控数据收集云存储上不断增加的用户行为日志文件的数据监控部件,以及实时的将日志文件中的数据传输给大数据存储数据传输部件;所述大数据存储HDFS包括数据存储器,支撑存储器的存储系统以及用户行为数据数据库。所述访问终端包括手机、PC机、平板电脑。有益效果:本技术基于大数据的网站用户行为数据采集系统,采用分布式集群部署,用户行为数据采集与网站应用本身分离,有效降低了用户行为数据采集对网站应用性能以及网站服务器性能资源的影响。脱离了数据库存储网站用户行为采集数据的方式,分离了用户行为数据对数据库服务器的依赖关系,有效解决海量级数据的查询、分析和统计的问题,以及网站服务器CPU、内存等资源消耗大的问题。附图说明图1为基于大数据的网站用户行为数据采集系统架构图;图2为基于大数据的网站用户行为数据采集系统结构示意图。具体实施方式实施例1:如图1所示,一种基于大数据的网站用户行为数据采集系统,包括访问终端,安装有网站插码的网站服务器,网络交换机,用户行为数据采集服务器,数据收集云存储,以及大数据存储HDFS,所述网站服务器、数据采集服务器、数据收集云存储NAS,以及大数据存储HDFS均与网络交换机网络连接;如图2所示,所述网站服务器上安装有网站插码,所述用户行为数据采集服务器上安装有文件数据传输部件,所述数据收集云存储安装有文件数据收集部件,所述大数据存储HDFS为数据存储器,安装有支撑存储器的存储系统以及用户行为数据数据库。所述网站插码包括用户行为数据采集脚本文件和脚本代码;所述用户行为数据采集服务器包括采集用户行为数据采集脚本文件和脚本代码收集的用户行为的采集部件,将用户行为数据重组成指定规格的用户行为数据包的数据转换部件,以及通过HTTP协议向用户行为采集服务器发送用户行为数据包的发送部件;所述文件数据传输部件包括将用户行为数据包转化成用户行为日志文件的数据转换部件,以及将用户行为日志文件发送至数据收集云存储的传输部件;所述数据收集云存储包括数据接收部件,以及数据存储部,所述数据接收部件接收文件数据传输部件发来的用户行为日志文件,所述数据存储部收集数据接收部件收到的用户行为日志文件;所述文件数据收集部件包括监控数据收集云存储上不断增加的用户行为日志文件的数据监控部件,以及实时的将日志文件中的数据传输给大数据存储数据传输部件;所述大数据存储HDFS包括数据存储器,支撑存储器的存储系统以及用户行为数据数据库。基于大数据的网站用户行为数据采集系统的工作步骤包括:(1)网站插码的步骤,由网站开发人员在网站页面上进行插码,插入用户行为数据采集脚本文件和脚本代码;(2)收集用户行为数据的步骤,当用户访问网站页面时,用户行为数据采集脚本文件和脚本代码收集用户行为数据,并将数据重组成指定规格的用户行为数据包,通过HTTP协议向用户行为采集服务器发送;(3)将用户行为数据包转化成用户行为日志文件的步骤,用户行为采集服务器接收网页端发出的用户行为数据包,并利用OpenResty组件将数据包转化成用户行为日志文件;(4)将用户行为日志文件发送至数据收集云存储的步骤,在用户行为采集服务器上部署LinuxShell脚本,定时将用户行为日志文件发送至统一的数据收集云存储上;(5)将不断增加的用户行为日志文件中的数据实时传输给大数据存储的步骤,采用监控数据工具监控数据收集云存储NAS上不断增加的用户行为日志文件,并实时的将日志文件中的数据传输给大数据存储;(6)大数据存储的步骤,使用HDFS作为大数据存储,将所有的用户行为数据存储于HDFS之中。进一步优选地,所述OpenResty组件为Lua和Nginx粘合的ngx_lua模块(Nginx+Lua);所述数据收集云存储为NAS云存储;所述监控数据工具为Flume。进一步优选地,所述将不断增加的用户行为日志文件中的数据实时传输给大数据存储的步骤,采用监控数据工具监控数据收集云存储NAS上新增加的用户行为日志文件,采用增量传递的方式实时的将日志文件中的数据传输给大数据存储。进一步优选地,所述文件数据收集部件包括监控数据收集云存储上新增加的用户行为日志文件的数据监控部件,以及实时的将日志文件中新增加的数据传输给大数据存储数据传输部件;实施例2:网站用户行为数据采集方本文档来自技高网...
基于大数据的网站用户行为数据采集系统

【技术保护点】
一种基于大数据的网站用户行为数据采集系统,其特征在于:包括访问终端,安装有网站插码的网站服务器,网络交换机,用户行为数据采集服务器,数据收集云存储,以及大数据存储HDFS,所述网站服务器、数据采集服务器、数据收集云存储NAS,以及大数据存储HDFS均与网络交换机网络连接;所述网站服务器上安装有网站插码,所述用户行为数据采集服务器上安装有文件数据传输部件,所述数据收集云存储安装有文件数据收集部件,所述大数据存储HDFS为数据存储器,安装有支撑存储器的存储系统以及用户行为数据数据库。

【技术特征摘要】
1.一种基于大数据的网站用户行为数据采集系统,其特征在于:包括访问终端,安装有网站插码的网站服务器,网络交换机,用户行为数据采集服务器,数据收集云存储,以及大数据存储HDFS,所述网站服务器、数据采集服务器、数据收集云存储NAS,以及大数据存储HDFS均与网络交换机网络连接;所述网站服务器上安装有网站插码,所述用户行为数据采集服务器上安装有文件数据传输部件,所述数据收集云存储安装有文件数据收集部件,所述大数据存储HDFS为数据存储器,安装有支撑存储器的存储系统以及用户行为数据数据库。2.根据权利要求1所述的基于大数据的网站用户行为数据采集系统,其特征在于:所述网站插码包括用户行为数据采集脚本文件和脚本代码;所述用户行为数据采集服务器包括采集用户行为数据采集脚本文件和脚本代码收集的用户行为的采集部件,将用户行为数据重组成指定规格的...

【专利技术属性】
技术研发人员:甘傲然
申请(专利权)人:南京感度信息技术有限责任公司
类型:新型
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1