A user behavior data acquisition system based on large data, including access terminals, web server, network switch, user behavior data acquisition server, data collection cloud storage, and large data storage HDFS, and the web server, data collection server, data collection cloud storage. The storage NAS and the large data storage HDFS are connected to the network switch network, and the distributed cluster deployment is used. The user behavior data collection is separated from the web application itself, which effectively reduces the effect of user behavior data collection on the performance of the web site and the performance resources of the web server. It separates the dependence of user behavior data on the database server, and effectively solves the problem of query, analysis and statistics of massive data, as well as the problems of large resources such as web server CPU, memory and so on.
【技术实现步骤摘要】
基于大数据的网站用户行为数据采集系统
本技术涉及一种数据采集系统,具体的说是一种基于大数据的网站用户行为数据采集系统。
技术介绍
目前在大型网站中,需要对登录和非登录用户的行为数据进行采集,网站运营者通过对采集来的数据进行数据分析,帮助改进网站的栏目结构,提升用户的体验,以及进行商业化的用户行为分析,信息推送,广告投放等。传统的网站用户行为采集方案,基本都是采用在网站应用中部署采集代码和采集处理程序,通过网站应用本身进行用户行为数据的采集和收集,将用户行为数据直接记录入网站数据库中或应用本身的日志文件之中,这样的方案,会带来三个问题:(1)网站应用需要承担除了处理网站业务以外的其它工作,随着用户访问量的增加,服务器资源消耗非常大,网站应用的性能会出现显著降低,同时网站应用的故障率也逐步提升;(2)网站应用的数据库服务需要承受高频次的用户行为数据写入操作,数据库的数据存储量日益增加,数据库的性能逐步降低。伴随着行为数据的每日递增,数据库服务器的运行风险也呈现为递增趋势,服务器磁盘故障率也会非常高。(3)当用户行为数据的数据量变为海量级以后,传统的数据库查询已经无法应对海量级数据的查询、分析和统计,传统网站因为海量级数据的查询、分析和统计,会造成服务器崩溃、瘫痪。此外,对于大型或特大型的门户网站来说,大型、特大型门户网站的应用系统基本都是采用分布式集群方式部署在很多的服务器上的,网站系统在部署上提现为应用的多节点化、分散化,这为用户行为数据的采集带了很大的困扰,大规模的用户行为数据、分散的数据文件存储,已成为制约用户行为大数据分析的主要矛盾。
技术实现思路
本技术 ...
【技术保护点】
一种基于大数据的网站用户行为数据采集系统,其特征在于:包括访问终端,安装有网站插码的网站服务器,网络交换机,用户行为数据采集服务器,数据收集云存储,以及大数据存储HDFS,所述网站服务器、数据采集服务器、数据收集云存储NAS,以及大数据存储HDFS均与网络交换机网络连接;所述网站服务器上安装有网站插码,所述用户行为数据采集服务器上安装有文件数据传输部件,所述数据收集云存储安装有文件数据收集部件,所述大数据存储HDFS为数据存储器,安装有支撑存储器的存储系统以及用户行为数据数据库。
【技术特征摘要】
1.一种基于大数据的网站用户行为数据采集系统,其特征在于:包括访问终端,安装有网站插码的网站服务器,网络交换机,用户行为数据采集服务器,数据收集云存储,以及大数据存储HDFS,所述网站服务器、数据采集服务器、数据收集云存储NAS,以及大数据存储HDFS均与网络交换机网络连接;所述网站服务器上安装有网站插码,所述用户行为数据采集服务器上安装有文件数据传输部件,所述数据收集云存储安装有文件数据收集部件,所述大数据存储HDFS为数据存储器,安装有支撑存储器的存储系统以及用户行为数据数据库。2.根据权利要求1所述的基于大数据的网站用户行为数据采集系统,其特征在于:所述网站插码包括用户行为数据采集脚本文件和脚本代码;所述用户行为数据采集服务器包括采集用户行为数据采集脚本文件和脚本代码收集的用户行为的采集部件,将用户行为数据重组成指定规格的...
【专利技术属性】
技术研发人员:甘傲然,
申请(专利权)人:南京感度信息技术有限责任公司,
类型:新型
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。