【技术实现步骤摘要】
基于Flink流式处理的用户行为统计分析方法
本专利技术涉及数据统计分析
,特别涉及一种基于Flink流式处理的用户行为统计分析方法。
技术介绍
在数字化时代下,互联网的应用范围和边界不断扩大。众多互联网企业和传统企业逐步加快自身应用系统的更新迭代,包括电脑端和手机端,借助互联网的科技力量,为自身的服务和产品赋能。针对应用系统的升级优化,用户行为统计分析是最重要的技术支撑。通过用户行为统计分析,充分体现用户的意愿、特征和述求,利用大数据技术帮助企业进行产品设计、界面优化和精准营销,提高用户的使用体验。常规的用户行为分析系统,一般采用Spark或者HadoopMR技术对大规模数据进行转换处理,仅能提供秒级的反馈,不能满足业务风险防控场景或即时在线分析场景。本申请采用Flink实时流处理引擎,辅以分布式离线处理技术,能够有效地解决大数据场景下的时效性问题。
技术实现思路
本专利技术的目的就是解决现有技术的不足,提供了一种基于Flink流式处理的用户行为统计分析方法,时效性好,对用户进行多 ...
【技术保护点】
1.一种基于Flink流式处理的用户行为统计分析方法,其特征在于,所述方法包括:/nS1、采集不同应用系统下的用户行为数据,上送至Kafka;/nS2、Flink消费Kafka数据,剔除脏数据并进行分类处理,得到多条数据流,每条数据流代表一种类别的数据;对不同类别数据进行分布式流处理,并存储至大数据分布式文件系统;/nS3、将步骤S2处理后的不同类别数据进行聚合整理,得到指标数据;构建数据仓库,将所述指标数据迁移到实时数据库;/nS4、从所述实时数据库抽取用户行为的所述指标数据,为分析提供实时的数据服务。/n
【技术特征摘要】
1.一种基于Flink流式处理的用户行为统计分析方法,其特征在于,所述方法包括:
S1、采集不同应用系统下的用户行为数据,上送至Kafka;
S2、Flink消费Kafka数据,剔除脏数据并进行分类处理,得到多条数据流,每条数据流代表一种类别的数据;对不同类别数据进行分布式流处理,并存储至大数据分布式文件系统;
S3、将步骤S2处理后的不同类别数据进行聚合整理,得到指标数据;构建数据仓库,将所述指标数据迁移到实时数据库;
S4、从所述实时数据库抽取用户行为的所述指标数据,为分析提供实时的数据服务。
2.如权利要求1所述的基于Flink流式处理的用户行为统计分析方法,其特征在于,步骤S1中,对于不同应用系统下的用户行为数据采集的方法为:
应用系统单页面模式下的页面片段切换,或点击事件无需对后端服务发起请求,采用SDK埋点获取用户行为数据;
应用系统多页面模式下的页面切换,或点击事件需要对后端服务发起请求,采用从后端服务器日志或中转机服务器日志获取Log数据。
3.如权利要求2所述的基于Flink流式处理的用户行为统计分析方法,其特征在于,步骤S2具体包括:
S2.1对Kafka中服务器日志数据进行解析、组装、转换,得到标准报文格式;
S2.2过滤空数据、异常数据和错误数据;
S2.3根据不同事件类别对数据流进行划分,得到多条数据流,每条数据流代表一种类别的数据;根据业务需求和指标计算的类型,把多条数据流进行划分;只涉及到简单基础累加运算的指标数据、点击或者浏览的数据流进行实时计算;对于周期内统计计算的指标数据则进行离线计算。
4.如权利要求2所述的基于Flink流式处理的用户行为统计分析方法,其特征在于,步骤S3中,所述指...
【专利技术属性】
技术研发人员:李振,鲁宾宾,曹书凯,张晨,
申请(专利权)人:民生科技有限责任公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。