基于Flink流式处理的用户行为统计分析方法技术

技术编号:26504663 阅读:37 留言:0更新日期:2020-11-27 15:32
本发明专利技术涉及数据统计分析技术领域,提供了一种基于Flink流式处理的用户行为统计分析方法,包括采集用户行为数据上送至Kafka;Flink消费Kafka数据,剔除脏数据并进行分类处理,数据接入分布式流处理模块,并存储至分布式文件系统;数据聚合整理,得到指标数据;构建数据仓库模型,将指标数据迁移到实时数据库;从实时数据库抽取指标数据为分析模块提供实时数据服务。本发明专利技术采用Flink实时流处理引擎,提供高并发、毫秒级低时延的处理能力,有效解决大数据场景下数据处理时效性问题;辅以分布式离线处理,对用户进行多维画像,使企业实时了解用户特征和产品使用情况,及时调整产品营销策略,优化界面布局,提升用户体验。

【技术实现步骤摘要】
基于Flink流式处理的用户行为统计分析方法
本专利技术涉及数据统计分析
,特别涉及一种基于Flink流式处理的用户行为统计分析方法。
技术介绍
在数字化时代下,互联网的应用范围和边界不断扩大。众多互联网企业和传统企业逐步加快自身应用系统的更新迭代,包括电脑端和手机端,借助互联网的科技力量,为自身的服务和产品赋能。针对应用系统的升级优化,用户行为统计分析是最重要的技术支撑。通过用户行为统计分析,充分体现用户的意愿、特征和述求,利用大数据技术帮助企业进行产品设计、界面优化和精准营销,提高用户的使用体验。常规的用户行为分析系统,一般采用Spark或者HadoopMR技术对大规模数据进行转换处理,仅能提供秒级的反馈,不能满足业务风险防控场景或即时在线分析场景。本申请采用Flink实时流处理引擎,辅以分布式离线处理技术,能够有效地解决大数据场景下的时效性问题。
技术实现思路
本专利技术的目的就是解决现有技术的不足,提供了一种基于Flink流式处理的用户行为统计分析方法,时效性好,对用户进行多维画像,使企业实时了本文档来自技高网...

【技术保护点】
1.一种基于Flink流式处理的用户行为统计分析方法,其特征在于,所述方法包括:/nS1、采集不同应用系统下的用户行为数据,上送至Kafka;/nS2、Flink消费Kafka数据,剔除脏数据并进行分类处理,得到多条数据流,每条数据流代表一种类别的数据;对不同类别数据进行分布式流处理,并存储至大数据分布式文件系统;/nS3、将步骤S2处理后的不同类别数据进行聚合整理,得到指标数据;构建数据仓库,将所述指标数据迁移到实时数据库;/nS4、从所述实时数据库抽取用户行为的所述指标数据,为分析提供实时的数据服务。/n

【技术特征摘要】
1.一种基于Flink流式处理的用户行为统计分析方法,其特征在于,所述方法包括:
S1、采集不同应用系统下的用户行为数据,上送至Kafka;
S2、Flink消费Kafka数据,剔除脏数据并进行分类处理,得到多条数据流,每条数据流代表一种类别的数据;对不同类别数据进行分布式流处理,并存储至大数据分布式文件系统;
S3、将步骤S2处理后的不同类别数据进行聚合整理,得到指标数据;构建数据仓库,将所述指标数据迁移到实时数据库;
S4、从所述实时数据库抽取用户行为的所述指标数据,为分析提供实时的数据服务。


2.如权利要求1所述的基于Flink流式处理的用户行为统计分析方法,其特征在于,步骤S1中,对于不同应用系统下的用户行为数据采集的方法为:
应用系统单页面模式下的页面片段切换,或点击事件无需对后端服务发起请求,采用SDK埋点获取用户行为数据;
应用系统多页面模式下的页面切换,或点击事件需要对后端服务发起请求,采用从后端服务器日志或中转机服务器日志获取Log数据。


3.如权利要求2所述的基于Flink流式处理的用户行为统计分析方法,其特征在于,步骤S2具体包括:
S2.1对Kafka中服务器日志数据进行解析、组装、转换,得到标准报文格式;
S2.2过滤空数据、异常数据和错误数据;
S2.3根据不同事件类别对数据流进行划分,得到多条数据流,每条数据流代表一种类别的数据;根据业务需求和指标计算的类型,把多条数据流进行划分;只涉及到简单基础累加运算的指标数据、点击或者浏览的数据流进行实时计算;对于周期内统计计算的指标数据则进行离线计算。


4.如权利要求2所述的基于Flink流式处理的用户行为统计分析方法,其特征在于,步骤S3中,所述指...

【专利技术属性】
技术研发人员:李振鲁宾宾曹书凯张晨
申请(专利权)人:民生科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1