一种基于消息队列的数据处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:30699438 阅读:19 留言:0更新日期:2021-11-06 09:35
本发明专利技术涉及一种基于消息队列的数据处理方法、装置、计算机设备和存储介质,该方法包括:服务端获取待统计网站在预设周期内的各页面浏览量、各页面点击量的动作流数据总量;服务端根据各页面浏览量以及各页面点击量,获取消息队列主题名称;将消息队列主题名称,以及动作流数据总量与预设抽样统计规则进行匹配,得到匹配的数据压缩比例;根据该数据压缩比例,对动作流数据总量执行数据抽样,得到统计结果数据发送到消费端;消费端接收统计结果数据,根据结果数据中的数据压缩比例复原统计结果数据,并存储在预设数据库中。实现对动作流数据实时分析和处理,从而减少消息队列生产和消费数据的量级,达到降低成本的效果。达到降低成本的效果。达到降低成本的效果。

【技术实现步骤摘要】
一种基于消息队列的数据处理方法、装置、计算机设备和存储介质


[0001]本专利技术实施例涉及信息处理的
,尤其涉及一种基于消息队列的数据处理方法、装置、计算机设备和存储介质。

技术介绍

[0002]在网站数据统计应用背景下,高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中所有动作流数据。在传统使用Kafka消息队列时,往往为了保证数据的准确性,都会把所有的动作流数据通过Kafka消息队列生产和消费,而当动作流数据量过大时,就需要很多服务器承载数据,造成成本直线上升。
[0003]所以,针对上述情况,在Kafka消息队列生产和消费数据的而过程中,通过数据压缩和复原,实现数据流实时分析处理,进而减少对数据的服务器配置是亟待结解决的问题。

技术实现思路

[0004]本专利技术实施例提出了一种基于消息队列的数据处理方法、装置、计算机设备和存储介质,以解决在消息队列存储收发分布订阅消息的场景中,针对海量数据收发和存储而不停分配服务器造成成本过高的问题。
[0005]第一方面,本专利技术实施例提供了一种基于消息队列的数据处理方法,包括:
[0006]消息队列服务端获取待统计网站在预设周期内的各页面浏览量,以及各页面点击量的动作流数据总量;
[0007]所述消息队列服务端根据所述各页面浏览量以及所述各页面点击量,获取消息队列主题名称;
[0008]所述消息队列服务端将所述消息队列主题名称,以及所述动作流数据总量与预设抽样统计规则进行匹配,得到匹配的数据压缩比例
[0009]所述消息队列服务端根据匹配的所述数据压缩比例,对所述动作流数据总量执行数据随机抽样操作,得到统计结果数据;
[0010]所述消息队列服务端将所述统计结果数据发送到消息队列消费端;
[0011]所述消息队列消费端接收所述统计结果数据,并获取所述统计结果数据中的所述数据压缩比例;
[0012]所述消息队列消费端根据所述数据压缩比例复原所述统计结果数据,得到复原后数据总量,并存储在预设数据库中。
[0013]第二方面,本专利技术实施例还提供了一种基于消息队列的数据处理装置,其特征在于,包括:
[0014]动作流数据实时接收模块,用于消息队列服务端获取待统计网站在预设周期内的各页面浏览量,以及各页面点击量的动作流数据总量;
[0015]主题名称获取模块,用于所述消息队列服务端根据所述各页面浏览量以及所述各
页面点击量,获取消息队列主题名称;
[0016]抽样统计规则加载模块,用于所述消息队列服务端将所述消息队列主题名称,以及所述动作流数据总量与预设抽样统计规则进行匹配,得到匹配的数据压缩比例;
[0017]动作流数据抽样统计操作模块,用于所述消息队列服务端根据匹配的所述数据压缩比例,对所述动作流数据总量执行数据随机抽样操作,得到统计结果数据;
[0018]统计结果数据发送模块,用于所述消息队列服务端将所述统计结果数据发送到消息队列消费端;
[0019]数据压缩比例获取模块,用于所述消息队列消费端接收所述统计结果数据,并获取所述统计结果数据中的所述数据压缩比例;
[0020]动作流数据复原模块,用于所述消息队列消费端根据所述数据压缩比例复原所述统计结果数据,得到复原后数据总量,并存储在预设数据库中。
[0021]第三方面,本专利技术实施例还提供了一种计算机设备,所述计算机设备包括:
[0022]一个或多个处理器;
[0023]存储器,用于存储一个或多个程序,
[0024]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面中任一项所述的基于消息队列的数据处理方法。
[0025]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如第一方面中任一项所述的基于消息队列的数据处理方法。
[0026]在本实施例中,所述消息队列服务端获取待统计网站在预设周期内的各页面浏览量,以及各页面点击量的动作流数据总量;所述消息队列服务端根据所述各页面浏览量以及所述各页面点击量,获取消息队列主题名称;所述消息队列服务端将所述消息队列主题名称,以及所述动作流数据总量与预设抽样统计规则进行匹配,得到匹配的数据压缩比例;所述消息队列服务端根据匹配的所述数据压缩比例,对所述动作流数据总量执行数据随机抽样操作,得到统计结果数据;所述消息队列服务端将所述统计结果数据发送到消费端;所述消息队列消费端接收所述统计结果数据,并获取所述统计结果数据中的所述数据压缩比例;所述消息队列消费端根据所述数据压缩比例复原所述统计结果数据,得到复原后数据总量,并存储在预设数据库中。通过将采集到的动作流数据进行实时分析和处理,运用随机抽样的方法,根据Kafka消息队列主题名称(Topic)的数据量级,对应地产生不同程度的压缩和复原比例,从而减少Kafka消息队列生产和消费数据的量级,减少所需Kafka生产者和消费者的服务器配置,达到降低成本的效果。
附图说明
[0027]图1为本专利技术实施例一提供的一种基于消息队列的数据处理方法的流程图;
[0028]图2为本专利技术实施例一提供的基于Kafka消息队列实现数据压缩和复原的抽样统计压缩示意图;
[0029]图3是本专利技术实施例一提供的基于Kafka消息队列实现数据压缩和复原的抽样统计复原示意图;
[0030]图4为本专利技术实施例二提供的一种基于消息队列的数据处理装置的结构示意图;
[0031]图5为本专利技术实施例三提供的一种计算机设备的结构示意图。
具体实施方式
[0032]下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。
[0033]实施例一
[0034]图1为本专利技术实施例一提供的一种基于消息队列的数据处理方法的流程图,该方法可以由基于消息队列的数据处理装置来执行,该基于消息队列的数据处理装置可以由软件和/或硬件实现,可配置在计算机设备中,例如,服务器、工作站、个人电脑,等等,具体包括如下步骤:
[0035]步骤101,消息队列服务端获取待统计网站在预设周期内的各页面浏览量,以及各页面点击量的动作流数据总量。
[0036]本专利技术实施例中,消息队列是基于Kafka分布式流媒体平台,其中,Kafka它可以发布和订阅记录流。在这方面,它类似于消息队列或企业消息传递系统,它允许以容错方式存储记录流,它可以在发生记录时处理记录流。在Kafka中,客户端和服务器之间的通信是通过一个简单的、高性能的、与语言无关的TCP(协议完成的。这个协议是版本化的,并保持与旧版本的向后兼容性。Kafka提供了一个Java客户端,但客户端可以使用多种语言。
[0037]如图2所示,在K本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于消息队列的数据处理方法,其特征在于,包括:消息队列服务端获取待统计网站在预设周期内的各页面浏览量,以及各页面点击量的动作流数据总量;所述消息队列服务端根据所述各页面浏览量以及所述各页面点击量,获取消息队列主题名称;所述消息队列服务端将所述消息队列主题名称,以及所述动作流数据总量与预设抽样统计规则进行匹配,得到匹配的数据压缩比例;所述消息队列服务端根据匹配的所述数据压缩比例,对所述动作流数据总量执行数据随机抽样操作,得到统计结果数据;所述消息队列服务端将所述统计结果数据发送到消息队列消费端;所述消息队列消费端接收所述统计结果数据,并获取所述统计结果数据中的所述数据压缩比例;所述消息队列消费端根据所述数据压缩比例复原所述统计结果数据,得到复原后数据总量,并存储在预设数据库中。2.根据权利要求1所述的方法,其特征在于,所述对应消息队列主题名称的动作流数据总量的压缩比例包括:所述各主题名称的动作流数据总量的各级抽样统计范围阈值,以及对应所述各级抽样统计范围阈值的动作流数据总量的数据压缩比例;所述抽样统计范围阈值包括所述动作流数据总量的最低阈值和最高阈值;在所述动作流数据总量中,利用相同的数据压缩比例,抽取的样本概率相同。3.根据权利要求2所述的方法,其特征在于,所述消息队列服务端将所述消息队列主题名称,以及所述动作流数据总量与预设抽样统计规则进行匹配,得到匹配的数据压缩比例,包括:所述消息队列服务端将所述消息队列主题名称与预设抽样统计规则中各主题名称进行匹配,获取所述对应各主题名称的所述动作流数据总量的各级抽样统计范围阈值;所述消息队列服务端获取对应所述各级抽样统计范围阈值的,针对所述动作流数据总量的数据压缩比例。4.根据权利要求1所述的方法,其特征在于,所述消息队列服务端将所述消息队列主题名称,以及所述动作流数据总量与预设抽样统计规则进行匹配,得到匹配的数据压缩比例之后,还包括:所述消息队列服务端将所述消息队列主题名称,以及所述动作流数据总量,在所述预设抽样统计规则中匹配对应数据压缩比例失败,则将所述动作流数据总量发送至所述消息队列消费端。5.根据权利要求4所述的方法,其特征在于,所述消息队列消费端根据所述数据压缩...

【专利技术属性】
技术研发人员:曾文清刘翔虞孝伟
申请(专利权)人:广州至真信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1