数据流处理方法、装置、服务器及存储介质制造方法及图纸

技术编号:24168793 阅读:20 留言:0更新日期:2020-05-16 02:16
本申请提供一种数据流处理方法、装置、服务器及存储介质。本申请提供的数据流处理方法,首先获取第一数据流,其中,第一数据流包括地域性特征信息,然后对第一数据流配置规则参数以生成第二数据流,规则参数用于表征流任务的筛选条件,再根据地域性特征信息以及规则参数将第二数据流进行树形结构分级,以使特征值根据树形结构与第二数据流进行关联,而特征值用于表征静态标签表数据。从而,减少了实时数据的处理量,提高了处理效率,优化了处理方式,满足了实时流表关联需求,保证了数据处理系统的运行稳定性。

Data stream processing method, device, server and storage medium

【技术实现步骤摘要】
数据流处理方法、装置、服务器及存储介质
本申请涉及数据处理
,尤其涉及一种数据流处理方法、装置、服务器及存储介质。
技术介绍
随着大数据技术的快速发展,以及各种实时场景类应用需求的不断涌现,使得大数据技术的应用从批量处理为主逐渐向以实时处理为主演进。主流Kafka和Sparkstreaming具有提供海量、复杂、多源、异构的数据处理源,以及对其进行接入、清洗并保证数据质量的能力。数据源首先通过高吞吐能力的Kafka,然后使用Sparkstreaming进行消费对接完成后,再存入Hbase数据库,或者与数据表关联后再存入Hbase数据库,以完成对实时数据的流处理。现有技术中,因实时数据的数据源不同,使得数据结构不同,以及针对该实时数据的业务需求不同,使得筛选规则不同。不同数据源的实时数据需要编写不同的筛选规则以满足业务需求,从而导致数据峰值高达近千万每秒的数据流的处理量变得更为庞大,导致数据在处理以及入库过程中出现诸多问题。例如在入库过程中,采用传统的应用程序接口(ApplicationProgrammingInterface,简称API)代码进行入库代码编写变得复杂,以及对于数据库的读与写需要拆分为不同进程,则需要多节点部署程序,造成程序部署以及节点监控变得复杂。在数据处理过程中,因需要将工参表内的经纬度、用户标签表等表数据与实时数据实现流表关联以达到业务需求,而由于表数据通常数据量也较大,无法将其预读入内存,在常规的关联方式下,扫描表数据速度通常太慢,导致两者的关联无法满足实时处理需求
技术实现思路
本申请提供一种数据流处理方法、装置、服务器及存储介质,用以解决现有实时数据处理量庞大、数据入库复杂以及与表数据关联无法满足实时处理需求等技术问题。第一方面,本申请提供一种数据流处理方法,包括:获取第一数据流,所述第一数据流包括地域性特征信息;对所述第一数据流配置规则参数以生成第二数据流,所述规则参数用于表征流任务的筛选条件;根据所述地域性特征信息以及所述规则参数将所述第二数据流进行树形结构分级,以使特征值根据所述树形结构与所述第二数据流进行关联,所述特征值用于表征静态标签表数据。一种可能的设计中,所述对所述第一数据流配置规则参数以生成第二数据流之前,还包括:根据所述第一数据流以及所述流任务确定所述规则参数,所述流任务包括业务需求。一种可能的设计中,所述根据所述地域性特征信息以及所述规则参数将所述第二数据流进行树形结构分级之后,还包括:根据所述业务需求以及所述树形结构通过预设流处理语言对所述第二数据流进行处理以获得处理结果,所述处理结果用于表征所述流任务的实现结果。一种可能的设计中,将所述规则参数存入所述预设第一数据库,所述预设第一数据库为MySQL数据库;和/或将所述处理结果以及所述树形结构存入预设第二数据库,所述预设第二数据库为Hbase数据库;和/或,将所述静态标签表数据存入预设第三数据库,所述预设第三数据库为Hive数据库。可选地,所述MySQL数据库包括JSON字符串;通过所述JSON字符串对所述规则参数进行操作处理,所述操作处理包括新建所述规则参数、修改所述规则参数以及终止所述规则参数中的至少一种。可选地,所述Hbase数据库包括:通过多列族以及生存期TTL进行版本控制;以及通过区域服务器RegionServer将所述特征值根据所述树形结构与所述第二数据流进行所述关联。可选地,所述Hive数据库包括ORC文件格式;通过所述ORC文件格式将所述特征值根据所述树形结构与所述第二数据流进行所述关联。第二方面,本申请提供一种数据流处理装置,包括:获取模块,用于获取第一数据流,所述第一数据流包括地域性特征信息;第一处理模块,用于对所述第一数据流配置规则参数以生成第二数据流,所述规则参数用于表征流任务的筛选条件;第二处理模块,用于根据所述地域性特征信息以及所述规则参数将所述第二数据流进行树形结构分级,以使特征值根据所述树形结构与所述第二数据流进行关联,所述特征值用于表征静态标签表数据。一种可能的设计中,所述第一处理模块,还用于:根据所述第一数据流以及所述流任务确定所述规则参数,所述流任务包括业务需求。一种可能的设计中,所述第二处理模块,还用于:根据所述业务需求以及所述树形结构通过预设流处理语言对所述第二数据流进行处理以获得处理结果,所述处理结果用于表征所述流任务的实现结果。一种可能的设计中,所述第一处理模块包括第一处理单元,所述第一处理单元,用于将所述规则参数存入所述预设第一数据库,所述预设第一数据库为MySQL数据库;和/或所述第二处理模块包括第二处理单元,所述第二处理单元,用于将所述处理结果以及所述树形结构存入预设第二数据库,所述预设第二数据库为Hbase数据库;和/或,所述装置还包括第三处理模块,所述第三处理模块,用于将所述静态标签表数据存入预设第三数据库,所述预设第三数据库为Hive数据库。可选地,所述MySQL数据库包括JSON字符串;所述第一处理单元,还用于:通过所述JSON字符串对所述规则参数进行操作处理,所述操作处理包括新建所述规则参数、修改所述规则参数以及终止所述规则参数中的至少一种。可选地,所述装置还包括第四处理模块,所述第四处理模块,用于:通过多列族以及生存期TTL进行版本控制;以及通过区域服务器RegionServer以使所述特征值根据所述树形结构与所述第二数据流进行所述关联。可选地,所述Hive数据库包括ORC文件格式;所述第三处理模块,还用于:通过所述ORC文件格式以使所述特征值根据所述树形结构与所述第二数据流进行所述关联。第三方面,本申请提供一种服务器,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面及可选的方案涉及的数据流处理方法。第四方面,本申请提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第一方面及可选的方案涉及的数据流处理方法。本申请提供一种数据流处理方法、装置、服务器及存储介质,首先获取第一数据流,其中,第一数据流包括地域性特征信息,然后对第一数据流配置规则参数以生成第二数据流,规则参数用于表征流任务的筛选条件,再根据地域性特征信息以及规则参数将第二数据流进行树形结构分级,以使特征值根据树形结构与第二数据流进行关联,而特征值用于表征静态标签表数据。从而,减少了实时数据的处理量,提高了处理效率,优化了处理方式,满足了实时流表关联需求,保证了数据处理系统的运行稳定性。附图说明图1为本申请实施例提供的数据流处理方法的一本文档来自技高网
...

【技术保护点】
1.一种数据流处理方法,其特征在于,包括:/n获取第一数据流,所述第一数据流包括地域性特征信息;/n对所述第一数据流配置规则参数以生成第二数据流,所述规则参数用于表征流任务的筛选条件;/n根据所述地域性特征信息以及所述规则参数将所述第二数据流进行树形结构分级,以使特征值根据所述树形结构与所述第二数据流进行关联,所述特征值用于表征静态标签表数据。/n

【技术特征摘要】
1.一种数据流处理方法,其特征在于,包括:
获取第一数据流,所述第一数据流包括地域性特征信息;
对所述第一数据流配置规则参数以生成第二数据流,所述规则参数用于表征流任务的筛选条件;
根据所述地域性特征信息以及所述规则参数将所述第二数据流进行树形结构分级,以使特征值根据所述树形结构与所述第二数据流进行关联,所述特征值用于表征静态标签表数据。


2.根据权利要求1所述的数据流处理方法,其特征在于,所述对所述第一数据流配置规则参数以生成第二数据流之前,还包括:
根据所述第一数据流以及所述流任务确定所述规则参数,所述流任务包括业务需求。


3.根据权利要求2所述的数据流处理方法,其特征在于,所述根据所述地域性特征信息以及所述规则参数将所述第二数据流进行树形结构分级之后,还包括:
根据所述业务需求以及所述树形结构通过预设流处理语言对所述第二数据流进行处理以获得处理结果,所述处理结果用于表征所述流任务的实现结果。


4.根据权利要求3所述的数据流处理方法,其特征在于,
将所述规则参数存入所述预设第一数据库,所述预设第一数据库为MySQL数据库;和/或
将所述处理结果以及所述树形结构存入预设第二数据库,所述预设第二数据库为Hbase数据库;和/或,
将所述静态标签表数据存入预设第三数据库,所述预设第三数据库为Hive数据库。


5.根据权利要求4所述的数据流处理方法,其特征在于,所述MySQL数据库包括JSON字符串;
通过所述JSON字符串对所述规则参数进行操作处理,所述操作处理包括新建...

【专利技术属性】
技术研发人员:陈海波王志军谢攀王蓉谢继刚戴智苏轶李梦圆
申请(专利权)人:中国联合网络通信集团有限公司联通系统集成有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1