数据过滤方法、装置、电子设备、介质及产品制造方法及图纸

技术编号:34437980 阅读:23 留言:0更新日期:2022-08-06 16:23
本发明专利技术提供一种数据过滤方法、装置、电子设备、介质及产品,所述方法包括:根据所接收到的流日志,确定用于处理该流日志的目标表过滤器对象;根据目标表过滤器对象所对应的目标表过滤器表达式标识,确定目标数据源的索引;其中,目标表过滤器表达式标识与目标数据源的索引之间具有唯一对应关系;目标表过滤器表达式标识是根据目标数据源标识以及目标表过滤器表达式的查询数据源部分确定的;根据目标数据源的索引,从目标数据源获取数据,并将所获取的数据传输至目标表过滤器对象,以使得目标表过滤器对象对所获取的数据进行过滤。本发明专利技术提供的数据过滤方法能够准确获取到流日志对应的目标数据源,实现数据的精准过滤,提升用户的体验。的体验。的体验。

【技术实现步骤摘要】
数据过滤方法、装置、电子设备、介质及产品


[0001]本专利技术涉及分布式实时流
,尤其涉及一种数据过滤方法、装置、电子设备、介质及产品。

技术介绍

[0002]随着数据处理技术的不断发展,在实时流大数据中,业务会预先在某数据源下(如:PostgreSql),定义一个大宽表来过滤实时流中的数据。即业务会对该大宽表中的每个字段定义想要的值(类似一个大维表),如Kafka的流日志会通过预先定义的字段进行数据过滤。
[0003]目前,在高并发的Flink流作业中,最高业务规则已达到900条,每条规则均有对应的过滤、join合并、窗口统计等算子,优化之后已达到12245个子任务。随着业务数据量的不断扩大,数据库中的大宽表数据在不断增加,同时需要过滤的规则表达式越来越多。
[0004]现有技术中,如大于10万条的大宽表、业务将产生大于2000个表达式来过滤出想要的数据,同时通过优化高并发的算子的内存及线程来提高业务扩展性。否则Kafka流量在每秒30万到60万条(每条数据是5KB左右),业务规则达到700条的时候,Flink并度行在15时,有部分子任务的流状态一直处于初始化状态,任务没有跑起来,导致大宽表中的数据积压,造成数据无法被正常检索处理,用户的体验较差。

技术实现思路

[0005]本专利技术提供一种数据过滤方法、装置、电子设备、介质及产品,用以解决现有技术中大宽表表达式过多导致数据积压,无法被正常检索出来、用户体验较差的技术问题,以实现提高数据过滤的准确性,提升用户体验的目的。r/>[0006]第一方面,本专利技术提供一种数据过滤方法,包括:
[0007]根据所接收到的流日志,确定用于处理所述流日志的目标表过滤器对象;
[0008]根据所述目标表过滤器对象所对应的目标表过滤器表达式标识,确定目标数据源的索引;其中,所述目标表过滤器表达式标识与所述目标数据源的索引之间具有唯一对应关系;所述目标表过滤器表达式标识是根据目标数据源标识以及目标表过滤器表达式的查询数据源部分确定的;
[0009]根据所述目标数据源的索引,从所述目标数据源获取数据,并将所获取的数据传输至所述目标表过滤器对象,以使得所述目标表过滤器对象对所获取的数据进行过滤。
[0010]进一步,根据本专利技术提供的数据过滤方法,方法还包括:
[0011]获取预先定义的业务规则;
[0012]对所述业务规则中的所有数据源表达式根据预先设置的同数据源判断条件进行同数据源的判断,为确定是同数据源的数据源表达式设置具有唯一性的数据源标识;
[0013]对所述业务规则中的所有表过滤器表达式分别提取查询数据源部分;
[0014]根据表过滤器表达式的查询数据源部分以及与所述表过滤器表达式对应的数据
源标识,为所述业务规则中的各个表过滤器表达式分别确定表过滤器表达式标识。
[0015]进一步,根据本专利技术提供的数据过滤方法,方法还包括:
[0016]基于表过滤器表达式标识创建对应的表过滤器对象;
[0017]所述表过滤器对象创建数据源的索引;其中,所创建的数据源的索引与所述表过滤对象所对应的表过滤器表达式标识之间具有唯一对应关系。
[0018]进一步,根据本专利技术提供的数据过滤方法,方法还包括:
[0019]设置用于保存数据源的索引的全局静态对象,并将已有的数据源的索引保存在所述全局静态对象中;
[0020]相应的,所述表过滤器对象创建数据源的索引,包括:
[0021]根据所述表过滤对象所对应的表过滤器表达式标识,在所述全局静态对象中查找与所述表过滤器表达式标识中的数据源标识以及查询数据源部分相对应的数据源的索引;
[0022]在查找到的情况下,将查找到的数据源的索引作为所要创建的数据源的索引,并与所述表过滤对象所对应的表过滤器表达式标识建立唯一对应关系;
[0023]在未查找到的情况下,根据所述表过滤器表达式标识中的数据源标识以及查询数据源部分创建数据源的索引,并为所创建的数据源的索引与所述表过滤对象所对应的表过滤器表达式标识建立唯一对应关系。
[0024]进一步,根据本专利技术提供的数据过滤方法,方法还包括:
[0025]在数据源发生更新的情况下,对所述全局静态对象中与更新数据源相对应的数据源的索引进行更新。
[0026]第二方面,本专利技术还提供一种数据过滤装置,包括:
[0027]第一确定模块,用于根据所接收到的流日志,确定用于处理所述流日志的目标表过滤器对象;
[0028]第二确定模块,用于根据所述目标表过滤器对象所对应的目标表过滤器表达式标识,确定目标数据源的索引;其中,所述目标表过滤器表达式标识与所述目标数据源的索引之间具有唯一对应关系;所述目标表过滤器表达式标识是根据目标数据源标识以及目标表过滤器表达式的查询数据源部分确定的;
[0029]过滤模块,用于根据所述目标数据源的索引,从所述目标数据源获取数据,并将所获取的数据传输至所述目标表过滤器对象,以使得所述目标表过滤器对象对所获取的数据进行过滤。
[0030]第三方面,本专利技术还提供一种电子设备,包括:
[0031]处理器、存储器和总线,其中,
[0032]所述处理器和所述存储器通过所述总线完成相互间的通信;
[0033]所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如上任一项中所述数据过滤方法的步骤。
[0034]第四方面,本专利技术还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使计算机执行如上所述数据过滤方法的步骤。
[0035]第五方面,本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上任一项所述数据过滤方法的步骤。
[0036]本专利技术提供一种数据过滤方法、装置、电子设备、介质及产品,所述方法包括:根据所接收到的流日志,确定用于处理该流日志的目标表过滤器对象;根据目标表过滤器对象所对应的目标表过滤器表达式标识,确定目标数据源的索引;其中,目标表过滤器表达式标识与目标数据源的索引之间具有唯一对应关系;目标表过滤器表达式标识是根据目标数据源标识以及目标表过滤器表达式的查询数据源部分确定的;根据目标数据源的索引,从目标数据源获取数据,并将所获取的数据传输至目标表过滤器对象,以使得目标表过滤器对象对所获取的数据进行过滤。本专利技术提供的数据过滤方法能够准确获取到流日志对应的目标数据源,实现数据的精准过滤,提升用户的体验。
附图说明
[0037]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0038]图1是本专利技术提供的一种数据过滤方法的流程示意图;
[本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据过滤方法,其特征在于,包括:根据所接收到的流日志,确定用于处理所述流日志的目标表过滤器对象;根据所述目标表过滤器对象所对应的目标表过滤器表达式标识,确定目标数据源的索引;其中,所述目标表过滤器表达式标识与所述目标数据源的索引之间具有唯一对应关系;所述目标表过滤器表达式标识是根据目标数据源标识以及目标表过滤器表达式的查询数据源部分确定的;根据所述目标数据源的索引,从所述目标数据源获取数据,并将所获取的数据传输至所述目标表过滤器对象,以使得所述目标表过滤器对象对所获取的数据进行过滤。2.根据权利要求1所述的数据过滤方法,其特征在于,方法还包括:获取预先定义的业务规则;对所述业务规则中的所有数据源表达式根据预先设置的同数据源判断条件进行同数据源的判断,为确定是同数据源的数据源表达式设置具有唯一性的数据源标识;对所述业务规则中的所有表过滤器表达式分别提取查询数据源部分;根据表过滤器表达式的查询数据源部分以及与所述表过滤器表达式对应的数据源标识,为所述业务规则中的各个表过滤器表达式分别确定表过滤器表达式标识。3.根据权利要求2所述的数据过滤方法,其特征在于,方法还包括:基于表过滤器表达式标识创建对应的表过滤器对象;所述表过滤器对象创建数据源的索引;其中,所创建的数据源的索引与所述表过滤对象所对应的表过滤器表达式标识之间具有唯一对应关系。4.根据权利要求3所述的数据过滤方法,其特征在于,方法还包括:设置用于保存数据源的索引的全局静态对象,并将已有的数据源的索引保存在所述全局静态对象中;相应的,所述表过滤器对象创建数据源的索引,包括:根据所述表过滤对象所对应的表过滤器表达式标识,在所述全局静态对象中查找与所述表过滤器表达式标识中的数据源标识以及查询数据源部分相对应的数据源的索引;在查找到的情况下,将查找到的数据源的索引作为...

【专利技术属性】
技术研发人员:卢勇亮
申请(专利权)人:奇安信网神信息技术北京股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1