基于kafka流的数据处理方法、电子设备及存储介质技术

技术编号:39414607 阅读:11 留言:0更新日期:2023-11-19 16:06
本发明专利技术提供了一种基于kafka流的数据处理方法、电子设备和存储介质,包括:获取通过kafka流获取的m个用户的数据需求信息;将获取的m个数据需求信息通过消息组件发送给数据预处理节点,得到具有设定格式的目标数据需求信息;获取当前时刻t对应的原始数据集Dt;从Dt中获取DSt

【技术实现步骤摘要】
基于kafka流的数据处理方法、电子设备及存储介质


[0001]本专利技术涉及数据处理领域,特别是涉及一种基于kafka流的数据处理方法、电子设备及存储介质。

技术介绍

[0002]随着时代的进步与经济飞速发展,互联网与云计算等各种新兴技术也得到了迅猛进步,同时促使数据也出现了十分惊人的增长速度,数量也在不断增加。大量数据也会导致存储成本极速攀升,同时也为用户提供更有价值的研究数据。特定用户场景中对数据传输时效性、用户相关数据、以及数据质量比较关注,第一时间对特定最新最近数据分析,以及如何从海量数据中获取到用户想要高质量的数据,且安全、时效性高传输、支持灵活暂停/开启、修改数据指标等高质量数据等成为了需要解决的问题。

技术实现思路

[0003]针对上述技术问题,本专利技术采用的技术方案为:本专利技术实施例提供一种基于kafka流的数据处理方法,所述方法包括如下步骤:S100,获取通过kafka流获取的m个用户的数据需求信息,第r个数据需求信息Ir={Ur,Ir1,Ir2,
……
,Ir
s

……
,Ir
g(r)
,Mr};Ir中的第s个数据需求项Ir
s
={Ir
ds
,Ir
fs
},Ir
ds
为Ir
s
对应的字段标识,Ir
fs
为Ir
ds
对应的字段内容;r的取值为1到m,s的取值为1到g(r),g(r)为Ir中的数据需求项的数量;Mr为Ir对应的关系标识,所述关系标识包括第一关系标识、第二关系标识和第三关系标识,第一关系标识用于表征Ir1,Ir2,
……
,Ir
s

……
,Ir
g(r)
之间满足第一关系,第二关系标识用于表征Ir1,Ir2,
……
,Ir
s

……
,Ir
g(r)
满足第二关系、第三关系标识用于表征Ir1,Ir2,
……
,Ir
s

……
,Ir
g(r)
满足第三关系;Ur为第r个用户的ID;S200,将获取的m个数据需求信息通过消息组件发送给数据预处理节点,以对所述数据需求指令进行预处理得到具有设定格式的数据需求信息,作为目标数据需求信息并存放至内存中;S300,获取当前时刻t对应的原始数据集Dt={Dt1,Dt2,
……
,Dt
i

……
,Dt
n(t)
},并对Dt
i
进行处理,得到对应的数据处理结果DSt
i
={DSt
i1
,DSt
i2

……
,DSt
ij

……
,DSt
ih
},Dt
i
为Dt中的第i条数据,i的取值为1到n(t),n(t)为Dt中的数据量;DSt
ij
为DSt
i
中的第j个数据处理结果,DSt
ij
={DSt
dij
,DSt
fij
},DSt
dij
为Dt
i
的第j个字段标识,DSt
fij
为DSt
dij
对应的字段,j的取值为1到h,h为字段标识的数量;所述原始数据集基于kafka流得到;S400,从Dt中获取DSt
i
,并基于Ir对应的目标数据需求信息,确定DSt
i
是否为Ir对应的关联数据,如果是,则将Dt
i
标记为Ir对应的关联数据;得到Ir对应的关联数据集MDr={MDr1,MDr2,
……
,MDr
w

……
,MDr
p(r)
};MDr
w
为Ir对应的第w个关联数据,w的取值为1到p(r),p(r)为Ir对应的关联数据的数量;S500,基于Ir
fs
,从MDr
w
中获取对应的字段作为Ir对应的目标数据并存储至Ur对应的存储位置Sr中,并将Sr中的数据传输至kafka流中对应的存储位置处。
[0004]可选地,在S400中,通过grpc协议获取Dt
i

[0005]可选地,S400具体包括:S401,设置i=1;S402,如果i≤n,执行S403;否则,执行S;S403,从Dt中获取DSt
i
,并设置r=1;S404,如果r≤m,执行S405;否则,执行S409;S405,对于Ir
s
,从DSt
i
获取对应的字段作为Ir
s
的关联字段DSt
rsi
,如果Ir
s
∈DSt
rsi
,则赋予Ir
s
第一标识,否则,赋予Ir
s
第二标识;执行S406;S406,设置s=s+1,如果s≤g(r),执行S405,否则,执行S407;S407,获取Ir中的第一标识的数量P1r,如果Mr为第一关系标识,并且如果P1r=g(r),或者,如果Mr为第二关系标识,并且如果P1r≥1,则将DSt
i
作为Ir的关联数据;否则,则不将DSt
i
作为Ir的关联数据;执行S408;S408,设置r=r+1,执行S404;S409,设置i=i+1;执行S402;S410,得到MDr,并退出当前控制程序。
[0006]可选地,在S405中,如果Ir
s
的长度大于设定阈值,则基于Ir
s
构建对应的双数组字典树。
[0007]可选地,S200还包括:将所述目标数据需求信息进行持久化存储。
[0008]可选地,还包括:S600,将Sr中的数据按照第一存储周期存储至Redis数据库中,以及将Redis数据库中的数据按照第二存储周期进行持久化存储,其中,第二存储周期的时长大于第一存储周期的时长。
[0009]可选地,S300还包括:如果n(t)>Gt,则基于Gt

n(t)在当前数据处理节点网络中增加对应数量的数据处理节点,作为新的数据处理节点网络,并将新的数据处理节点网络作为当前数据处理节点网络,以对Dt进行处理;其中,Gt为当前时刻t对应的数据处理节点网络的数据总处理量。
[0010]本专利技术至少具有以下有益效果:本专利技术实施例提供的基于kafka流的数据处理方法,能够从海量的数据中及时且准确的获取到多个用户所需求的数据。
附图说明
[0011]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于kafka流的数据处理方法,其特征在于,所述方法包括如下步骤:S100,获取通过kafka流获取的m个用户的数据需求信息,第r个数据需求信息Ir={Ur,Ir1,Ir2,
……
,Ir
s

……
,Ir
g(r)
,Mr};Ir中的第s个数据需求项Ir
s
={Ir
ds
,Ir
fs
},Ir
ds
为Ir
s
对应的字段标识,Ir
fs
为Ir
ds
对应的字段内容;r的取值为1到m,s的取值为1到g(r),g(r)为Ir中的数据需求项的数量;Mr为Ir对应的关系标识,所述关系标识包括第一关系标识、第二关系标识和第三关系标识,第一关系标识用于表征Ir1,Ir2,
……
,Ir
s

……
,Ir
g(r)
之间满足第一关系,第二关系标识用于表征Ir1,Ir2,
……
,Ir
s

……
,Ir
g(r)
满足第二关系、第三关系标识用于表征Ir1,Ir2,
……
,Ir
s

……
,Ir
g(r)
满足第三关系;Ur为第r个用户的ID;S200,将获取的m个数据需求信息通过消息组件发送给数据预处理节点,以对所述数据需求指令进行预处理得到具有设定格式的数据需求信息,作为目标数据需求信息并存放至内存中;S300,获取当前时刻t对应的原始数据集Dt={Dt1,Dt2,
……
,Dt
i

……
,Dt
n(t)
},并对Dt
i
进行处理,得到对应的数据处理结果DSt
i
={DSt
i1
,DSt
i2

……
,DSt
ij

……
,DSt
ih
},Dt
i
为Dt中的第i条数据,i的取值为1到n(t),n(t)为Dt中的数据量;DSt
ij
为DSt
i
中的第j个数据处理结果,DSt
ij
={DSt
dij
,DSt
fij
},DSt
dij
为Dt
i
的第j个字段标识,DSt
fij
为DSt
dij
对应的字段,j的取值为1到h,h为字段标识的数量;所述原始数据集基于kafka流得到;S400,从Dt中获取DSt
i
,并基于Ir对应的目标数据需求信息,确定DSt
i
是否为Ir对应的关联数据,如果是,则将Dt
i
标记为Ir对应的关联数...

【专利技术属性】
技术研发人员:富佰成方省陈帅曹家罗引王磊
申请(专利权)人:北京中科闻歌科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1