【技术实现步骤摘要】
流式数据处理方法、装置、设备和介质
本申请实施例涉及计算机技术,具体涉及大数据处理,尤其涉及一种流式数据处理方法、装置、设备和介质。
技术介绍
在很多统计分析系统或广告系统中,均会对数据流进行实时计算,从而解决针对某个数据维度的top-k问题。针对该top-k问题,当前常用方案主要包括以下两种:(1)直接通过先进先出的方式,先到先得,k个槽位占满之后,在后接收的数据直接抛弃。该方案只适用于在先接收的实时数据中的关键字段key本身就属于后期频繁出现的关键字段key的场景,即该方案适用场景较窄,非常容易导致top-k问题的处理准确性降低。(2)保存所有实时数据中关键字段key的统计值,通过统计排序,得到准确的top-k问题的处理结果。当数据量非常大时,该方案对内存资源消耗较大,影响系统整体的处理性能。
技术实现思路
本申请实施例公开一种流式数据处理方法、装置、设备和介质,以通过动态维护预设数量的槽位数据,以及新加入字段对被替换字段的统计属性的继承,在保证top-k问题处理准确率的情况下
【技术保护点】
1.一种流式数据处理方法,其特征在于,包括:/n确定预设数量的槽位中是否存在实时接收的新数据中的关键字段,其中,所述预设数量的值大于需求数据量的设定值;/n如果不存在,并且所述预设数量的槽位中不存在空位,则用所述关键字段替换槽位中的末位字段,并根据所述新数据当前携带的信息和所述末位字段的统计属性,确定所述关键字段在槽位中的统计属性;/n根据所述关键字段的统计属性,实时确定所述新数据是否属于需求数据。/n
【技术特征摘要】
1.一种流式数据处理方法,其特征在于,包括:
确定预设数量的槽位中是否存在实时接收的新数据中的关键字段,其中,所述预设数量的值大于需求数据量的设定值;
如果不存在,并且所述预设数量的槽位中不存在空位,则用所述关键字段替换槽位中的末位字段,并根据所述新数据当前携带的信息和所述末位字段的统计属性,确定所述关键字段在槽位中的统计属性;
根据所述关键字段的统计属性,实时确定所述新数据是否属于需求数据。
2.根据权利要求1所述的方法,其特征在于,所述统计属性包括计数值和误差值;
相应的,根据所述新数据当前携带的信息和所述末位字段的统计属性,确定所述关键字段在槽位中的统计属性,包括:
根据所述新数据当前携带的信息和所述末位字段的计数值,确定所述关键字段在槽位中的计数值,并将所述末位字段的计数值确定为所述关键字段的误差值。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
如果所述预设数量的槽位中不存在所述关键字段,并且所述预设数量的槽位中存在空位,则将所述关键字段添加至所述空位,根据所述新数据当前携带的信息,对所述关键字段在槽位中的计数值进行初始化,其中,将所述计数值进行初始化包括将所述关键字段在槽位中的误差值初始化为0。
4.根据权利要求2所述的方法,其特征在于:所述预设数量的槽位中存储的各个字段的计数值形成双向链表;将所述各个字段作为父节点,将所述各个字段的计数值作为子节点,所述父节点与所述子节点为对应关系。
5.根据权利要求4所述的方法,其特征在于,在确定所述关键字段在槽位中的统计属性之后,所述方法还包括:
按照各计数值的大小,通过各计数值在所述双向链表中的移动,对各计数值进行排序;
根据各计数值的排序结果,以及所述各个字段与计数值之间的对应关系,确定所述各个字段在所述预设数量的槽位中的位置。
6.根据权利要求2所述的方法,其特征在于,根据所述关键字段的统计属性,实时确定所述新数据是否属于需求数据,包括:
对截止到当前的设定时间期限内,已接收数据中所有关键字段的计数值进行累计,得到累计和;
计算所述累计和与所述预设数量之间的目标商值;
根据所述关键字段的计数值与误差值的差值、以及所述目标商值,实时确定所述新数据是否属于需求数据。
7.根据权利要求6所述的方法,其特征在于,根据所述关键字段的计数值与误差值的差值、以及所述目标商值,实时确定所述新数据是否属于需求数据,包括:
利用以下公式实时确定所述新数据是否属于需求数据,
(count-error)>(N/M)
其中,所述count用于表示所述关键字段的计数值,所述error用于表示所述关键字段的误差值,所述M用于表示所述预设数量,所述N用于表示所述累计和,所述N/M用于表示所述目标商值。
8.根据权利要求1所述的方法,其特征在于,所述确定实时接收的新数据中的关键字段,是否存在于预设数量的槽位中,包括:
利用所述预设数量的槽位中各字段的哈希列表,确定所述实时接收的新数据中的关键字段,是否存在于所述预设数量的槽位中。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果所述新数据不属于需求数据,则按照所述新数据所属的报表,调用数据写入处理线程,将所述新数据分别写入外部存储引擎的列族中,其中,一个列族用于...
【专利技术属性】
技术研发人员:陈鑫,林江红,高春旭,叶峻,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。