【技术实现步骤摘要】
本公开涉及流数据处理技术,尤其涉及一种分布式流中持久项的查询方法、装置。
技术介绍
1、伴随着互联网的高速发展,大量实时数据的产生使得流数据的速度越来越快,如何在有限的空间上完成对海量数据的存储和处理成为一大挑战。为了解决如今信息过载的问题,流数据的近似处理技术正在产生越来越广泛的应用,其中尤其以草图(sketch)模型最受关注。在空间存储有限的条件下,我们不再存储和索引每一个事件,而是快速处理它们,并创建一个摘要。
2、现有技术中,流数据近似处理技术关注的特征主要是频率、基数和分位数。而在某些场景,比如电信公司希望跟踪其网络上的活动,来识别网络整体的运行状况并检测异常行为。
3、一些恶意行为试图通过将异常攻击分散到许多不同的时间段上来躲避频率的检测,致使传统的频率检测方法不再能准确的捕捉此类异常。在许多情况下,由于输入的数据流中可能含有敏感信息,例如描述个人的行为、偏好或特征等信息,因此用户可能不愿意透露他们的真实信息,因此在数据的收集、存储和使用过程中,面临着诸多安全风险。如何联合多个站点,实现隐私保护条件下
...【技术保护点】
1.一种分布式流中持久项的查询方法,其特征在于,应用于持久性估计的数据结构,所述持久性估计的数据结构由d个计数器数组组成,其中每个计数器数组都由l个计数器组成,对于所述l个计数器,每个计数器中持有一个HLL计数器,所述HLL计数器为一个由多个数据单元构成的数组,所述数据单元中的值为1或0,d和l均为正整数;
2.根据权利要求1所述的方法,其特征在于,还包括按照以下步骤对所述持久性估计的数据结构进行项目的插入操作:
3.根据权利要求2所述的方法,其特征在于,所述按照新的哈希函数h′,将项目对应映射到HLL计数器的数据单元中,包括:
4
...【技术特征摘要】
1.一种分布式流中持久项的查询方法,其特征在于,应用于持久性估计的数据结构,所述持久性估计的数据结构由d个计数器数组组成,其中每个计数器数组都由l个计数器组成,对于所述l个计数器,每个计数器中持有一个hll计数器,所述hll计数器为一个由多个数据单元构成的数组,所述数据单元中的值为1或0,d和l均为正整数;
2.根据权利要求1所述的方法,其特征在于,还包括按照以下步骤对所述持久性估计的数据结构进行项目的插入操作:
3.根据权利要求2所述的方法,其特征在于,所述按照新的哈希函数h′,将项目对应映射到hll计数器的数据单元中,包括:
4.根据权利要求1所述的方法,其特征在于,还包括按照以下步骤对不同站点的数据进行合并:
5.一种分布式流中持久项的查询方法,其特征在于,应用于查询持久项的数据结构,所述查询持久项的数据结构包括计数器结构和桶结构,所述计数器结构为一个计数器数组,所述计数器数组由l个计数器组成,对于所述l个计数器,每个计数器中持有一个hll计数器,所述hll计数器为一个由多个数据单元构成的数组,所述数据单元中的值为1或0,l为正整数;...
【专利技术属性】
技术研发人员:赵俊舟,曾玲,王平辉,陶敬,韩婷,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。