一种基于抽样的物联网大数据近似聚集方法技术

技术编号:32972414 阅读:19 留言:0更新日期:2022-04-09 11:41
本发明专利技术公开一种基于抽样的物联网大数据近似聚集方法。本发明专利技术提出了基于采样的近似整体聚集算法,成功实现了对整体聚集结果的无偏估计,并且给出并证明了查询结果方差的紧致上界。相比于传统的查询算法,本发明专利技术提出的算法只要求每个节点传输样本的平均数大于16个,查询结果的方差就比传统聚集算法更低。在这种情况下,节点可以将样本打包成普通的心跳消息给中心,也不会产生更多的通信成本。提出的算法提高了传统算法的延展性,能够保证对一系列整体聚集查询有着较低的紧致上界,包括分位数、中位数、频率、位次等。此算法提高了物联网中大数据处理的效率。数据处理的效率。

【技术实现步骤摘要】
一种基于抽样的物联网大数据近似聚集方法


[0001]本专利技术涉及物联网大数据
,尤其涉及一种基于抽样的物联网大数据近似聚集方法。

技术介绍

[0002]整体聚集查询(Holistic aggregations)是用户从物联网收集的数据中获取摘要信息的常用查询,例如查询分位数、频率、位次(rank)。由于整体聚集不能在物联网中分布式执行,因此需要将所有采集到的数据发送到数据中心,以获得准确的查询结果。上述过程消耗了大量的能量。
[0003]近似范围计数聚集在数据流、传统数据库系统等许多领域得到广泛的应用。基于采样的数据聚集算法已经被提出并广泛应用于近似数据聚集。然而,这些工作并不是为物联网大数据的范围计数查询而设计的,这意味着这类查询并没有提供性能保证。
[0004]基于采样的算法也已应用于通过连续数据收集的长期查询。考虑到时间维度和空间维度的高度相关性,现有工作提出了一种分布式近似聚集算法,大大降低了聚集开销。也有工作提出了一些算法来实现聚集开销和聚集精度之间的权衡,从而通过为网络中的每个传感器节点分配可容忍的误差边界来延长网络生存期。现有工作也提出了对大规模时空数据集进行空间在线采样和数据聚集的索引结构,作为一种基于采样的算法,所提出的结构对于动态数据集具有良好的性能。然而,这些工作主要集中在减少长期带宽消耗。它们无法保证本专利技术中讨论的一个示例多个查询的性能。
[0005]因此,现有技术存在缺陷,需要改进。

技术实现思路

[0006]本专利技术的目的是克服现有技术的不足,提供一种基于抽样的物联网大数据近似聚集方法。
[0007]本专利技术的技术方案如下:提供一种基于抽样的物联网大数据近似聚集方法,包括如下步骤:
[0008]步骤1:假设网络组织为一个平面模型,其中每个节点直接与基站通信;
[0009]步骤2:在从底层节点中收集样本后,如果需要的精确度能够满足,则将样本用于回答未来的范围计数聚合;
[0010]步骤3:如果不能满足需要的精确度,基站将通知底层节点从网络中收集更多的样本;
[0011]步骤4:利用抽烟数据元素的位次来表示RankCounting估计器;具体为:设S
i
为节点i收集的样本集,D
i
为节点i采集的数据集,i=1,...,k;
[0012]设分别为样本和数据的全局集。设ni为第i个节点收集的数据数,n为总共k个节点收集的数据总数。fst和lst分别表示节点i收集的第一个和最后一个数据。已知上下界范围l,u;
[0013]首先使用Si计算即对节点i收集的数据的(l,u)

范围计数,然后得到针对S的范围计数,也即为
[0014]采用上述方案,本专利技术提出了基于采样的近似整体聚集算法,成功实现了对整体聚集结果的无偏估计,并且给出并证明了查询结果方差的紧致上界。相比于传统的查询算法,本专利技术提出的算法只要求每个节点传输样本的平均数大于16个,查询结果的方差就比传统聚集算法更低。在这种情况下,节点可以将样本打包成普通的心跳消息给中心,也不会产生更多的通信成本。提出的算法提高了传统算法的延展性,能够保证对一系列整体聚集查询有着较低的紧致上界,包括分位数、中位数、频率、位次等。此算法提高了物联网中大数据处理的效率。
具体实施方式
[0015]以下结合具体实施例,对本专利技术进行详细说明。
[0016]本专利技术提供一种基于抽样的物联网大数据近似聚集方法,包括如下步骤:
[0017]步骤1:假设网络组织为一个平面模型,其中每个节点直接与基站通信;
[0018]步骤2:在从底层节点中收集样本后,如果需要的精确度能够满足,则将样本用于回答未来的范围计数聚合;
[0019]步骤3:如果不能满足需要的精确度,基站将通知底层节点从网络中收集更多的样本;
[0020]步骤4:利用抽烟数据元素的位次来表示RankCounting估计器;具体为:设S
i
为节点i收集的样本集,D
i
为节点i采集的数据集,i=1,...,k;
[0021]设分别为样本和数据的全局集。设ni为第i个节点收集的数据数,n为总共k个节点收集的数据总数。fst和lst分别表示节点i收集的第一个和最后一个数据。已知上下界范围l,u;
[0022]首先使用Si计算即对节点i收集的数据的(l,u)

范围计数,然后得到针对S的范围计数,也即为
[0023]物联网被视为大数据平台的新范式。例如,部署智慧城市应用程序,对大量物理数据进行及时监控、分析和响应。作为基本的数据分析操作,范围计数(Range Counting)是这些应用程序的关键组件。例如,数据分析通过获取范围技术统计信息来估计环境中颗粒物水平,交通流量或天气数据,以监测环境污染水平。这些聚集分析不仅对数据所有者有价值,而且对其他具有商业目的的社区也有吸引力。然而,如果收集所有物联网数据来计算精确的范围计数,将产生相当大的通信和计算开销。然而,在许多情况下,开销较小的近似范围计数结果实际上足以让数据客户执行满足精度要求的数据分析任务。为解决该问题,本专利技术提出了一种基于采样的近似范围计数聚集算法,该算法给出了保证有界较小方差的范围计数的无偏估计器。
[0024]物联网由大规模的智能设备组成,这些设备收集由传感模块或其他输入通道产生的数据。D表示物联网中所有智能设备收集数据集。每个智能设备只向基站发送其本地收集的数据样本,而不是将整个D传输到基站。这将大大降低数据传输的通信成本。然后将D的样
本S存储在基站中,向数据代理开放数据访问API。本专利技术考虑对智能设备收集的数据集进行范围计数查询,范围计数的定义如下:
[0025]定义1:范围计数。在给定范围参数l和u(l≤u)以及数据集D的情况下,具有下界l和上界u的范围计数为|{x|l≤x≤u,x∈D}|。
[0026]就物联网中的实时通信而言,计算精确的范围计数是非常昂贵的。在许多情况下,具有可接受精度的近似范围计数足以满足客户的要求。定义 2.2提出了(α,δ)

范围计数的概念,用客户指定的精度参数来量化范围计数的查询精度。
[0027]定义2:(α,δ)

范围计数。给定0≤α≤1和0≤δ≤1,对于任何范围参数l和u,l≤u,数据集D的(α,δ)

范围计数,记为满足
[0028]数据客户发送(α,δ)

范围计数请求∧(α,δ)给数据代理。数据代理可以访问S来响应这些请求。
[0029]基于采样(α,δ)

范围计数。高查询精度和低通信成本对整个系统的性能至关重要。为此,本专利技术提出了一种用于(α,δ)

范围计数聚集的估计器。假设网络组织为一个平面模型,其中每个节点直接与基站通信。值得注意的是平面模型上的算法可以很容易地扩展到一般的树模型。在从底层本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于抽样的物联网大数据近似聚集方法,其特征在于,包括如下步骤:步骤1:假设网络组织为一个平面模型,其中每个节点直接与基站通信;步骤2:在从底层节点中收集样本后,如果需要的精确度能够满足,则将样本用于回答未来的范围计数聚合;步骤3:如果不能满足需要的精确度,基站将通知底层节点从网络中收集更多的样本;步骤4:利用抽烟数据元素的位次来表示RankCounting估计器;具体为:设S
i
为节点i收集的样本集...

【专利技术属性】
技术研发人员:张泽赟张现宝
申请(专利权)人:腾云悦智科技深圳有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1