当前位置: 首页 > 专利查询>浙江大学专利>正文

一种不确定数据流概率求和阈值查询方法技术

技术编号:23852066 阅读:61 留言:0更新日期:2020-04-18 09:09
本发明专利技术公开了一种不确定数据流概率求和阈值查询方法,属于不确定数据流查询处理技术领域。所述方法包括:1)初始化,包括查询参数设定和使用高斯混合模型对不确定数据流进行建模;2)使用基于高斯混合模型性质和概率理论的过滤策略得到结果的上界或下界,从而快速做出判断;3)当过滤策略无效时,使用滑动窗口模型计算出准确的值,通过增量式计算减少计算代价。本发明专利技术提出的不确定数据流概率求和阈值查询方法在集群监测、健康监测和智能安防等领域具有广阔的应用前景。

A query method of probability sum threshold of uncertain data flow

【技术实现步骤摘要】
一种不确定数据流概率求和阈值查询方法
本专利技术涉及不确定数据流查询处理
,具体涉及一种不确定数据流概率求和阈值查询方法。
技术介绍
随着传感和网络技术的发展,数据流可以被广泛获取。由于设备的固有误差,环境噪声的干扰,通过推理来恢复丢失的信息等,数据流中的数据通常是基于概率的表示。简单地计算这些不确定数据的统计信息(例如:均值和方差)将丢失有用的信息,甚至得出不正确的结论。不确定数据流管理通过采用不确定数据模型来支持概率查询,可以解决这些问题,其中概率求和查询(probabilisticsumquery)是重要的查询类型,该查询以大量的不确定数据(如概率分布函数)为输入,返回概率分布作为结果。在许多监控应用中,只需要知道结果分布是否超过用户定义的阈值。下面给出一个例子。示例1:温度监测。六个传感器同时测量一物体的温度。由于传感器的固有误差和噪声信号的干扰,温度读数会产生误差。使用数据融合技术(如密度估计)将六个传感器的温度读数转换为概率分布。然后,聚合不同时刻的概率分布来检测异常。为此,监视应用程序设计了如下查询:查询:在最近的10分钟内,平均温度超过60度的概率大于80%吗?当查询结果为“true”时,将触发报警。上述查询明确考虑最近10分钟集群整体的负载波动,并将两个阈值引入概率求和查询,一个是概率阈值,另一个是得分阈值。该查询即为不确定数据流概率求和阈值查询,是不确定数据流概率求和查询的扩展。虽然已有大量不确定数据流上概率求和查询的研究工作,这些不确定数据流概率求和查询方法大多侧重于通过提出空间和时间高效的算法来获得基于无界数据流模型的近似结果。还有一些方法通过滑动窗口模型来处理新到来和过期的元组,实现结果的增量式更新。此外,已有的概率阈值查询方法中,虽然设计了各种过滤策略(例如:基于距离的过滤和基于概率的过滤),但这些查询的过滤策略是针对其特定的查询类型设计的,不同查询类型的阈值语义在本质上存在区别(例如,概率范围阈值查询中的两个阈值:范围阈值和概率阈值;概率求和阈值查询中的两个阈值:得分阈值和概率阈值)。目前未见不确定数据流概率求和阈值查询方法。朴素的解决方案是在执行概率求和查询之后再考虑阈值约束,得到最终的结果。由于将查询处理和阈值计算分离,该方案的计算效率十分低下(即计算任意给定滑动窗口的结果分布不是必须的)。
技术实现思路
为了解决如何高效处理不确定数据流概率求和阈值查询的技术问题。本专利技术提供了一种不确定数据流概率求和阈值查询方法。本专利技术的技术方案为:一种不确定数据流概率求和阈值查询方法,所述方法包括以下步骤:(1)将连续不确定数据进行滑动窗口的划分以及对每个窗口内的随机变量进行高斯混合模型建模,即利用高斯分布表示随机变量;(2)基于滑动窗口内随机变量之和的第一阶矩和第一阶方差、第二阶矩和第二阶方差对随机变量进行两次过滤判断,在依据第一阶矩和第一阶方差进行第一次过滤判断能够得到获得查询结果时,输出查询结果并返回到步骤(1),在依据第一阶矩和第一阶方差进行第一次过滤判断不能够得到获得查询结果时,依据第二阶矩和第二阶方差进行第二次过滤判断,在能够得到获得查询结果时,输出查询结果并返回到步骤(1),不能够得到获得查询结果时,进入步骤(3);(3)将滑动窗口内的随机变量转换为特征函数,基于特征函数进行概率求和,依据求和的概率值与得分阈值和概率阈值的大小关系,判断查询结果为“是”或“否”,并输出查询结果。本专利技术在处理不确定数据流概率求和阈值查询时,充分利用高斯混合模型性质和概率理论,并结合特征函数、剪枝策略和基于滑动窗口的增量式处理,提高计算效率。与现有的方法相比,其优点在于:1)将不确定数据建模为高斯混合模型,更具有灵活性和高效性。2)设计基于高斯混合模型性质和概率理论的剪枝策略,减少了不必要的计算。3)在精确计算阶段,引入特征函数,降低了算法的复杂度,同时利用增量式处理进一步提高计算效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。图1是本专利技术实施例一种不确定数据流概率求和阈值查询方法的流程框图。具体实施方式为使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本专利技术进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本专利技术,并不限定本专利技术的保护范围。图1为本专利技术实施例一种不确定数据流概率求和阈值查询方法的流程框图。如图1所示,实施例提供的不确定数据流概率求和阈值查询方法使用连续型随机变量而不是离散型随机变量来表示不确定数据;采用高斯混合模型作为基础模型以提高计算效率并提供高度的灵活性;在查询处理中集成过滤策略和精确计算,使用基于高斯混合模型性质和概率理论的过滤策略快速做出判断,当过滤策略无效时,使用滑动窗口模型对准确的值进行增量式计算。具体包括初始化阶段、基于过滤策略的快速判断阶段以及基于滑动窗口模型的精确计算阶段。下面针对每阶段进行详细说明。初始化阶段初始阶段主要用于滑动窗口的划分以及对每个窗口内的随机变量进行高斯混合模型建模,即利用高斯分布表示随机变量,具体包括以下步骤:S101,获取不确定数据流中新的第j条不确定数据tj,以最新的w条数据形成滑动窗口其中w∈R+为滑动窗口长度,并以随机变量Xm表示滑动窗口中的第m个元组tj-w+m(1≤m≤w);S102,设定得分阈值τ(τ∈R+)和概率阈值δ(δ∈(0,1)),不确定数据流概率求和阈值查询可表示为:随机变量Y大于τ的概率Pr(Y>τ)是否大于δ,即不等式Pr(Y>τ)>δ是否成立。若不等式成立,则查询结果为“是”,否则为“否”。S103,采用单变量的高斯混合模型对随机变量Xm进行建模,即用连续型随机变量来表示不确定数据,模型包含k个高斯变量以及对应的非负概率(p1,p2,…,pk)。随机变量X的概率密度函数为:其中,μi和σi2为高斯变量的期望和方差,即:这样经过S101~S103将每个滑动窗口内的所有数据用混合高斯模型进行表示,采用高斯混合模型作为基础模型以提高计算效率并提供高度的灵活性。基于过滤策略的快速判断阶段基于过滤策略的快速判断阶段主要用于基于滑动窗口内随机变量之和的第一阶矩和第一阶方差、第二阶矩和第二阶方差对随机变量进行两次过滤判断,在依据第一阶矩和第一阶方差进行第一次过滤判断能够得到获得查询结果时,输出查询结果并返回到初始化阶段,重新获得新不确定数据,在依据第一阶矩和第一阶方差进行第一次过滤判断不能够得到获得查询结果时,依据第二阶矩和第二阶方差进行第二次过滤判断,在能够得到获得查询结果时,输出查询结果并返回到初始化阶段本文档来自技高网
...

【技术保护点】
1.一种不确定数据流概率求和阈值查询方法,其特征在于,所述方法包括以下步骤:/n(1)将连续不确定数据进行滑动窗口的划分以及对每个窗口内的随机变量进行高斯混合模型建模,即利用高斯分布表示随机变量;/n(2)基于滑动窗口内随机变量之和的第一阶矩和第一阶方差、第二阶矩和第二阶方差对随机变量进行两次过滤判断,在依据第一阶矩和第一阶方差进行第一次过滤判断能够得到获得查询结果时,输出查询结果并返回到步骤(1),在依据第一阶矩和第一阶方差进行第一次过滤判断不能够得到获得查询结果时,依据第二阶矩和第二阶方差进行第二次过滤判断,在能够得到获得查询结果时,输出查询结果并返回到步骤(1),不能够得到获得查询结果时,进入步骤(3);/n(3)将滑动窗口内的随机变量转换为特征函数,基于特征函数进行概率求和,依据求和的概率值与得分阈值和概率阈值的大小关系,判断查询结果为“是”或“否”,并输出查询结果。/n

【技术特征摘要】
1.一种不确定数据流概率求和阈值查询方法,其特征在于,所述方法包括以下步骤:
(1)将连续不确定数据进行滑动窗口的划分以及对每个窗口内的随机变量进行高斯混合模型建模,即利用高斯分布表示随机变量;
(2)基于滑动窗口内随机变量之和的第一阶矩和第一阶方差、第二阶矩和第二阶方差对随机变量进行两次过滤判断,在依据第一阶矩和第一阶方差进行第一次过滤判断能够得到获得查询结果时,输出查询结果并返回到步骤(1),在依据第一阶矩和第一阶方差进行第一次过滤判断不能够得到获得查询结果时,依据第二阶矩和第二阶方差进行第二次过滤判断,在能够得到获得查询结果时,输出查询结果并返回到步骤(1),不能够得到获得查询结果时,进入步骤(3);
(3)将滑动窗口内的随机变量转换为特征函数,基于特征函数进行概率求和,依据求和的概率值与得分阈值和概率阈值的大小关系,判断查询结果为“是”或“否”,并输出查询结果。


2.如权利要求1所述的不确定数据流概率求和阈值查询方法,其特征在于,步骤(1)中,获取不确定数据流中新的第j条不确定数据tj,以最新的w条数据形成滑动窗口其中w∈R+为滑动窗口长度,并以随机变量Xm表示滑动窗口中的第m个元组tj-w+m(1≤m≤w);
采用单变量的高斯混合模型对随机变量Xm进行建模,即用连续型随机变量来表示不确定数据,模型包含k个高斯变量以及对应的非负概率(p1,p2,…,pk)。
随机变量X的概率密度函数为:



其中,μi和σi2为高斯变量的期望和方差,即:





3.如权利要求1所述的不确定数据流概率求和阈值查询方法,其特征在于,步骤(2)具体过程为:
(2-1)根据随机变量的期望和方差计算滑动窗口内所有随机变量之和的第一阶矩、第二阶矩、第一阶方差和第二阶方差;
(2-2)根据滑动窗口内所有随机变量之和的第一阶矩和第一阶方差与得分阈值和概率阈值的大小关系进行第一次过滤判断查询结果;
(2-3)在不能输出查询结果时,根据滑动窗口内所有随机变量之和的第二阶矩和第二阶方差与得分阈值和概率阈值的大小关系进行第二次过滤判断查询结果。


4.如权利要求3所述的不确定数据流概率求和阈值查询方法,其特征在于,步骤(2-1)具体包括以下步骤:
(2-1-1)计算随机变量Xm的期望E(X)和方差Var(X);
具体地,根据高斯分布的期望和方差计算期望E(X),具体公式如下:






(2-1-2)计算滑动窗口内所有随机变量之和的第一阶矩E(Y)和第二阶矩E(Y2);
具体地,根据期望E(Xm)和方差Var(Xm)计算滑动窗口内所有随机变量之和Y的第一阶矩E(Y)和第二阶矩E(Y2),具体公式如下:






(2-1-3)计算滑动窗口内所有随机变量之和Y的方差Var(Y);
具体地,根据第一阶矩E(Y)和第二阶矩E(Y2)计算滑动窗口内所有随机变量之和Y的方差Var(Y),具体公式如下:
Var(Y)=E(Y2)-(E(Y))2
(2-1-4)计算滑动窗口内所有随机变量之和Y的第四阶矩E(Y4)和第二阶方差Var(Y2);
具体地,根据第一阶矩E(Y)、第二阶矩E(Y2)以及第一阶方差Var(Y)计算滑动窗口内所有随机变量之和Y的第四阶矩E(Y4)和第二阶方差Var(Y2),具体公式如下:

【专利技术属性】
技术研发人员:陈岭陈东辉
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1