查询处理方法及装置制造方法及图纸

技术编号:30529612 阅读:15 留言:0更新日期:2021-10-27 23:19
本说明书实施例提供一种查询处理方法及装置。该方法包括:首先,确定有待针对目标数据集进行查询的L条查询各自的查询类型,所述目标数据集记录业务对象的数据;接着,确定各个查询类型针对所述目标数据集的查询敏感度;然后,基于各条查询分别对应的查询敏感度,以及针对所述L条查询的总集预先设定的隐私预算参数,确定各条查询分配得到的噪声功率。据此,针对所述L条查询中任意的目标查询,可以将其实际返回结果确定为其原始查询结果叠加从差分隐私的目标噪声分布采样的目标噪声,其中目标噪声分布基于所述目标查询分配得到的噪声功率而确定。如此,可以实现对目标数据集的隐私保护。保护。保护。

【技术实现步骤摘要】
查询处理方法及装置


[0001]本说明书一个或多个实施例涉及数据处理
,尤其涉及一种查询处理方法及装置。

技术介绍

[0002]随着大数据时代的到来,如何挖掘数据价值已成为当下的研究热点。在一种挖掘方式中,通过对大量数据进行统计处理,向外界提供统计查询服务。然而,此种查询服务存在泄露单条数据记录的风险,例如,张三查询到前500行数据的均值为20,之后又查询到前501行数据的均值为20.1,此时,其可以得到第501行数据的数值为70.1。
[0003]差分隐私(Differential Privacy,简称DP)技术被用于统计查询场景,以应对隐私泄露问题。此项技术的难点在于,如何平衡数据的隐私安全性和查询结果的准确性,因为前者的提高往往会导致后者的降低。因此,迫切需要一种改进的差分隐私方案,可以最小化敏感数据的隐私泄露风险,同时最大化查询结果的准确性。

技术实现思路

[0004]本说明书一个或多个实施例描述了一种查询处理方法及装置,针对一批次查询中的每个查询,为其分配确保不会泄露数据隐私的最低噪声功率,从而最大化查询结果的准确性。
[0005]根据第一方面,提供一种保护数据隐私的查询处理方法,包括:确定有待针对目标数据集进行查询的L条查询各自的查询类型,所述目标数据集记录业务对象的数据;确定各个查询类型针对所述目标数据集的查询敏感度;基于各条查询分别对应的查询敏感度,以及针对所述L条查询的总集预先设定的隐私预算参数,确定各条查询分配得到的噪声功率。
[0006]在一个实施例中,确定有待针对目标数据集进行查询的L条查询各自的查询类型,包括:接收针对所述目标数据集的L条查询请求,其中各条查询请求指示各自的查询类型。
[0007]在一个实施例中,确定有待针对目标数据集进行查询的L条查询各自的查询类型,包括:获取针对所述目标数据集预先配置的可查询次数L及其中各次查询的查询类型。
[0008]在一个实施例中,所述查询类型为以下中的任一种:计数、最大值、最小值、均值和方差。
[0009]在一个实施例中,所述业务对象为以下中的任一种:用户、商品、业务事件。
[0010]在一个具体的实施例中,所述业务事件为以下中的任一种:注册、访问、登录、支付。
[0011]在一个实施例中,所述业务对象为用户,所述隐私数据为以下中的任一种:年龄、性别、收入、兴趣爱好、生理指标、操作指标。
[0012]在一个实施例中,确定各个查询类型针对所述目标数据集的查询敏感度,包括:针对所述各个查询类型,根据第一结果和第二结果之间的最大绝对差值,得到该查询类型对应的查询敏感度;其中,所述第一结果是针对所述目标数据集进行该类型查询得到的结果,
所述第二结果是针对所述目标数据集的邻近数据集进行该类型查询得到的结果。
[0013]在一个实施例中,所述查询类型包括计数查询;其中,确定各个查询类型针对所述目标数据集的查询敏感度,包括:将所述计数查询的查询敏感度确定为数值1。
[0014]在一个实施例中,所述查询类型包括最大值查询/最小值查询;其中,确定各个查询类型针对所述目标数据集的查询敏感度,包括:确定所述目标数据集中的最大值和最小值;将所述最大值减去所述最小值的结果,确定为所述最大值查询/最小值查询的查询敏感度。
[0015]在一个实施例中,所述查询类型包括均值查询;其中,确定各个查询类型针对所述目标数据集的查询敏感度,包括:确定所述目标数据集中的最大值;将所述最大值的绝对值与所述目标数据集的数据个数加1之间的比值,确定为所述均值查询的查询敏感度。
[0016]在一个实施例中,所述查询类型包括方差查询;其中,确定各个查询类型针对所述目标数据集的查询敏感度,包括:确定所述目标数据集中的最大值和最小值;将所述方差查询的查询敏感度确定为以下因子的乘积:所述最大值和最小值之间差值的平方,所述目标数据集的数据个数,以及所述数据个数加1后进行平方运算的倒数。
[0017]在一个实施例中,基于各条查询分别对应的查询敏感度,以及针对所述L条查询的总集预先设定的隐私预算参数,确定各条查询分配得到的噪声功率,包括:基于各条查询的查询敏感度,确定所述L条查询的查询敏感度和值;针对任意一条查询,根据该条查询的查询敏感度,所述查询敏感度和值,以及所述隐私预算参数 ,确定该条查询分配得到的噪声功率。
[0018]在一个具体的实施例中,根据该条查询的查询敏感度,所述查询敏感度和值,以及所述隐私预算参数 ,确定该条查询分配得到的噪声功率,包括:获取均值变量的变量值,该变量值基于所述隐私预算参数的参数值,以及差分隐私的高斯机制下所述隐私预算参数和均值变量的约束关系而确定;将该条查询的噪声功率确定为以下因子的乘积:该条查询的查询敏感度,所述查询敏感度和值,以及所述变量值进行平方运算后的倒数。
[0019]在一个实施例中,所述隐私预算参数包括预算项参数和松弛项参数。
[0020]在一个实施例中,在确定各条查询分配得到的噪声功率之后,所述方法还包括:针对所述L条查询中任意的目标查询,将其实际返回结果确定为其原始查询结果叠加从差分隐私的目标噪声分布采样的目标噪声,其中目标噪声分布基于所述目标查询分配得到的噪声功率而确定。
[0021]在一个具体的实施例中,所述目标噪声分布为高斯噪声分布,所述高斯噪声分布以所述目标查询的噪声功率为方差,以0为均值。
[0022]在一个具体的实施例中,所述的方法,还包括:接收针对所述目标数据集的当前查询请求,其对应当前查询类型;判断对应所述当前查询类型的已处理请求数量是否小于预定阈值,所述已处理请求数量对应的查询请求针对所述目标数据集;在判断出小于的情况下,将所述当前查询请求作为所述目标查询。
[0023]根据第二方面,提供一种保护数据隐私的查询处理装置,包括:查询类型确定单元,配置为确定有待针对目标数据集进行查询的L条查询各自的查询类型,所述目标数据集记录业务对象的数据;敏感度确定单元,配置为确定各个查询类型针对所述目标数据集的查询敏感度;噪声功率确定单元,配置为基于各条查询分别对应的查询敏感度,以及针对所
述L条查询的总集预先设定的隐私预算参数,确定各条查询分配得到的噪声功率。
[0024]在一个实施例中,所述查询类型确定单元具体配置为:接收针对所述目标数据集的L条查询请求,其中各条查询请求指示各自的查询类型。
[0025]在一个实施例中,所述查询类型确定单元具体配置为:获取针对所述目标数据集预先配置的可查询次数L及其中各次查询的查询类型。
[0026]在一个实施例中,所述业务对象为以下中的任一种:用户、商品、业务事件。
[0027]在一个实施例中,所述敏感度确定单元具体配置为:针对所述各个查询类型,根据第一结果和第二结果之间的最大绝对差值,得到该查询类型对应的查询敏感度;其中,所述第一结果是针对所述目标数据集进行该类型查询得到的结果,所述第二结果是针对所述目标数据集的邻近数据集进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种查询处理方法,包括:确定有待针对目标数据集进行查询的L条查询各自的查询类型,所述目标数据集记录业务对象的数据;确定各个查询类型针对所述目标数据集的查询敏感度;基于各条查询分别对应的查询敏感度,以及针对所述L条查询的总集预先设定的隐私预算参数,确定各条查询分配得到的噪声功率。2.根据权利要求1所述的方法,其中,确定有待针对目标数据集进行查询的L条查询各自的查询类型,包括:接收针对所述目标数据集的L条查询请求,其中各条查询请求指示各自的查询类型。3.根据权利要求1所述的方法,其中,确定有待针对目标数据集进行查询的L条查询各自的查询类型,包括:获取针对所述目标数据集预先配置的可查询次数L及其中各次查询的查询类型。4.根据权利要求1所述的方法,其中,所述查询类型为以下中的任一种:计数、最大值、最小值、均值和方差。5.根据权利要求1所述的方法,其中,所述业务对象为以下中的任一种:用户、商品、业务事件。6.根据权利要求5所述的方法,其中,所述业务事件为以下中的任一种:注册、访问、登录、支付。7.根据权利要求1所述的方法,其中,所述业务对象为用户,所述业务对象的数据为以下中的任一种:年龄、性别、收入、兴趣爱好、生理指标、操作指标。8.根据权利要求1所述的方法,其中,确定各个查询类型针对所述目标数据集的查询敏感度,包括:针对所述各个查询类型,根据第一结果和第二结果之间的最大绝对差值,得到该查询类型对应的查询敏感度;其中,所述第一结果是针对所述目标数据集进行该类型查询得到的结果,所述第二结果是针对所述目标数据集的邻近数据集进行该类型查询得到的结果。9.根据权利要求1或8所述的方法,其中,所述查询类型包括计数查询;其中,确定各个查询类型针对所述目标数据集的查询敏感度,包括:将所述计数查询的查询敏感度确定为数值1。10.根据权利要求1或8所述的方法,其中,所述查询类型包括最大值查询/最小值查询;其中,确定各个查询类型针对所述目标数据集的查询敏感度,包括:确定所述目标数据集中的最大值和最小值;将所述最大值减去所述最小值的结果,确定为所述最大值查询/最小值查询的查询敏感度。11.根据权利要求1或8所述的方法,其中,所述查询类型包括均值查询;其中,确定各个查询类型针对所述目标数据集的查询敏感度,包括:确定所述目标数据集中的最大值;将所述最大值的绝对值与所述目标数据集的数据个数加1之间的比值,确定为所述均值查询的查询敏感度。12.根据权利要求1或8所述的方法,其中,所述查询类型包括方差查询;其中,确定各个
查询类型针对所述目标数据集的查询敏感度,包括:确定所述目标数据集中的最大值和最小值;将所述方差查询的查询敏感度确定为以下因子的乘积:所述最大值和最小值之间差值的平方,所述目标数据集的数据个数,以及所述数据个数加1后进行平方运算的倒数。13.根据权利要求1所述的方法,其中,基于各条查询分别对应的查询敏感度,以及针对所述L条查询的总集预先设定的隐私预算参数,确定各条查询分配得到的噪声功率,包括:基于各条查询的查询敏感度,确定所述L条查询的查询敏感度和值;针对任意一条查询,根据该条查询的查询敏感度,所述查询敏感度和值,以及所述隐私预算参数 ,确定该条查询分配得到的噪声功率。14.根据权利要求13所述的方法,其中,根据该条查询...

【专利技术属性】
技术研发人员:杜健张本宇
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1