一种数据处理方法、装置、设备及存储介质制造方法及图纸

技术编号:35267358 阅读:33 留言:0更新日期:2022-10-19 10:31
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、设备及存储介质。该方法包括:获取待处理数据以及与待处理数据相关联的预定义知识库;确定待处理数据的元数据;基于预定义知识库,从元数据中确定包含至少一个预设属性的数据索引范围;对数据索引范围进行划分,得到至少一个预设属性对应的数据存储集合;根据数据存储集合生成数据索引信息;根据数据索引信息,确定待处理数据所对应的输出数据。该方法基于数据的元数据进行隐私计算,确定数据对应的输出数据,平衡了数据隐私和数据效用之间的关系。效用之间的关系。效用之间的关系。

【技术实现步骤摘要】
一种数据处理方法、装置、设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种数据处理方法、装置、设备及存储介质。

技术介绍

[0002]人类如今已经进入了数据的时代,数据渗透在每一个行业和业务职能领域,成为重要的生产要素。在现实生活中,有很多机构的数据需要定期对外发布,如医疗数据、交通数据、政务数据等。这些数据包含着大量的个人隐私信息,一旦泄露将会带来不可估量的损失。在数据发布领域,为了防止隐私数据完全对外公开,数据发布机构通常采取一定的隐私保护技术手段隐藏用户的敏感属性。处理后的数据是否还会泄露隐私,隐私量有多大,对数据可用性造成多大的影响,这些问题是影响数据发布的关键因素。如若不能有效度量隐私及数据效用,将会面临有数据不敢发布的困境。然而,如果不对数据进行发布则会导致数据资源开放共享程度低、数据价值难以被有效挖掘利用,因此量化数据隐私和数据效用之间的权衡是一个需要解决的挑战。

技术实现思路

[0003]本申请提供一种数据处理方法、装置、设备及存储介质,基于数据的元数据进行隐私计算,确定数据对应的输出数据,平衡了数据隐私和数据效用之间的关系。
[0004]第一方面,本申请实施例公开了一种数据处理方法,该方法包括:
[0005]获取待处理数据以及与待处理数据相关联的预定义知识库;
[0006]确定待处理数据的元数据;
[0007]基于预定义知识库,从元数据中确定包含至少一个预设属性的数据索引范围;
[0008]对数据索引范围进行划分,得到至少一个预设属性对应的数据存储集合;
[0009]根据数据存储集合生成数据索引信息;
[0010]根据数据索引信息,确定待处理数据所对应的输出数据。
[0011]进一步的,对数据索引范围进行划分,得到至少一个预设属性对应的数据存储集合,包括:
[0012]确定至少一个预设属性各自所对应的数值区域;
[0013]按照预定义规则将至少一个预设属性各自所对应的数值区域划分为至少一个存储数据集;
[0014]根据存储数据集,生成至少一个预设属性对应的数据存储集合。
[0015]进一步的,根据数据存储集合生成数据索引信息,包括:
[0016]在存储数据集中确定至少一个目标存储数据集;
[0017]根据至少一个目标存储数据集生成数据索引信息。
[0018]进一步的,根据数据索引信息,确定待处理数据所对应的输出数据,包括:
[0019]根据数据索引信息对待处理数据进行数据统计,得到数据统计结果;
[0020]根据数据统计结果,确定待处理数据对应的输出数据。
[0021]进一步的,根据数据统计结果,确定待处理数据对应的输出数据,包括:
[0022]获取预定义的隐私阈值;
[0023]基于隐私阈值和统计结果确定匿名指数;
[0024]在匿名指数小于预设值的情况下,将统计结果对应的实体数据采用屏蔽数据进行替换,得到替换后的数据;
[0025]确定替换后的数据为待处理数据所对应的输出数据。
[0026]进一步的,确定替换后的数据为待处理数据所对应的输出数据,方法还包括:
[0027]根据替换后的数据,确定更新数据索引信息;
[0028]根据更新数据索引信息对输出数据进行数据统计,得到更新数据统计结果;
[0029]根据更新数据统计结果,确定输出数据对应的更新输出数据。
[0030]进一步的,获取待处理数据以及与待处理数据相关联的预定义知识库之前,方法还包括:
[0031]获取多个数据源分别发布的边缘数据,不同数据源所发布的边缘数据之间存在关联关系;
[0032]将多个数据源分别发布的边缘数据聚合为待处理数据。
[0033]第二方面,本申请实施例公开了一种数据处理装置,装置包括:
[0034]获取模块,用于获取待处理数据以及与待处理数据相关联的预定义知识库;
[0035]元数据确定模块,用于确定待处理数据的元数据;
[0036]数据索引范围模块,用于基于预定义知识库,从元数据中确定包含至少一个预设属性的数据索引范围;
[0037]数据索引范围划分模块,用于对数据索引范围进行划分,得到至少一个预设属性对应的数据存储集合;
[0038]数据索引信息生成模块,用于根据数据存储集合生成数据索引信息;
[0039]输出数据确定模块,用于根据数据索引信息,确定待处理数据所对应的输出数据。
[0040]在一些可选的实施方式中,数据索引范围划分模块包括:
[0041]数值区域确定单元,用于确定至少一个预设属性各自所对应的数值区域;
[0042]数值区域划分单元,用于按照预定义规则将至少一个预设属性各自所对应的数值区域划分为至少一个存储数据集;
[0043]数据存储集合生成单元,用于根据存储数据集,生成至少一个预设属性对应的数据存储集合。
[0044]在一些可选的实施方式中,数据索引信息生成模块包括:
[0045]目标存储数据集确定单元,用于在存储数据集中确定至少一个目标存储数据集;
[0046]数据索引信息生成单元,用于根据至少一个目标存储数据集生成数据索引信息。
[0047]在一些可选的实施方式中,输出数据确定模块包括:
[0048]数据统计结果确定单元,用于根据数据索引信息对待处理数据进行数据统计,得到数据统计结果;
[0049]输出数据确定单元,用于根据数据统计结果,确定待处理数据对应的输出数据。
[0050]在一些可选的实施方式中,输出数据确定单元包括:
[0051]隐私阈值获取子单元,用于获取预定义的隐私阈值;
[0052]匿名指数确子定单元,用于基于隐私阈值和统计结果确定匿名指数;
[0053]数据替换子单元,用于在匿名指数小于预设值的情况下,将统计结果对应的实体数据采用屏蔽数据进行替换,得到替换后的数据;
[0054]输出数据确定子单元,用于确定替换后的数据为待处理数据所对应的输出数据。
[0055]在一些可选的实施方式中,该装置还包括:
[0056]数据索引信息更新模块,用于根据替换后的数据,确定更新数据索引信息;
[0057]更新数据统计结果确定模块,用于根据更新数据索引信息对输出数据进行数据统计,得到更新数据统计结果;
[0058]更新输出数据确定模块,用于根据更新数据统计结果,确定输出数据对应的更新输出数据。
[0059]在一些可选的实施方式中,该装置还包括:
[0060]边缘数据获取模块,用于获取多个数据源分别发布的边缘数据,不同数据源所发布的边缘数据之间存在关联关系;
[0061]数据聚合模块,用于将多个数据源分别发布的边缘数据聚合为待处理数据。
[0062]第三方面,本申请实施例公开了一种电子设备,设备包括处理器和存储器,存储器中存储本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取待处理数据以及与所述待处理数据相关联的预定义知识库;确定所述待处理数据的元数据;基于所述预定义知识库,从所述元数据中确定包含至少一个预设属性的数据索引范围;对所述数据索引范围进行划分,得到所述至少一个预设属性对应的数据存储集合;根据所述数据存储集合生成数据索引信息;根据所述数据索引信息,确定所述待处理数据所对应的输出数据。2.根据权利要求1所述的方法,其特征在于,所述对所述数据索引范围进行划分,得到所述至少一个预设属性对应的数据存储集合,包括:确定所述至少一个预设属性各自所对应的数值区域;按照预定义规则将所述至少一个预设属性各自所对应的数值区域划分为至少一个存储数据集;根据所述存储数据集,生成所述至少一个预设属性对应的所述数据存储集合。3.根据权利要求2所述的方法,其特征在于,所述根据所述数据存储集合生成数据索引信息,包括:在所述存储数据集中确定至少一个目标存储数据集;根据所述至少一个目标存储数据集生成所述数据索引信息。4.根据权利要求1所述的方法,其特征在于,所述根据所述数据索引信息,确定所述待处理数据所对应的输出数据,包括:根据所述数据索引信息对所述待处理数据进行数据统计,得到数据统计结果;根据所述数据统计结果,确定所述待处理数据对应的所述输出数据。5.根据权利要求4所述的方法,其特征在于,所述根据所述数据统计结果,确定所述待处理数据对应的所述输出数据,包括:获取预定义的隐私阈值;基于所述隐私阈值和所述统计结果确定匿名指数;在所述匿名指数小于预设值的情况下,将所述统计结果对应的实体数据采用屏蔽数据进行替换,得到替换后的数据;确定所述替换后的数据为所述待处理数据所对应的所述输出数据。6.根据权利要求5所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:许爱琴彭博文杨成武齐林林
申请(专利权)人:中汽创智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1