真值发现方法、装置、电子设备及存储介质制造方法及图纸

技术编号:36374675 阅读:18 留言:0更新日期:2023-01-18 09:34
本申请提供一种真值发现方法、装置、电子设备及存储介质。所述方法包括:获取数据拥有者的偏置、方差以及当前真值;对所述数据拥有者的偏置进行筛选得到偏置集合;在所述偏置集合中选择一个元素作为目标偏置;根据所述目标偏置确定目标数据拥有者,将除所述目标数据拥有者外的其他数据拥有者的当前真值更新为当前真值与其偏置之差;根据所述方差计算得到权重,将所有所述数据拥有者的权重与当前真值之积相加,得到真值;根据所述真值,更新所述偏置和权重。本申请通过提出的加密算法,在不侵犯数据拥有者隐私的条件下,通过消除特定偏置、提高高质量数据拥有者权重的方式,实现满足隐私保护和公平性的真值发现方法。私保护和公平性的真值发现方法。私保护和公平性的真值发现方法。

【技术实现步骤摘要】
真值发现方法、装置、电子设备及存储介质


[0001]本申请涉及真值发现
,尤其涉及一种真值发现方法、装置、电子设备及存储介质。

技术介绍

[0002]随着互联网技术的发展以及与其他产业的结合应用,海量的用户信息成为价值巨大的网络资源,大数据技术应运而生。如何在合理时间内从海量数据中提取得到有效信息成为热门研究话题。由于各个数据拥有者的设备精度、背景噪音等问题,导致企业或机构等数据收集者收集到的数据往往存在冲突。相关技术一般通过对各个数据拥有者的可靠性进行考察并赋予权重的方式解决这种冲突问题。即,首先对每个数据拥有者的数据进行分析,然后对该数据接近真值的数据拥有者赋予高权重。通过这种提高权重的方式提高数据的可靠性。
[0003]但是相关技术仍然无法解决真值发现过程中的歧视问题,导致真值发现数据出现偏差。同时由于数据拥有者对隐私越来越高的要求,相关技术无法保证在满足隐私性的前提下实现真值发现。也即,相关技术仍然存在非公平性问题和缺乏隐私保护的问题。

技术实现思路

[0004]有鉴于此,本申请的目的在于提出一种真值发现方法、装置、电子设备及存储介质。
[0005]基于上述目的,本申请提供了一种真值发现方法,包括:
[0006]获取数据拥有者的偏置、方差以及当前真值;
[0007]对所述数据拥有者的偏置进行筛选得到偏置集合;
[0008]在所述偏置集合中选择一个元素作为目标偏置;
[0009]根据所述目标偏置确定目标数据拥有者,将除所述目标数据拥有者外的其他数据拥有者的当前真值更新为当前真值与其偏置之差;
[0010]根据所述方差计算得到权重,将所有所述数据拥有者的权重与当前真值之积相加,得到真值;
[0011]根据所述真值,更新所述偏置和权重。
[0012]可选的,所述数据拥有者包括受保护的数据拥有者和非受保护的数据拥有者;
[0013]所述对所述数据拥有者的偏置进行筛选得到偏置集合,包括:
[0014]根据所述当前真值,通过统计分歧度模型计算得到统计分歧度;所述统计分歧度表示所述受保护的数据拥有者与所述非受保护的数据拥有者得到相同真值的概率差;
[0015]将所述统计分歧度与所述偏置相乘,得到所述偏置的统计分歧度影响因子;
[0016]响应于确定所述统计分歧度影响因子小于预定数值,确定加入该偏置至所述偏置集合中。
[0017]可选的,所述根据所述当前真值,通过统计分歧度模型计算得到统计分歧度,包
括:
[0018]将所述受保护的数据拥有者的当前真值与第一随机数相加得到估计当前真值,将预定对比数与所述第一随机数相加得到估计对比数,所述估计当前真值与所述估计对比数构成第一数量个数字对;
[0019]对所述第一数量个数字对进行随机置换后,通过外部服务器计算所有第一数量个数字对中估计真值大于所述对比数的第一概率;
[0020]将所述非受保护的数据拥有者的当前真值与第二随机数相加得到估计当前真值,将预定对比数与所述第二随机数相加得到估计对比数,所述估计当前真值与所述估计对比数构成第二数量个数字对;
[0021]对所述第二数量个数字对进行随机置换后,通过外部服务器计算所有第二数量个数字对中所述估计真值大于所述对比数的第二概率;
[0022]计算所述第一概率与所述第二概率的差值,得到所述统计分歧度。
[0023]可选的,所述将所述统计分歧度与所述偏置相乘,得到所述偏置的统计分歧度影响因子,包括:
[0024]将所述统计分歧度与第三随机数相加,得到估计统计分歧度;
[0025]将所述偏置与第四随机数相加,得到估计偏置;
[0026]通过外部服务器计算所述估计统计分歧度与所述估计偏置的积,得到估计统计分歧度影响因子;
[0027]根据所述估计统计分歧度影响因子,解算得到所述统计分歧度影响因子。
[0028]可选的,所述在所述偏置集合中选择一个元素作为目标偏置,包括:
[0029]根据所述统计分歧度影响因子,计算得到选择概率;
[0030]对所有所述数据拥有者进行遍历并将其对应的所述选择概率进行相加得到累积概率;
[0031]响应于确定所述累积概率大于预定概率值,确定最后一个遍历的所述数据拥有者对应的所述偏置为目标偏置。
[0032]可选的,所述根据所述统计分歧度影响因子,计算得到选择概率,包括:
[0033]将所述统计分歧度影响因子与第五随机数相乘,得到估计统计分歧度影响因子;
[0034]将所述统计分歧度影响因子之和与第六随机数相乘,得到估计统计分歧度影响因子之和;
[0035]通过所述外部服务器计算所述估计统计分歧度影响因子和所述估计统计分歧度影响因子之和的比值,得到估计选择概率;
[0036]根据所述估计选择概率,解算得到选择概率。
[0037]可选的,所述根据所述方差计算得到权重,将所有所述数据拥有者的权重与当前真值之积相加,得到真值,包括:
[0038]将所述方差与第七随机数相乘,得到估计方差;
[0039]根据所述估计方差,通过所述外部服务器计算得到估计权重;
[0040]根据所述估计权重,解算得到权重;
[0041]根据所述目标偏置确定目标数据拥有者,将除所述目标数据拥有者外的其他数据拥有者的当前真值更新为当前真值与其偏置之差;
[0042]将所有所述数据拥有者的权重与当前真值之积相加,得到真值。
[0043]基于同一专利技术构思,本申请还提供了一种真值发现装置,包括:
[0044]获取模块,被配置为获取数据拥有者的偏置、方差以及当前真值;
[0045]偏置集合构建模块,被配置为对所述数据拥有者的偏置进行筛选得到偏置集合;
[0046]目标偏置选择模块,被配置为在所述偏置集合中选择一个元素作为目标偏置;
[0047]第一更新模块,被配置为根据所述目标偏置确定目标数据拥有者,将除所述目标数据拥有者外的其他数据拥有者的当前真值更新为当前真值与其偏置之差;
[0048]真值计算模块,被配置为根据所述方差计算得到权重,将所有所述数据拥有者的权重与当前真值之积相加,得到真值;
[0049]第二更新模块,被配置为根据所述真值,更新所述偏置和权重。
[0050]基于同一专利技术构思,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任意一项所述的真值发现方法。
[0051]基于同一专利技术构思,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述任一所述的真值发现方法。
[0052]从上面所述可以看出,本申请提供的一种真值发现方法,通过满足公平性的真值发现算法,在保证数据接近真值的数据拥有者具有高权重的同时,剔除对数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种真值发现方法,其特征在于,包括:获取数据拥有者的偏置、方差以及当前真值;对所述数据拥有者的偏置进行筛选得到偏置集合;在所述偏置集合中选择一个元素作为目标偏置;根据所述目标偏置确定目标数据拥有者,将除所述目标数据拥有者外的其他数据拥有者的当前真值更新为当前真值与其偏置之差;根据所述方差计算得到权重,将所有所述数据拥有者的权重与当前真值之积相加,得到真值;根据所述真值,更新所述偏置和权重。2.根据权利要求1所述的真值发现方法,其特征在于,所述数据拥有者包括受保护的数据拥有者和非受保护的数据拥有者;所述对所述数据拥有者的偏置进行筛选得到偏置集合,包括:根据所述当前真值,通过统计分歧度模型计算得到统计分歧度;所述统计分歧度表示所述受保护的数据拥有者与所述非受保护的数据拥有者得到相同真值的概率差;将所述统计分歧度与所述偏置相乘,得到所述偏置的统计分歧度影响因子;响应于确定所述统计分歧度影响因子小于预定数值,确定加入该偏置至所述偏置集合中。3.根据权利要求2所述的真值发现方法,其特征在于,所述根据所述当前真值,通过统计分歧度模型计算得到统计分歧度,包括:将所述受保护的数据拥有者的当前真值与第一随机数相加得到估计当前真值,将预定对比数与所述第一随机数相加得到估计对比数,所述估计当前真值与所述估计对比数构成第一数量个数字对;对所述第一数量个数字对进行随机置换后,通过外部服务器计算所有第一数量个数字对中估计真值大于所述对比数的第一概率;将所述非受保护的数据拥有者的当前真值与第二随机数相加得到估计当前真值,将预定对比数与所述第二随机数相加得到估计对比数,所述估计当前真值与所述估计对比数构成第二数量个数字对;对所述第二数量个数字对进行随机置换后,通过外部服务器计算所有第二数量个数字对中所述估计真值大于所述对比数的第二概率;计算所述第一概率与所述第二概率的差值,得到所述统计分歧度。4.根据权利要求2所述的真值发现方法,其特征在于,所述将所述统计分歧度与所述偏置相乘,得到所述偏置的统计分歧度影响因子,包括:将所述统计分歧度与第三随机数相加,得到估计统计分歧度;将所述偏置与第四随机数相加,得到估计偏置;通过外部服务器计算所述估计统计分歧度与所述估计偏置的积,得到估计统计分歧度影响因子;根据所述估计统计分歧度影响因子,解算得到所述统计分歧度影响因子。5.根据权利要求2

4中...

【专利技术属性】
技术研发人员:苏森程祥王振亚
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1