卡方检验方法、装置、服务器以及存储介质制造方法及图纸

技术编号:33130721 阅读:54 留言:0更新日期:2022-04-17 00:47
本申请提供一种卡方检验方法、装置、服务器以及存储介质,获取本地样本数据在不同第一分类变量下各个第二分类变量对应的样本观测频数,并对样本观测频数进行卡方检验分片处理,获取第一分类变量以及第二分类变量间的第一卡方值分片数据,在接收参与节点发送的第二卡方值分片数据后,根据第一卡方值分片数据以及第二卡方值分片数据,获取卡方检验结果。通过卡方检验的发起节点以及参与节点各自对服务器本地的本地样本数据进行卡方检验分片处理,以获取用于描述分类变量间相关性的卡方值分片数据,后续发起节点基于各个卡方值分片数据重构卡法校验结果,实现在不同节点的明文数据不出库的情况下获取卡方检验结果,且避免噪声的引入,提高精确度。提高精确度。提高精确度。

【技术实现步骤摘要】
卡方检验方法、装置、服务器以及存储介质


[0001]本申请涉及隐私数据处理
,具体涉及一种卡方检验方法、装置、计算机设备以及存储介质。

技术介绍

[0002]卡方检验是常用的统计学算法之一,可以检验变量之间是否据有相关性,在工业,互联网,医疗,交通和金融等等方面都有巨大的应用,如,在医疗行业中,可通过卡方检验计算某种癌症患病率和性别是否有关。但在,卡方检验往往需要大量样本数据,而样本数据往往由不同的持有方持有,不同的样本数据出于隐私保护并不会直接分享本地存储的样本数据。
[0003]现有的针对隐私数据的卡方检验往往是基于差分隐私算法实现的,差分隐私算法是通过增加不改变原有数据分布的噪声来实现隐私保护,由于噪声的增加,导致基于差分隐私算法的卡方检验精确度低。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种卡方检验方法、装置、计算机设备以及存储介质,用以实现在不同节点的明文数据不出库的情况下获取卡方检验结果的同时,避免噪声的引入,提高卡方检验的精确度。
[0005]第一方面,本申请提供一种卡方检验方法,应用于与发起节点对应的服务器,包括:
[0006]获取本地样本数据在不同第一分类变量下各个第二分类变量对应的样本观测频数,并对样本观测频数进行卡方检验分片处理,获取第一分类变量以及第二分类变量间的第一卡方值分片数据;
[0007]接收参与节点发送的第二卡方值分片数据;
[0008]根据第一卡方值分片数据以及第二卡方值分片数据,获取卡方检验结果,卡方检验结果用于标识不同分类变量间的相关性。
[0009]在本申请一些实施例中,对样本观测频数进行卡方检验分片处理,获取第一分类变量以及第二分类变量间的第一卡方值分片数据,包括:
[0010]获取本地样本数据中在各个第一分类变量下的第一本地样本统计频数和在各个第二分类变量下的第二本地样本统计频数;
[0011]接收参与节点发送的在各个第一分类变量下的第一远程样本统计频数和在各个第二分类变量下的第二远程样本统计频数;
[0012]根据第一本地样本统计频数、第二本地样本统计频数、第一远程样本统计频数以及第二远程样本统计频数,获取在不同第一分类变量下各个第二分类变量下的样本期望频数;
[0013]基于在不同第一分类变量下各个第二分类变量对应的样本期望频数以及样本观
测频数,获取第一卡方值分片数据。
[0014]在本申请一些实施例中,基于在不同第一分类变量下各个第二分类变量对应的样本期望频数以及样本观测频数,获取第一卡方值分片数据,包括:
[0015]分别将不同第一分类变量下不同第二分类变量对应的类别确定为目标样本类别,基于目标样本类别的样本观测频数以及目标样本类别的样本期望频数,获取目标样本类别的偏离度分片数据;
[0016]将各目标样本类别的偏离度分片数据的和值,确定为第一卡方值分片数据。
[0017]在本申请一些实施例中,对样本观测频数进行卡方检验分片处理,获取第一分类变量以及第二分类变量间的第一卡方值分片数据,包括:
[0018]对样本观测频数进行分片操作,得到第一本地分片数据以及第一远程分片数据,并将第一远程分片数据分发至参与节点中;
[0019]获取参与节点分发的第二远程分片数据,基于第二远程分片数据以及第一本地分片数据,获取第一偏离度分片项;
[0020]将第一偏离度分片项发送至聚合方服务器,第一偏离度分片项用于指示聚合方服务器基于第一偏离度分片项获取第二偏离度分片项;
[0021]根据样本观测频数以及第二偏离度分片项,获取第一分类变量以及第二分类变量间的第一卡方值分片数据。
[0022]在本申请一些实施例中,根据第一卡方值分片数据以及第二卡方值分片数据,获取卡方检验结果,包括:
[0023]获取第一卡方值分片数据与第二卡方值分片数据的和值,得到卡方值;
[0024]根据卡方值以及预设自由度,获取卡方检验结果。
[0025]第二方面,本申请提供一种卡方检验方法,应用于与参与节点对应的服务器,包括:
[0026]获取本地样本数据在不同第一分类变量下各个第二分类变量对应的样本观测频数,并对样本观测频数进行卡方检验分片处理,获取第一分类变量以及第二分类变量间的第二卡方值分片数据;
[0027]将第二卡方值分片数据发送至发起节点,第二卡方值分片数据用于指示发起节点根据第二卡方值分片数据,获取卡方检验结果,卡方检验结果用于标识不同分类变量间的相关性。
[0028]第三方面,本申请提供一种卡方检验装置,应用于与发起节点对应的服务器,包括:
[0029]第一分片计算模块,用于获取本地样本数据在不同第一分类变量下各个第二分类变量对应的样本观测频数,并对样本观测频数进行卡方检验分片处理,获取第一分类变量以及第二分类变量间的第一卡方值分片数据;
[0030]分片结果接收模块,用于接收参与节点发送的第二卡方值分片数据;
[0031]检验结果获取模块,用于根据第一卡方值分片数据以及第二卡方值分片数据,获取卡方检验结果,卡方检验结果用于标识不同分类变量间的相关性。
[0032]第四方面,本申请提供一种卡方检验装置,应用于与参与节点对应的服务器,包括:
[0033]第二分片计算模块,用于获取本地样本数据在不同第一分类变量下各个第二分类变量对应的样本观测频数,并对样本观测频数进行卡方检验分片处理,获取第一分类变量以及第二分类变量间的第二卡方值分片数据;
[0034]分片结果发送模块,用于将第二卡方值分片数据发送至发起节点,第二卡方值分片数据用于指示发起节点根据第二卡方值分片数据,获取卡方检验结果,卡方检验结果用于标识不同分类变量间的相关性。
[0035]第五方面,本申请还提供一种服务器,服务器包括:
[0036]一个或多个处理器;
[0037]存储器;以及
[0038]一个或多个应用程序,其中一个或多个应用程序被存储于存储器中,并配置为由处理器执行以实现的卡方检验方法。
[0039]第六方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行上述的卡方检验方法中的步骤。
[0040]第七方面,本申请实施例提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面或第二方面提供的方法。
[0041]上述卡方检验方法、装置、服务器以及存储介质,获取本地样本数据在不同第一分类变量下各个第二分类变量对应的样本观测频数,并对样本观测频数进行卡方检验分片处理,获取第一分类变量以及第二分类变量间的第一卡方值分片数据,在接收参与节点发送的第二卡方值分片数据后,根据第一卡方值分片数据以及第二卡本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种卡方检验方法,其特征在于,应用于与发起节点对应的服务器,所述方法包括:获取本地样本数据在不同第一分类变量下各个第二分类变量对应的样本观测频数,并对所述样本观测频数进行卡方检验分片处理,获取所述第一分类变量以及所述第二分类变量间的第一卡方值分片数据;接收参与节点发送的第二卡方值分片数据;根据所述第一卡方值分片数据以及所述第二卡方值分片数据,获取卡方检验结果,所述卡方检验结果用于标识不同分类变量间的相关性。2.根据权利要求1所述的方法,其特征在于,所述对所述样本观测频数进行卡方检验分片处理,获取所述第一分类变量以及所述第二分类变量间的第一卡方值分片数据,包括:获取所述本地样本数据中在各个所述第一分类变量下的第一本地样本统计频数和在各个所述第二分类变量下的第二本地样本统计频数;接收所述参与节点发送的在各个所述第一分类变量下的第一远程样本统计频数和在各个所述第二分类变量下的第二远程样本统计频数;根据所述第一本地样本统计频数、第二本地样本统计频数、第一远程样本统计频数以及第二远程样本统计频数,获取在不同第一分类变量下各个第二分类变量下的样本期望频数;基于在不同第一分类变量下各个第二分类变量对应的样本期望频数以及所述样本观测频数,获取所述第一卡方值分片数据。3.根据权利要求2所述的方法,其特征在于,所述基于在不同第一分类变量下各个第二分类变量对应的样本期望频数以及所述样本观测频数,获取第一卡方值分片数据,包括:分别将不同第一分类变量下不同第二分类变量对应的类别确定为目标样本类别,基于所述目标样本类别的样本观测频数以及所述目标样本类别的样本期望频数,获取所述目标样本类别的偏离度分片数据;将各所述目标样本类别的偏离度分片数据的和值,确定为所述第一卡方值分片数据。4.根据权利要求1所述的方法,其特征在于,所述对所述样本观测频数进行卡方检验分片处理,获取所述第一分类变量以及所述第二分类变量间的第一卡方值分片数据,包括:对所述样本观测频数进行分片操作,得到第一本地分片数据以及第一远程分片数据,并将所述第一远程分片数据分发至所述参与节点中;获取所述参与节点分发的第二远程分片数据,基于所述第二远程分片数据以及所述第一本地分片数据,获取第一偏离度分片项;将所述第一偏离度分片项发送至聚合方服务器,所述第一偏离度分片项用于指示所述聚合方服务器基于所述第一偏离度分片项获取并返回第二偏离度分片项;根据所述样本观测频数以及所述第二偏离度分片项,获取所述第一分类变量以及所述第二分类变量间的第一卡方值...

【专利技术属性】
技术研发人员:邱炜伟汪小益刘毅恒李伟张帅
申请(专利权)人:杭州趣链科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1