单变量处理方法及变量筛选方法技术

技术编号:34019743 阅读:8 留言:0更新日期:2022-07-02 16:38
本发明专利技术实施例涉及一种单变量处理方法及变量筛选方法,第一数据端通过获取因变量与因变量均值的差值,并将所述差值发送给第二数据端;接收第二数据端发送的第三参数和加密的第四参数;根据第三参数和因变量均值获得所述一元线性回归模型的常数项;根据加密的第四参数、常数项以及因变量获得加密的残差平方和,并根据所述因变量与因变量均值的差值获得离差平方和;根据加密的残差平方和、离差平方和获得与所述自变量对应的加密的第一相关性系数,并将加密的第一相关性系数发送给第二数据端进行解密;接收第二数据端发送的解密的第一相关性系数,并输出第一相关性系数;即本发明专利技术实施例能够有效分析联邦场景下的自变量和因变量的线性相关程度。变量的线性相关程度。变量的线性相关程度。

【技术实现步骤摘要】
单变量处理方法及变量筛选方法


[0001]本专利技术涉及计算机
,尤其涉及一种单变量处理方法及变量筛选方法。

技术介绍

[0002]联邦学习框架是一种分布式的人工智能模型训练框架,能够帮助不同数据拥有方在无需共享隐私数据的条件下实现联邦建模和联邦训练,能够有效解决数据安全和数据孤岛问题。
[0003]特征工程是机器学习建模中最重要的一环,是指将原始数据加工为模型训练数据的过程,其一般包括特征预处理、特征选择及特征降维三个步骤。其中,在特征选择时,会采用特征单变量分析方法,分析每个特征的分布情况和对于标签的预测能力。而联邦场景下的单变量分析包括证据权重(Weight of Evidence,简称WOE)、信息价值(Information Value,简称IV)。
[0004]但是,WOE、IV等指标不能表示联邦场景下的自变量和因变量的线性相关程度。

技术实现思路

[0005]本专利技术提供了一种单变量处理方法及变量筛选方法,以解决现有技术中缺乏对联邦场景下的自变量和因变量的线性相关程度的描述。
[0006]第一方面,本专利技术提供了一种单变量处理方法,应用于单变量处理系统中的第一数据端,所述单变量处理系统包括所述第一数据端和第二数据端,其中,所述第一数据端存储有因变量,所述第二数据端存储有自变量;所述方法包括:获取因变量与因变量均值的差值,并将所述差值发送给第二数据端,所述差值用于计算由所述自变量和因变量构建的一元线性回归模型的回归系数;接收第二数据端发送的第三参数和加密的第四参数,其中,所述第三参数根据所述回归系数和自变量均值计算获得,所述第四参数根据所述回归系数和自变量计算获得;根据所述第三参数和因变量均值获得所述一元线性回归模型的常数项;根据所述加密的第四参数、常数项以及因变量获得加密的残差平方和,并根据所述因变量与因变量均值的差值获得离差平方和;根据所述加密的残差平方和、离差平方和获得与所述自变量对应的加密的第一相关性系数,并将所述加密的第一相关性系数发送给第二数据端进行解密;接收第二数据端发送的解密的第一相关性系数,并输出所述第一相关性系数。
[0007]作为可选的实施例,所述获取因变量与因变量均值的差值,并将所述差值发送给第二数据端,所述差值用于计算由所述自变量和因变量构建的一元线性回归模型的回归系数,包括:接收第二数据端发送的加密的第一参数,所述第一参数根据自变量和自变量均值计算获得;根据所述加密的第一参数、因变量与因变量均值的差值获得加密的第二参数,并将所述加密的第二参数发送给第二数据端进行解密,解密的第二参数用于计算由所述自变量和因变量构建的一元线性回归模型的回归系数。
[0008]作为可选的实施例,所述第二数据端包括第二密钥对,所述第二密钥对包括第二公钥和第二私钥;其中,所述加密的第四参数、加密的第一参数均通过所述第二公钥加密获
得;所述解密的第一相关性系数、解密的第二参数均通过所述第二私钥解密获得。
[0009]作为可选的实施例,所述第二数据端存储的自变量经过分箱处理;所述获取因变量与因变量均值的差值之前,还包括:将样本标识、与所述样本标识对应的且加密的样本标签值发送给第二数据端;接收第二数据端发送的加密的样本标签统计值,其中,所述加密的样本标签统计值是所述第二数据端根据样本标识对各箱的加密的样本标签值进行统计获得的;对所述加密的样本标签统计值进行解密处理,获得所述因变量。
[0010]作为可选的实施例,所述将样本标识、与所述样本标识对应的且加密的样本标签值发送给第二数据端之前,还包括:生成第一密钥对,所述第一密钥对包括第一公钥和第一私钥;通过所述第一公钥对样本标签值进行加密,获得所述加密的样本标签值;所述对所述加密的样本标签统计值进行解密处理,包括:通过所述第一私钥对所述加密的样本标签统计值进行解密处理。
[0011]作为可选的实施例,若所述第二数据端包括多个自变量,则迭代执行所述获取因变量与因变量均值的差值的步骤,直至输出每个自变量对应的第一相关性系数。
[0012]作为可选的实施例,所述输出每个自变量对应的第一相关性系数之后,还包括:选取第一相关性系数满足第一预设条件的自变量,构成候选数据集。
[0013]第二方面,本专利技术提供另一种单变量处理方法,应用于单变量处理系统中的第二数据端,所述单变量处理系统包括第一数据端和所述第二数据端,其中,所述第一数据端存储有因变量,所述第二数据端存储有自变量;所述方法包括:接收第一数据端发送的因变量与因变量均值的差值,并根据所述差值计算由所述自变量和因变量构建的一元线性回归模型的回归系数;根据所述回归系数和自变量均值获得第三参数,根据所述回归系数和自变量获得第四参数,并对第四参数进行加密处理;将所述第三参数、加密的第四参数发送给第一数据端,所述第三参数、加密的第四参数用于计算获得自变量对应的加密的第一相关性系数;接收第一数据端发送的所述加密的第一相关性系数,对所述加密的第一相关性系数进行解密,将解密的第一相关性系数发送给第一数据端,并输出所述第一相关性系数。
[0014]作为可选的实施例,所述接收第一数据端发送的因变量与因变量均值的差值,并根据所述差值计算由所述自变量和因变量构建的一元线性回归模型的回归系数,包括:根据自变量、自变量均值计算获得第一参数,并对第一参数进行加密,将加密的第一参数发送给第一数据端;接收第一数据端发送的加密的第二参数,其中,所述加密的第二参数根据加密的第一参数、因变量与因变量均值的差值计算获得;对所述加密的第二参数进行解密,并根据解密的第二参数计算由所述自变量和因变量构建的一元线性回归模型的回归系数。
[0015]作为可选的实施例,所述接收第一数据端发送的因变量与因变量均值的差值之前,还包括:对自变量进行分箱处理;接收第一数据端发送的样本标识、与所述样本标识对应的且加密的样本标签值;根据样本标识对各箱的加密的样本标签值进行统计,获得加密的样本标签统计值,并将所述加密的样本标签统计值发送给第一数据端进行解密,获得所述因变量。
[0016]第三方面,本专利技术提供一种第一数据端,包括第一处理模块、第一发送模块和第一发送模块:其中,所述第一处理模块,用于获取因变量与因变量均值的差值,并将所述差值通过所述第一发送模块发送给第二数据端,所述差值用于计算由自变量和因变量构建的一元线性回归模型的回归系数;所述第一接收模块,用于接收第二数据端发送的第三参数和
加密的第四参数,其中,所述第三参数根据所述回归系数和自变量均值计算获得,所述第四参数根据所述回归系数和自变量计算获得;第一处理模块,还用于根据所述第三参数和因变量均值获得所述一元线性回归模型的常数项;根据所述加密的第四参数、常数项以及因变量获得加密的残差平方和,并根据所述因变量与因变量均值的差值获得离差平方和;根据所述加密的残差平方和、离差平方和获得与所述自变量对应的加密的第一相关性系数,并将所述加密的第一相关性系数通过所述第一发送模块发送给第二数据端进行解密;所述第一接收模块,还用于接收第二数据端发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种单变量处理方法,其特征在于,应用于单变量处理系统中的第一数据端,所述单变量处理系统包括所述第一数据端和第二数据端,其中,所述第一数据端存储有因变量,所述第二数据端存储有自变量;所述方法包括:获取因变量与因变量均值的差值,并将所述差值发送给第二数据端,所述差值用于计算由所述自变量和因变量构建的一元线性回归模型的回归系数;接收第二数据端发送的第三参数和加密的第四参数,其中,所述第三参数根据所述回归系数和自变量均值计算获得,所述第四参数根据所述回归系数和自变量计算获得;根据所述第三参数和因变量均值获得所述一元线性回归模型的常数项;根据所述加密的第四参数、常数项以及因变量获得加密的残差平方和,并根据所述因变量与因变量均值的差值获得离差平方和;根据所述加密的残差平方和、离差平方和获得与所述自变量对应的加密的第一相关性系数,并将所述加密的第一相关性系数发送给第二数据端进行解密;接收第二数据端发送的解密的第一相关性系数,并输出所述第一相关性系数。2.根据权利要求1所述的方法,其特征在于,所述获取因变量与因变量均值的差值,并将所述差值发送给第二数据端,所述差值用于计算由所述自变量和因变量构建的一元线性回归模型的回归系数,包括:接收第二数据端发送的加密的第一参数,所述第一参数根据自变量和自变量均值计算获得;根据所述加密的第一参数、因变量与因变量均值的差值获得加密的第二参数,并将所述加密的第二参数发送给第二数据端进行解密,解密的第二参数用于计算由所述自变量和因变量构建的一元线性回归模型的回归系数。3.根据权利要求2所述的方法,其特征在于,所述第二数据端包括第二密钥对,所述第二密钥对包括第二公钥和第二私钥;其中,所述加密的第四参数、加密的第一参数均通过所述第二公钥加密获得;所述解密的第一相关性系数、解密的第二参数均通过所述第二私钥解密获得。4.根据权利要求1

3任一项所述的方法,其特征在于,所述第二数据端存储的自变量经过分箱处理;所述获取因变量与因变量均值的差值之前,还包括:将样本标识、与所述样本标识对应的且加密的样本标签值发送给第二数据端;接收第二数据端发送的加密的样本标签统计值,其中,所述加密的样本标签统计值是所述第二数据端根据样本标识对各箱的加密的样本标签值进行统计获得的;对所述加密的样本标签统计值进行解密处理,获得所述因变量。5.根据权利要求4所述的方法,其特征在于,所述将样本标识、与所述样本标识对应的且加密的样本标签值发送给第二数据端之前,还包括:生成第一密钥对,所述第一密钥对包括第一公钥和第一私钥;通过所述第一公钥对样本标签值进行加密,获得所述加密的样本标签值;所述对所述加密的样本标签统计值进行解密处理,包括:通过所述第一私钥对所述加密的样本标签统计值进行解密处理。6.根据权利要求1

3任一项所述的方法,其特征在于,若所述第二数据端包括多个自变量,则迭代执行所述获取因变量与因变量均值的差值的步骤,直至输出每个自变量对应的
第一相关性系数。7.根据权利要求6所述的方法,其特征在于,所述输出每个自变量对应的第一相关性系数之后,还包括:选取第一相关性系数满足第一预设条件的自变量,构成候选数据集。8.一种单变量处理方法,其特征在于,应用于单变量处理系统中的第二数据端,所述单变量处理系统包括第一数据端和所述第二数据端,其中,所述第一数据端存储有因变量,所述第二数据端存储有自变量;所述方法包括:接收第一数据端发送的因变量与因变量均值的差值,并根据所述差值计算由所述自变量和因变量构建的一元线性回归模型的回归系数;根据所述回归系数和自变量均值获得第三参数,根据所述回归系数和自变量获得第四参数,并对第四参数进行加密处理;将所述第三参数、加密的第四参数发送给第一数据端,所述第三参数、加密的第四参数用于计算获得自变量对应的加密的第一相关性系数;接收第一数据端发送的所述加密的第一相关性系数,对所述加密的第一相关性系数进行解密,将解密的第一相关性系数发送给第一数据端,并输出所述第一相关性系数。9.根据权利要求8所述的方法,其特征在于,所述接收第一数据端发送的因变量与因变量均值的差值,并根据所述差值计算由所述自变量和因变量构建的一元线性回归模型的回归系数,包括:根据自变量、自变量均值计算获得第一参数,并对第一参数进行加密,将加密的第一参数发送给第一数据端;接收第一数据端发送的加密的第二参数,其中,所述加密的第二参数根据加密的第一参数、因变量与因变量均值的差值计算获得;对所述加密的第二参数进行解密,并根据解密的第二参数计算由所述自变量和因变量构建的一元线性回归模型的回归系数。10.根据权利要求8或9所述的方法,其特征在于,所述接收第一数据端发送的因变量与因变量均值的差值之前,还包括:对自变量进行分箱处理;接收第一数据端发送的样本标识、与所述样本标识对应的且加密的样本标签值;根据样本标识对各箱的加密的样本标签值进行统计,获得加密的样本标签统计值,并将所述加密的样本标签统计值发送给第一数据端进行解密,获得所述因变量。11.一种第一数据端,其特征在于,包括第一处理模块、第一发送模块和第一接收模块:其中,所述第一处理模块,用于获取因变量与因变量均值的差值,并将所述差值通过所述第一发送模块发送给第二数据端,所述差值用于计算由自变量和因变量构建的一元线性回归模型的回归系数;所述第一接收模块,用于接收第二数据端发送的第三参数和加密的第四参数,其中,所述第三参数根据所述回归系数和自变量均值计算获得,所述第四参数根据所述回归系数和自变量计算获得;第一处理模块,还用于根据所述第三参数和因变量均值获得所述一元线性回归模型的常数项;根据所述加密的第四参数、常数项以及因变量获得加密的残差平方和,并根据所述
因变量与因变量均值的差值获得离差平方和;根据所述加密的残差平方和、离差平方和获得与所述自变量对应的加密的第一相关性系数,并将所述加密的第一相关性系数通过所述第一发送模块发送给第二数据端进行解密;所述第一接收模块,还用于接收第二数据端发送的解密的相关性系数,并输出所述相关性系数。12.一种第二数据端,其特征在于,包括第二处理模块、第二发送模块和第二接收模块;其中,所述第二接收模块,用于接收第一数据端发送的因变量与因变量均值的差值;所述第二处理模块用于根据所述差值计算由自变量和因变量构建的一元线性回归模型的回归系数;根据所述回归系数和自变量均值获得第三参数,根据所述回归系数和自变量获得第四参数,并对第四参数进行加密处理;所述第二发送模块,用于将所述第三参数、加密的第四参数发送给第一数据端,所述第三参数、加密的第四参数用于计算获得自变量对应的加密的相关性系数;所述第二接收模块还用于接收第一数据端发送的所述加密的第一相关性系数,通过所述第二处理模块对所述加密的第一相关性系数进行解密,并将解密的第一相关性系数通过第二发送模块发送给第一数据端。13.一种单变量处理系统,其特征在于,包括第一数据端和第二数据端;其中,所述第一数据端用于执行如权利要求1

7任一项所述的方法,所述第二数据端用于执行如权利要求8

10任一项所述的方法。14.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,...

【专利技术属性】
技术研发人员:陈行张德彭南博
申请(专利权)人:京东科技控股股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1