一种安全的特征工程方法和装置制造方法及图纸

技术编号:21659156 阅读:21 留言:0更新日期:2019-07-20 05:45
本公开提供了一种安全的特征工程方法和装置。第一设备可向第二设备传送第一数据集,第一数据集包含多个数据对象的标签信息的密文。第二设备可对包含该多个数据对象的特征数据的第二数据集进行特征工程处理以生成第二数据集的子集。第二设备可根据第二数据集的子集来生成第一数据集之中相应数据对象的标签信息的密文子集,将密文子集的密文发送给第一设备。第一设备可解密该密文子集并生成统计信息,将该统计信息发送给第二设备。第二设备可使用该统计信息来计算特征工程指标。本公开还提供了相应的特征工程装置。

A Safe Feature Engineering Method and Device

【技术实现步骤摘要】
一种安全的特征工程方法和装置
本公开涉及特征工程,尤其涉及一种安全的特征工程方法和装置。
技术介绍
建模过程需要对样本数据先进行基本的特征工程处理,然后用经过特征工程处理的数据集进行模型训练。特征工程是指从原始数据转换为特征向量的过程。特征工程是机器学习中最重要的起始步骤,会直接影响机器学习的效果,并通常需要大量的时间。典型的特征工程包括数据清理、特征离散化、特征提取、特征选择等过程。在大数据场景下,数据通常是分布式存储的,而特征工程处理需要把各方的建模样本数据融合在一起。例如,在进行数据分箱时,需要特征数据和标签信息配合才能完成。而在联合建模场景中,一般存在其中一方拥有特征数据,另一方拥有标签信息而没有或有少量不齐全的特征数据的情况,这就需要建模合作方的样本数据共同协作来完成特征工程处理,例如分箱及分箱指标统计。因此,在进行联合建模的场景中,数据合作双方需要把建模的样本数据融合在一起,才能进行特征工程处理。但这样做,数据合作双方的样本数据需要对外输出,存在隐私数据泄漏问题。现有技术中解决上述问题的一种方案是将数据集中到其中一方进行数据融合,并进一步做特征工程处理。这种方案的缺点是不安全,完全暴露了隐私数据明文,泄漏了数据隐私,而且还存在数据被恶意传播或售卖等风险。现有技术中解决上述问题的另一种方案是寻找一个安全可信的第三方,在安全环境中导入各方数据,在一个安全沙箱环境的公有云/第三方等环境中进行数据融合,集中进行特征工程处理。这种方案的缺点是数据明文仍然需要对外输出,不能完全杜绝隐私数据的泄漏问题,也不能解决本身的数据信任问题。此外,完全可信的第三方难求,数据/模型导入到可信第三方的传输过程中也有数据传输安全隐患。不仅如此,在可信第三方存在操作权限问题,对数据出入的安全检查粒度难把控,特征工程处理结果也可能被泄漏。因此,本领域需要一种安全的特征工程方法和装置。
技术实现思路
本公开提供了安全的特征工程方法和装置,使得合作方均不必泄漏自己的隐私数据明文,但最终能完成特征工程处理。例如,第一设备可向第二设备传送第一数据集,第一数据集包含多个数据对象的标签信息的密文。第二设备可对包含该多个数据对象的特征数据的第二数据集进行特征工程处理以生成第二数据集的子集。第二设备可根据第二数据集的子集来生成第一数据集之中相应数据对象的标签信息的密文子集,将密文子集的密文发送给第一设备。第一设备可解密该密文子集并生成统计信息,将该统计信息发送给第二设备。第二设备可使用该统计信息来计算特征工程指标。根据本公开的一个实施例,提供了一种特征工程方法,其包括:接收第一数据集,第一数据集包含多个数据对象的标签信息的密文;对第二数据集进行特征工程处理以生成第二数据集的子集,第二数据集包含所述多个数据对象的特征数据;根据所述第二数据集的子集中所包含的数据对象来生成第一数据集之中相应数据对象的标签信息的密文子集;将所述密文子集的密文发送给第一设备;从第一设备接收在解密所述密文子集的密文后生成的统计信息;以及使用所述统计信息来计算对第二数据集进行的特征工程处理的特征工程指标。在一方面,该方法还包括:根据所述特征工程指标来生成特征工程结果;以及将所述特征工程结果发送给第一设备。在一方面,所述特征工程处理包括对第二数据集进行特征选择以生成第二数据集的特征数据子集,其中计算特征工程指标包括利用所述特征数据子集与所述统计信息来计算特征选择指标。在一方面,所述特征工程处理包括对第二数据集进行分箱以生成多个分箱段,并且所述密文子集包括与所述多个分箱段相对应的多个密文子集,其中每个密文子集包括第一数据集之中的落在相应分箱段中的数据对象的标签信息密文,其中计算特征工程指标包括利用所述第二数据集的分箱段与所述统计信息来计算分箱指标。在一方面,第一数据集的标签信息的密文是使用同态加密对所述标签信息进行加密来生成的,所述标签信息为二元值,并且将所述密文子集的密文发送给第一设备包括:对所述密文子集中的密文进行同态加法以得到密文总和并将所述密文总和发送给第一设备。在一方面,第一数据集和第二数据集之中的数据对象分别具有相关联的标识符,所述方法还包括在生成所述第二数据集的子集之前对第一数据集和第二数据集进行标识符匹配,以使得第一数据集的标签信息与第二数据集的特征数据对应于相同的多个数据对象。在一方面,所述统计信息包括所述密文子集的正样本数、和/或负样本数。在一方面,对第二数据集进行特征工程处理是在接收第一数据集之前、之时、或之后发生的。在一方面,所述特征工程指标包括以下至少一者:所述第二数据集的子集的正样本率、所述第二数据集的子集的负样本率、所述第二数据集的子集与所述密文子集中的标签信息的相关度、所述第二数据集的子集的信息价值、所述第二数据集的子集的证据权重。根据本公开的另一个实施例,提供了一种特征工程方法,其包括:提供第一数据集,第一数据集包含多个数据对象的标签信息的密文;接收第一数据集的密文子集的密文,所述密文子集是根据对第二数据集进行的特征工程处理来生成的,第二数据集包含所述多个数据对象的特征数据,其中对第二数据集进行的特征工程处理生成第二数据集的子集,其中所述密文子集包含第一数据集之中的与所述第二数据集的子集相同的数据对象的标签信息密文;解密所述密文子集的密文并生成所述密文子集的统计信息;以及提供所述统计信息以用于计算对第二数据集的特征工程处理的特征工程指标。在一方面,所述方法还包括:接收根据所述特征工程指标生成的第一特征工程结果。在一方面,所述方法还包括:使用所述第一数据集的标签信息和第三数据集的特征数据来执行所述特征工程处理以生成第二特征工程结果;以及组合第一特征工程结果和第二特征工程结果以获得组合的特征工程结果。在一方面,所述特征工程处理包括对第二数据集进行特征选择以生成第二数据集的特征数据子集,其中计算特征工程指标包括利用所述特征数据子集与所述统计信息来计算特征选择指标。在一方面,所述特征工程处理包括对第二数据集进行分箱以生成多个分箱段,并且所述密文子集包括与所述多个分箱段相对应的多个密文子集,其中每个密文子集包括第一数据集之中的落在相应分箱段中的数据对象的标签信息密文,所述计算特征工程指标包括利用所述第二数据集的分箱段与所述统计信息来计算分箱指标。在一方面,第一数据集的标签信息的密文是使用同态加密对所述标签信息进行加密来生成的,所述标签信息为二元值,所述密文子集的密文包括将所述密文子集中的密文进行同态加法得到的密文总和。在一方面,第一数据集和第二数据集之中的数据对象分别具有相关联的标识符,所述方法还包括在生成所述第二数据集的子集之前对第一数据集和第二数据集进行标识符匹配,以使得第一数据集的标签信息与第二数据集的特征数据对应于相同的多个数据对象。在一方面,所述统计信息包括所述密文子集的正样本数、和/或负样本数。在一方面,所述特征工程指标包括以下至少一者:所述第二数据集的子集的正样本率、所述第二数据集的子集的负样本率、所述第二数据集的子集与所述密文子集中的标签信息的相关度、所述第二数据集的子集的信息价值、所述第二数据集的子集的证据权重。根据本公开的另一个实施例,提供了一种特征工程装置,其包括:传输模块,其接收第一数据集,第一数据集包含多个数据对本文档来自技高网
...

【技术保护点】
1.一种特征工程方法,其特征在于,包括:接收第一数据集,第一数据集包含多个数据对象的标签信息的密文;对第二数据集进行特征工程处理以生成第二数据集的子集,第二数据集包含所述多个数据对象的特征数据;根据所述第二数据集的子集中所包含的数据对象来生成第一数据集之中相应数据对象的标签信息的密文子集;将所述密文子集的密文发送给第一设备;从第一设备接收在解密所述密文子集的密文后生成的统计信息;以及使用所述统计信息来计算对第二数据集进行的特征工程处理的特征工程指标。

【技术特征摘要】
1.一种特征工程方法,其特征在于,包括:接收第一数据集,第一数据集包含多个数据对象的标签信息的密文;对第二数据集进行特征工程处理以生成第二数据集的子集,第二数据集包含所述多个数据对象的特征数据;根据所述第二数据集的子集中所包含的数据对象来生成第一数据集之中相应数据对象的标签信息的密文子集;将所述密文子集的密文发送给第一设备;从第一设备接收在解密所述密文子集的密文后生成的统计信息;以及使用所述统计信息来计算对第二数据集进行的特征工程处理的特征工程指标。2.如权利要求1所述的特征工程方法,其特征在于,还包括:根据所述特征工程指标来生成特征工程结果;以及将所述特征工程结果发送给第一设备。3.如权利要求1所述的特征工程方法,其特征在于,所述特征工程处理包括对第二数据集进行特征选择以生成第二数据集的特征数据子集,其中计算特征工程指标包括利用所述特征数据子集与所述统计信息来计算特征选择指标。4.如权利要求1所述的特征工程方法,其特征在于,所述特征工程处理包括对第二数据集进行分箱以生成多个分箱段,并且所述密文子集包括与所述多个分箱段相对应的多个密文子集,其中每个密文子集包括第一数据集之中的落在相应分箱段中的数据对象的标签信息密文,其中计算特征工程指标包括利用所述第二数据集的分箱段与所述统计信息来计算分箱指标。5.如权利要求1所述的特征工程方法,其特征在于,第一数据集的标签信息的密文是使用同态加密对所述标签信息进行加密来生成的,所述标签信息为二元值,并且将所述密文子集的密文发送给第一设备包括:对所述密文子集中的密文进行同态加法以得到密文总和并将所述密文总和发送给第一设备。6.如权利要求1所述的特征工程方法,其特征在于,第一数据集和第二数据集之中的数据对象分别具有相关联的标识符,所述方法还包括在生成所述第二数据集的子集之前对第一数据集和第二数据集进行标识符匹配,以使得第一数据集的标签信息与第二数据集的特征数据对应于相同的多个数据对象。7.如权利要求1所述的特征工程方法,其特征在于,所述统计信息包括所述密文子集的正样本数、和/或负样本数。8.如权利要求1所述的特征工程方法,其特征在于,对第二数据集进行特征工程处理是在接收第一数据集之前、之时、或之后发生的。9.如权利要求1所述的特征工程方法,其特征在于,所述特征工程指标包括以下至少一者:所述第二数据集的子集的正样本率、所述第二数据集的子集的负样本率、所述第二数据集的子集与所述密文子集中的标签信息的相关度、所述第二数据集的子集的信息价值、所述第二数据集的子集的证据权重。10.一种特征工程方法,其特征在于,包括:提供第一数据集,第一数据集包含多个数据对象的标签信息的密文;接收第一数据集的密文子集的密文,所述密文子集是根据对第二数据集进行的特征工程处理来生成的,第二数据集包含所述多个数据对象的特征数据,其中对第二数据集进行的特征工程处理生成第二数据集的子集,其中所述密文子集包含第一数据集之中的与所述第二数据集的子集相同的数据对象的标签信息密文;解密所述密文子集的密文并生成所述密文子集的统计信息;以及提供所述统计信息以用于计算对第二数据集的特征工程处理的特征工程指标。11.如权利要求10所述的特征工程方法,其特征在于,所述方法还包括:接收根据所述特征工程指标生成的第一特征工程结果。12.如权利要求11所述的特征工程方法,其特征在于,所述方法还包括:使用所述第一数据集的标签信息和第三数据集的特征数据来执行所述特征工程处理以生成第二特征工程结果;以及组合第一特征工程结果和第二特征工程结果以获得组合的特征工程结果。13.如权利要求10所述的特征工程方法,其特征在于,所述特征工程处理包括对第二数据集进行特征选择以生成第二数据集的特征数据子集,其中计算特征工程指标包括利用所述特征数据子集与所述统计信息来计算特征选择指标。14.如权利要求10所述的特征工程方法,其特征在于,所述特征工程处理包括对第二数据集进行分箱以生成多个分箱段,并...

【专利技术属性】
技术研发人员:林文珍
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1