防止隐私数据泄漏的编码模型训练方法及装置制造方法及图纸

技术编号：23891313 阅读：12 留言：0更新日期：2020-04-22 06:35

本说明书实施例提供一种编码模型训练方法，该方法包括：首先，获取多个训练样本，其中每个训练样本包括表征对应目标对象身份信息的隐私数据和对象标识；然后，将多个训练样本分别输入编码模型中，得到多个特征向量；接着，将多个特征向量分别输入用于确定目标对象身份的分类模型、用于反推隐私数据的解码模型和用于区分不同目标对象的区分模型，以对应确定分类损失、解码损失和区分损失；再然后，以最大化分类损失和解码损失，以及最小化区分损失为目标，对编码模型调参。此外，还披露一种目标对象身份识别方法，利用训练好的编码模型对采集的隐私数据进行编码，并对得到的特征向量进行传输、存储和比对使用。如此，可以有效防止隐私数据的泄漏。

全部详细技术资料下载

【技术实现步骤摘要】
防止隐私数据泄漏的编码模型训练方法及装置
本说明书一个或多个实施例涉及将机器学习应用于数据安全的
，尤其涉及一种防止隐私数据泄漏的编码模型训练方法及装置、一种防止隐私数据泄漏的目标对象身份识别方法。
技术介绍
在许多场景下，都涉及通过采集目标对象(如用户或设备等)的隐私数据，来对该目标对象进行身份识别或身份核验。例如，在人脸支付场景下，可以通过采集用户的人脸信息，识别该用户的身份(如支付系统中的用户ID)，以根据该身份查找到对应支付账户，完成相应订单的支付。又例如，在用户行为分析场景下，可以通过采集终端设备在使用过程中产生的传感器数据等，识别该设备的身份(如数据分析系统为该设备分配的设备ID)，以建立用户与设备之间的映射关系。显然，这些场景下，对身份识别的准确性都提出较高的要求。然而，在以上身份识别过程中涉及的针对隐私数据的采集、传输、存储和使用环节，均存在隐私数据泄漏的风险。因此，迫切需要一种合理、可靠的方案，可以在保证针对目标对象进行身份识别的准确性的同时，有效降低隐私数据泄漏的风险。
技术实现思路
本说明书一个或多个实施例描述了一种防止隐私数据泄漏的编码模型训练方法及装置，以及一种防止隐私数据泄漏的目标对象身份识别方法及装置，可以在保证针对目标对象进行身份识别的准确性的同时，有效降低隐私数据泄漏的风险。根据第一方面，提供一种防止隐私数据泄漏的编码模型训练方法，该方法包括：获取多个训练样本组，包括任意的第一样本组，所述第一样本组包括第一样本对和第二样本对，所述第一样本对包...

【技术保护点】
1.一种防止隐私数据泄漏的编码模型训练方法，包括：/n获取多个训练样本组，包括任意的第一样本组，所述第一样本组包括第一样本对和第二样本对，所述第一样本对包括第一训练样本和第二训练样本，其中第一训练样本包括表征第一目标对象身份信息的第一隐私数据和第一对象标识；所述第二训练样本具有所述第一对象标识，所述第二样本对的两个样本具有不同对象标识；/n将所述第一样本组中各训练样本对应的隐私数据分别输入编码模型，得到对应的多个特征向量，其中包括对应于所述第一训练样本的第一特征向量；/n将所述第一特征向量输入用于确定目标对象身份的分类模型，得到第一分类结果，基于所述第一分类结果和所述第一对象标识，确定第一分类损失；/n将所述第一特征向量输入用于反推隐私数据的解码模型，得到第一反推数据，基于所述第一反推数据和所述第一隐私数据，确定第一解码损失；/n将所述第一样本组中各训练样本对应的特征向量输入用于区分不同目标对象的区分模型，得到所述第一样本对中样本之间的第一样本距离，以及第二样本对中样本之间的第二样本距离，并且，确定第一区分损失，所述第一区分损失与所述第一样本距离正相关，且与所述第二样本距离负相关；/n...

【技术特征摘要】
1.一种防止隐私数据泄漏的编码模型训练方法，包括：
获取多个训练样本组，包括任意的第一样本组，所述第一样本组包括第一样本对和第二样本对，所述第一样本对包括第一训练样本和第二训练样本，其中第一训练样本包括表征第一目标对象身份信息的第一隐私数据和第一对象标识；所述第二训练样本具有所述第一对象标识，所述第二样本对的两个样本具有不同对象标识；
将所述第一样本组中各训练样本对应的隐私数据分别输入编码模型，得到对应的多个特征向量，其中包括对应于所述第一训练样本的第一特征向量；
将所述第一特征向量输入用于确定目标对象身份的分类模型，得到第一分类结果，基于所述第一分类结果和所述第一对象标识，确定第一分类损失；
将所述第一特征向量输入用于反推隐私数据的解码模型，得到第一反推数据，基于所述第一反推数据和所述第一隐私数据，确定第一解码损失；
将所述第一样本组中各训练样本对应的特征向量输入用于区分不同目标对象的区分模型，得到所述第一样本对中样本之间的第一样本距离，以及第二样本对中样本之间的第二样本距离，并且，确定第一区分损失，所述第一区分损失与所述第一样本距离正相关，且与所述第二样本距离负相关；
以最大化所述多个训练样本组对应的分类损失和解码损失，以及最小化所述多个训练样本对应的区分损失为目标，调整所述编码模型中的模型参数。

2.根据权利要求1所述的方法，其中，所述目标对象包括用户，所述身份信息包括以下中的一种或多种：人脸图像、指纹图像、虹膜图像。

3.根据权利要求1所述的方法，其中，所述目标对象包括设备，所述身份信息包括以下中的一种或多种：国际移动设备识别码IMEI、用户识别卡SIM的卡号、设备传感器信息。

4.根据权利要求1所述的方法，其中，所述第二样本对包括所述第一训练样本和第三训练样本；其中将所述第一样本组中各训练样本对应的特征向量输入用于区分不同目标对象的区分模型，得到所述第一样本对中样本之间的第一样本距离，以及第二样本对中样本之间的第二样本距离，包括：
将所述第一训练样本、所述第二训练样本和所述第三训练样本各自对应的特征向量按照预设顺序拼接后，输入所述区分模型，得到所述第一样本距离以及所述第二样本距离。

5.根据权利要求1所述的方法，其中，所述第二样本对包括第三训练样本和第四训练样本；其中将所述第一样本组中各训练样本对应的特征向量输入用于区分不同目标对象的区分模型，得到所述第一样本对中样本之间的第一样本距离，以及第二样本对中样本之间的第二样本距离，包括：
将所述第一训练样本、第二训练样本、第三训练样本和第四训练样本各自对应的特征向量按照预设顺序拼接后，输入所述区分模型，得到所述第一样本距离以及所述第二样本距离。

6.根据权利要求1所述的方法，其中，在确定第一区分损失之后，所述方法还包括：
以最小化所述多个训练样本组对应的分类损失为目标，调整所述分类模型中参数；和/或，
以最小化所述多个训练样本组对应的解码损失为目标，调整所述解码模型中的参数；和/或，
以最小化所述多个训练样本组对应的区分损失为目标，调整所述区分模型中的参数。

7.根据权利要求1所述的方法，其中，以最大化所述多个训练样本对应的分类损失和解码损失，以及最小化所述多个训练样本对应的区分损失为目标，调整所述编码模型中的模型参数，包括：
基于预先设定的针对所述分类损失、解码损失和区分损失的权重参数，对所述分类损失、解码损失和区分损失进行加权求和，得到综合损失，所述综合损失与所述分类损失和解码损失负相关，且与所述区分损失正相关；
基于所述综合损失，调整所述编码模型中的模型参数。

8.一种防止隐私数据泄漏的目标对象身份识别方法，所述方法的执行主体为服务器，所述识别方法包括：
从终端接收第二特征向量，所述第二特征向量由所述终端将采集的第二隐私数据输入编码模型而确定；其中所述编码模型基于权利要求1所述的方法而预先训练得到；
将所述第二特征向量与所述服务器中预先存储的对应于多个目标对象的多个特征向量进行比对，得到比对结果，用于判别针对所述第二隐私数据所对应目标对象的身份识别是否成功；其中所述多个特征向量通过将所述多个目标对象的多条历史隐私数据输入所述编码模型而得到。

9.根据权利要求8所述的识别方法，其中，在将所述第二特征向量与所述服务器中预先存储的对应于多个目标对象的多个特征向量进行比对，得到比对结果之后，所述识别方法还包括：
将所述比对结果发送至所述终端。

10.根据权利要求8或9所述的识别方法，其中，将所述第二特征向量与所述服务器中预先存储的对应于多个目标对象的多个特征向量进行比对，得到比对结果，包括：
分别计算所述第二特征向量与所述多个特征向量中各个特征向量之间的相似度，并确定其中的最大值；
在所述最大值大于预设阈值的情况下，判定针对所述第二隐私数据所对应目标对象的身份识别成功，作为所述比对结果。

11.根据权利要求9所述的方法，其中，将所述第二特征向量与所述服务器中预先存储的多个目标对象的多个特征向量进行比对，得到比对结果，包括：
分别计算所述第二特征向量与所述多个特征向量中各个特征向量之间的相似度，并确定其中的最大值，作为所述比对结果；
其中将所述比对结果发送至所述终端，包括：
将所述最大值发送至所述终端，以使所述终端根据所述最大值和预设阈值，判别针对所述第二隐私数据所对应目标对象的身份识别是否成功。

12.一种防止隐私数据泄漏的目标对象识别方法，所述方法的执行主体为终端，所述识别方法包括：
采集第二隐私数据；
将所述第二隐私数据输入编码模型，得到第二特征向量，所述编码模型基于权利要求1所述的方法而预先训练得到；
将所述第二特征向量发送至服务器，以使所述服务器将所述第二特征向量与所述服务器中预先存储的对应于多个目标对象的多个特征向量进行比对，得到比对结果，用于判别针对所述第二隐私数据所对应目标对象的身份识别是否成功。

13.根据权利要求12所述的方法，其中，所述比对结果包括所述第二特征向量与所述多个特征向量中各个特征向量之间相似度的最大值，在将所述第二特征向量发送至服务器之后，所述方法还包括：
从所述服务器接收所述最大值；
在所述最大值大于预设阈值的情况下，判定针对所述第二隐私数据所对应目标对象的身份识别成功。...

【专利技术属性】
技术研发人员：石磊磊，熊涛，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人