基于联邦学习的样本评估方法及其装置制造方法及图纸

技术编号：39642691 阅读：6 留言：0更新日期：2023-12-09 11:10

本发明专利技术公开了一种基于联邦学习的样本评估方法及其装置

全部详细技术资料下载

【技术实现步骤摘要】
基于联邦学习的样本评估方法及其装置、电子设备

[0001]本专利技术涉及人工智能领域及其他相关
，具体而言，涉及一种基于联邦学习的样本评估方法及其装置
、
电子设备
。

技术介绍

[0002]金融行业的业务数据量大，且各金融机构为了评估用户的业务风险，常常需要与第三方机构或其他金融机构进行合作，获取相关数据，在此基础上，隐私求交在金融行业得到广泛应用，通过隐私求交计算可以获取双方共有的交集数据，从而辅助金融机构对金融业务进行风险评估
。
[0003]在隐私求交过程中，常常会遇到数据样本分布不均的问题，例如在非法资金转移等场景，正负样本的数量比通常是一个很高的值，由于隐私集合求交技术不支持带有重复数据的求交
(
例如，
A
集合元素为
{a,b,b,c}
，
B
集合元素为
{b,c,d}
，求交结果无法得到
{b,b,c})
，因此为了避免样本倾斜导致评估结果不准确的问题，需要对数据进行重采样，相关技术中，在基于隐私求交技术进行业务风险评估时，通过先将未重采样的样本数据进行求交，双方再通过互相同步重采样的样本权重，将交集结果按照权重进行重采样，之后基于重采样的交集数据进行业务评估，这种重采样方式会导致样本权重信息的泄露，从而泄露样本标签信息，导致用户关键信息的泄露
。
[0004]针对上述的问题，目前尚未提出有效的解决方案
。

技术实现思路
/>[0005]本专利技术实施例提供了一种基于联邦学习的样本评估方法及其装置
、
电子设备，以至少解决相关技术中，在基于隐私求交对样本进行评估时，对于存在样本倾斜的样本数据，将交集结果按照权重进行重采样，会导致将权重信息泄露给另一方，进而在评估过程中泄露样本的标签信息的技术问题
。
[0006]根据本专利技术实施例的一个方面，提供了一种基于联邦学习的样本评估方法，包括：对数据请求方和数据提供方进行隐私求交处理，得到所述数据请求方的第一样本数据集合和所述数据提供方的第二样本数据集合；将所述第一样本数据集合和所述第二样本数据集合输入至评估模型，输出所述数据提供方对应的标签值集合，其中，所述评估模型采用联邦学习算法训练得到的，训练所述评估模型时根据所述数据提供方的每个样本的权重值更新模型参数并进行迭代训练，所述标签值集合包含每个样本对应的标签和标签值；基于所述标签值集合中每个样本的标签值对该样本进行评估，得到评估结果，其中，所述评估结果用于指示每个样本是否存在风险
。
[0007]可选地，所述评估模型是预先训练得到的，训练所述评估模型的步骤包括：基于第一训练数据集合
、
第二训练数据集合和权重值集合计算损失函数值，并基于所述损失函数值和所述联邦学习算法更新第一初始模型参数和第二初始模型参数；基于更新后的所述第一初始模型和所述第二初始模型对所述评估模型进行迭代训练，在所述损失函数值小于等
于损失函数阈值的情况下，终止迭代，得到所述评估模型，其中，所述评估模型中包含模型训练完成后的第一模型参数和第二模型参数
。
[0008]可选地，所述损失函数值的计算公式为：可选地，所述损失函数值的计算公式为：其中，
L
为损失函数值，
n
为训练样本数量，
w
i
为每个训练样本对应的权重值，
y
i
为所述训练样本对应的标签值，
x
i
为特征数据
,
所述特征数据包括：第一特征数据和第二特征数据，
θ
为模型参数，所述模型参数包括：所述第一模型参数和所述第二模型参数，
h
θ
(x
i
)
为
x
的映射值，
[0009]可选地，在训练所述评估模型之前，还包括：采集所述数据请求方和所述数据提供方在历史时间段内进行隐私求交处理得到的所述第一训练数据集合和所述第二训练数据集合，其中，所述第一训练数据集合是所述数据请求方对应的数据集合，所述第一训练数据集合至少包括：每个训练样本的标签值组成的标签值集合
、
第一特征数据集合
、
每个训练样本的权重值组成的所述权重值集合，所述第二训练数据集合至少包括：第二特征数据集合；为所述数据请求方中的每个所述训练样本配置第一初始模型参数，并为所述数据提供方中的每个所述训练样本配置第二初始模型参数
。
[0010]可选地，对数据请求方和数据提供方进行隐私求交处理的步骤包括：确定发起隐私求交请求的对象，将该对象作为所述数据请求方，并将所述数据请求方请求提供数据的对象作为所述数据提供方；获取所述数据请求方提供的第一数据集和所述数据提供方提供的第二数据集，并基于加密密钥对所述第一数据集和所述第二数据集中的数据进行加密，得到第一加密数据集和第二加密数据集；对所述第一加密数据集和所述第二加密数据集进行求交集运算，得到所述第一样本数据集合和所述第二样本数据集合
。
[0011]可选地，基于所述标签值集合中每个样本的标签值对该样本进行评估，得到评估结果的步骤，包括：基于每个样本的所述标签值确定该样本是否存在风险，在该样本存在风险的情况下，将该样本标记为风险样本；提取所述风险样本的所有特征数据，并基于所述风险样本和所述风险样本数据生成评估结果，将所述评估结果发送至业务人员使用的业务终端
。
[0012]根据本专利技术实施例的另一方面，还提供了一种基于联邦学习的样本评估装置，包括：处理单元，用于对数据请求方和数据提供方进行隐私求交处理，得到所述数据请求方的第一样本数据集合和所述数据提供方的第二样本数据集合；输出单元，用于将所述第一样本数据集合和所述第二样本数据集合输入至评估模型，输出所述数据提供方对应的标签值集合，其中，所述评估模型是采用联邦学习算法并基于所述数据提供方的每个样本的权重值训练得到的，所述标签值集合包含每个样本对应的标签和标签值；评估单元，用于基于所述标签值集合中每个样本的标签值对该样本进行评估，得到评估结果
。
[0013]可选地，所述评估模型是预先训练得到的，所述基于联邦学习的样本评估装置还包括：第一计算模块，用于基于第一训练数据集合
、
第二训练数据集合和权重值集合计算损失函数值，并基于所述损失函数值和所述联邦学习算法更新第一初始模型参数和第二初始模型参数；第一训练模块，用于基于更新后的所述第一初始模型和所述第二初始模型对所述评估模型进行迭代训练，在所述损失函数值小于等于损失函数阈值的情况下，终止迭代，得到所述评估模型，其中，所述评估模型中包含模型训练完成后的第一模型参数和第二模
型参数
。
[0014]可选地，所述损失函数值的计算公式为：可选地，所述损失函数值的计算公式为：其中，
L
为损失函数值，<本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于联邦学习的样本评估方法，其特征在于，包括：对数据请求方和数据提供方进行隐私求交处理，得到所述数据请求方的第一样本数据集合和所述数据提供方的第二样本数据集合；将所述第一样本数据集合和所述第二样本数据集合输入至评估模型，输出所述数据提供方对应的标签值集合，其中，所述评估模型采用联邦学习算法训练得到的，训练所述评估模型时根据所述数据提供方的每个样本的权重值更新模型参数并进行迭代训练，所述标签值集合包含每个样本对应的标签和标签值；基于所述标签值集合中每个样本的标签值对该样本进行评估，得到评估结果，其中，所述评估结果用于指示每个样本是否存在风险
。2.
根据权利要求1所述的评估方法，其特征在于，所述评估模型是预先训练得到的，训练所述评估模型的步骤包括：基于第一训练数据集合
、
第二训练数据集合和权重值集合计算损失函数值，并基于所述损失函数值和所述联邦学习算法更新第一初始模型参数和第二初始模型参数；基于更新后的所述第一初始模型和所述第二初始模型对所述评估模型进行迭代训练，在所述损失函数值小于等于损失函数阈值的情况下，终止迭代，得到所述评估模型，其中，所述评估模型中包含模型训练完成后的第一模型参数和第二模型参数
。3.
根据权利要求2所述的评估方法，其特征在于，所述损失函数值的计算公式为：其中，
L
为损失函数值，
n
为训练样本数量，
w
i
为每个训练样本对应的权重值，
y
i
为所述训练样本对应的标签值，
x
i
为特征数据
,
所述特征数据包括：第一特征数据和第二特征数据，
θ
为模型参数，所述模型参数包括：所述第一模型参数和所述第二模型参数，
h
θ
(x
i
)
为
x
的映射值，
4.
根据权利要求2所述的评估方法，其特征在于，在训练所述评估模型之前，还包括：采集所述数据请求方和所述数据提供方在历史时间段内进行隐私求交处理得到的所述第一训练数据集合和所述第二训练数据集合，其中，所述第一训练数据集合是所述数据请求方对应的数据集合，所述第一训练数据集合至少包括：每个训练样本的标签值组成的标签值集合
、
第一特征数据集合
、
每个训练样本的权重...

【专利技术属性】
技术研发人员：魏博言，郭相林，刘微，李硕蕾，
申请(专利权)人：中国工商银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人