乱序处理方法、模型训练方法、装置和计算设备制造方法及图纸

技术编号:29255154 阅读:22 留言:0更新日期:2021-07-13 17:26
本说明书实施例公开了一种乱序处理方法、模型训练方法、装置和计算设备。所述乱序处理方法包括:将数据集拆分为多个第一子数据集;对第一子数据集中的记录进行乱序处理;将乱序后的第一子数据集中的记录分配到多个第二子数据集中,每个第二子数据集包括乱序后的各第一子数据集中记录;对第二子数据集中的记录进行乱序处理;将乱序后的第二子数据集合成为乱序后的数据集。本说明书实施例可以在资源有限的情况下,对大规模的数据集进行乱序处理,还可以使用乱序后的大规模的数据集训练模型。

【技术实现步骤摘要】
乱序处理方法、模型训练方法、装置和计算设备
本说明书实施例涉及计算机
,特别涉及一种乱序处理方法、模型训练方法、装置和计算设备。
技术介绍
为了防止模型学习到训练数据的顺序等影响泛化能力的特征,可以先对训练数据进行乱序处理,再利用乱序后的训练数据训练模型。例如,在联合建模的场景中,训练数据通常分散存在于不同的数据方。各个数据方可以先对自身持有的数据进行乱序处理;再根据多方安全计算技术,利用乱序后的数据对机器学习模型进行联合训练,从而实现隐私保护。在一些情况下,训练数据的规模是非常大的,例如训练数据的数量可以为100万个。然而计算设备的资源(例如内存)是有限的,如何在资源有限的情况下,对大规模的训练数据进行乱序,是亟需解决的技术问题。
技术实现思路
本说明书实施例提供一种乱序处理方法、模型训练方法、装置和计算设备,可以在资源有限的情况下,使用对大规模的训练数据进行乱序。本说明书实施例的第一方面,提供了一种乱序处理方法,包括:将数据集拆分为多个第一子数据集;对第一子数据集中的记录进行乱序处理;将乱序后的第一子数据集中的记录分配到多个第二子数据集中,每个第二子数据集包括乱序后的各第一子数据集中记录;对第二子数据集中的记录进行乱序处理;将乱序后的第二子数据集合成为乱序后的数据集。本说明书实施例的第二方面,提供了一种模型训练方法,包括:将乱序后的数据集拆分为多个子数据集,所述乱序后的数据集根据第一方面所述方法获得,所述多个子数据集被存储在外存储器中;在需要训练模型时,从所述外存储器中读取子数据集,根据读取的子数据集训练模型。本说明书实施例的第三方面,提供了一种乱序处理装置,包括:拆分单元,用于将数据集拆分为多个第一子数据集;第一乱序单元,用于对第一子数据集中的记录进行乱序处理;分配单元,用于将乱序后的第一子数据集中的记录分配到多个第二子数据集中,每个第二子数据集包括乱序后的各第一子数据集中记录;第二乱序单元,用于对第二子数据集中的记录进行乱序处理;合成单元,用于将乱序后的第二子数据集合成为乱序后的数据集。本说明书实施例的第四方面,提供了一种模型训练装置,包括:拆分单元,用于将乱序后的数据集拆分为多个子数据集,所述乱序后的数据集根据第一方面所述方法获得,所述多个子数据集被存储在外存储器中;训练单元,用于在需要训练模型时,从所述外存储器中读取子数据集,根据读取的子数据集训练模型。本说明书实施例的第四方面,提供了一种计算设备,包括:至少一个处理器;存储有程序指令的存储器,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行第一方面或者第二方面所述方法的指令。本说明书实施例提供的技术方案,可以在资源有限的情况下,对大规模的数据集进行乱序处理。另外还可以在资源有限的情况下,使用乱序后的大规模的数据集训练模型。附图说明为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本说明书实施例中模型训练过程的示意图;图2为本说明书实施例中乱序处理方法的流程示意图;图3为本说明书实施例中乱序处理过程的示意图;图4为本说明书实施例中模型训练方法的流程示意图;图5为本说明书实施例中一个场景示例的示意图;图6为本说明书实施例中另一个场景示例的示意图;图7为本说明书实施例中乱序处理装置的结构示意图;图8为本说明书实施例中模型训练装置的结构示意图;图9为本说明书实施例中计算设备的结构示意图。具体实施方式下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。以下介绍本说明书实施例涉及的几个技术术语。多方安全计算(SecureMuti-PartyComputation,MPC)是一种保护数据隐私安全的算法。多方安全计算能让多个数据方在不泄漏自身数据的前提下进行协作计算。秘密分享(SecretSharing,SS)是一种保护数据隐私安全的算法。多个数据方可以在不泄漏自身数据的前提下,使用秘密分享算法进行协作计算,共享秘密信息。各个数据方可以分别获得秘密信息的一个分片。例如,数据方P1持有业务数据x1,数据方P2持有业务数据x2。采用秘密分享算法,数据方P1和数据方P2可以进行协作计算,共享秘密信息y。数据方P1可以获得秘密信息y的分片y1,数据方P2可以获得秘密信息y的分片y2。其中,y=y1+y2=x1x2。激励函数(ActivationFunction),又称为激活函数,可以用于构建数学模型。激励函数定义了在给定输入下的输出。激励函数为非线性函数。通过激励函数可以在数学模型中加入非线性因素,提高数学模型的表达能力。所述激励函数可以包括Sigmoid函数、Tanh函数和ReLU函数等。损失函数(LossFunction)可以用于衡量数学模型的预测值与真实值之间不一致的程度。损失函数的值越小,表示数学模型的鲁棒性越好。所述损失函数包括但不限于对数损失函数(LogarithmicLossFunction)、平方损失函数(SquareLoss)等。其中,所述数学模型可以包括逻辑回归模型和神经网络模型等。海森矩阵(HessianMatrix),又称为黑塞矩阵、海瑟矩阵或海塞矩阵等,是损失函数的二阶偏导数构成的方阵,用于表示损失函数的局部曲率。模型参数优化方法可以包括梯度下降法(Gradientdescent)和牛顿法(Newtonmethod)。所述梯度下降法可以包括原始梯度下降法以及基于原始梯度下降法的各种变形方法(诸如批量梯度下降法、正则化梯度下降法等等)。所述牛顿法可以包括原始牛顿法以及基于原始牛顿法的各种变形方法(诸如阻尼牛顿法、正则化牛顿法等等)。请参阅图1,为了防止模型学习到训练数据的顺序等影响泛化能力的特征,可以先对训练数据进行乱序处理,再利用乱序后的训练数据训练模型。所述乱序可以是指对训练数据进行重新排列,重新排列后的顺序与原先的顺序不相关。计算设备的资源可以包括CPU资源、内存资源、网络带宽等。计算设备的资源通常是有限的。在相关技术中,训练数据的规模较小,因而可以基于有限的资源,一次性地对训练数据进行乱序处理,再利用乱序后的训练数据训练模型。例如,可以将训练数据一次性地读入到内存中进行乱序处理,再利用乱序后的训练数据训练模型。然而在一些情况下,需要使本文档来自技高网...

【技术保护点】
1.一种乱序处理方法,包括:/n将数据集拆分为多个第一子数据集;/n对第一子数据集中的记录进行乱序处理;/n将乱序后的第一子数据集中的记录分配到多个第二子数据集中,每个第二子数据集包括乱序后的各第一子数据集中记录;/n对第二子数据集中的记录进行乱序处理;/n将乱序后的第二子数据集合成为乱序后的数据集。/n

【技术特征摘要】
1.一种乱序处理方法,包括:
将数据集拆分为多个第一子数据集;
对第一子数据集中的记录进行乱序处理;
将乱序后的第一子数据集中的记录分配到多个第二子数据集中,每个第二子数据集包括乱序后的各第一子数据集中记录;
对第二子数据集中的记录进行乱序处理;
将乱序后的第二子数据集合成为乱序后的数据集。


2.如权利要求1所述的方法,所述将数据集拆分为多个第一子数据集,包括:
根据自身的资源,确定第一子数据集能够容纳的记录数;
根据第一子数据集能够容纳的记录数,将所述数据集拆分为多个第一子数据集。


3.如权利要求1所述的方法,每个第一子数据集对应有随机种子;
所述对第一子数据集中的记录进行乱序处理,包括:
根据随机种子,对第一子数据集中的记录进行乱序处理。


4.如权利要求3所述的方法,所述对第一子数据集中的记录进行乱序处理,包括:
根据随机种子,为第一子数据集中的记录生成随机数;
根据记录所对应随机数的大小,对第一子数据集中的记录进行排序。


5.如权利要求1所述的方法,每个第二子数据集对应有随机种子;
所述对第二子数据集中的记录进行乱序处理,包括:
根据随机种子,对第二子数据集中的记录进行乱序处理。


6.如权利要求5所述的方法,所述对第二子数据集中的记录进行乱序处理,包括:
根据随机种子,为第二子数据集中的记录生成随机数;
根据记录所对应随机数的大小,对第二子数据集中的记录进行排序。


7.如权利要求1所述的方法,所述数据集为特征集或者标签集;
所述特征集包括多条记录,每条记录包括训练数据的特征和训练数据的标识;所述标签集包括多条记录,每条记录包括训练数据的标签和训练数据的标识。


8.一种模型训练方法,包括:
将乱序后的数据集拆分为多个子数据集,所述乱序后的数据集根据权利要求1-7中任一项所述方法获得,所述多个子数据集被存储在外存储器中;
在需要训练模型时,从所述外存储器中读取子数据集,根据读取的子数据集训练模型。


9.如权利要求8所述的方法,所述数据集为特征集或者标签集;
所述特征集包括多条记录,每条记录包括训练数据的特征和训练数据的标识;所述标签集包括多条记录,每条记录包括训练数据的标签和训练数据的标识。


10.如权利要求8所述的方法,所述根据读取的子数据集训练模型,包括:
根据读取的子数据集与合作方联合训练模型。
...

【专利技术属性】
技术研发人员:周亚顺王华忠赵原
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1