乱序处理方法、模型训练方法、装置和计算设备制造方法及图纸

技术编号：29255154 阅读：22 留言：0更新日期：2021-07-13 17:26

本说明书实施例公开了一种乱序处理方法、模型训练方法、装置和计算设备。所述乱序处理方法包括：将数据集拆分为多个第一子数据集；对第一子数据集中的记录进行乱序处理；将乱序后的第一子数据集中的记录分配到多个第二子数据集中，每个第二子数据集包括乱序后的各第一子数据集中记录；对第二子数据集中的记录进行乱序处理；将乱序后的第二子数据集合成为乱序后的数据集。本说明书实施例可以在资源有限的情况下，对大规模的数据集进行乱序处理，还可以使用乱序后的大规模的数据集训练模型。

全部详细技术资料下载

【技术实现步骤摘要】
乱序处理方法、模型训练方法、装置和计算设备
本说明书实施例涉及计算机
，特别涉及一种乱序处理方法、模型训练方法、装置和计算设备。
技术介绍
为了防止模型学习到训练数据的顺序等影响泛化能力的特征，可以先对训练数据进行乱序处理，再利用乱序后的训练数据训练模型。例如，在联合建模的场景中，训练数据通常分散存在于不同的数据方。各个数据方可以先对自身持有的数据进行乱序处理；再根据多方安全计算技术，利用乱序后的数据对机器学习模型进行联合训练，从而实现隐私保护。在一些情况下，训练数据的规模是非常大的，例如训练数据的数量可以为100万个。然而计算设备的资源(例如内存)是有限的，如何在资源有限的情况下，对大规模的训练数据进行乱序，是亟需解决的技术问题。
技术实现思路
本说明书实施例提供一种乱序处理方法、模型训练方法、装置和计算设备，可以在资源有限的情况下，使用对大规模的训练数据进行乱序。本说明书实施例的第一方面，提供了一种乱序处理方法，包括：将数据集拆分为多个第一子数据集；对第一子数据集中的记录进行乱序处理；将乱序后的第一子数据集中的记录分配到多个第二子数据集中，每个第二子数据集包括乱序后的各第一子数据集中记录；对第二子数据集中的记录进行乱序处理；将乱序后的第二子数据集合成为乱序后的数据集。本说明书实施例的第二方面，提供了一种模型训练方法，包括：将乱序后的数据集拆分为多个子数据集，所述乱序后的数据集根据第一方面所述方法获得，所述多个子数据集...

【技术保护点】
1.一种乱序处理方法，包括：/n将数据集拆分为多个第一子数据集；/n对第一子数据集中的记录进行乱序处理；/n将乱序后的第一子数据集中的记录分配到多个第二子数据集中，每个第二子数据集包括乱序后的各第一子数据集中记录；/n对第二子数据集中的记录进行乱序处理；/n将乱序后的第二子数据集合成为乱序后的数据集。/n

【技术特征摘要】
1.一种乱序处理方法，包括：
将数据集拆分为多个第一子数据集；
对第一子数据集中的记录进行乱序处理；
将乱序后的第一子数据集中的记录分配到多个第二子数据集中，每个第二子数据集包括乱序后的各第一子数据集中记录；
对第二子数据集中的记录进行乱序处理；
将乱序后的第二子数据集合成为乱序后的数据集。

2.如权利要求1所述的方法，所述将数据集拆分为多个第一子数据集，包括：
根据自身的资源，确定第一子数据集能够容纳的记录数；
根据第一子数据集能够容纳的记录数，将所述数据集拆分为多个第一子数据集。

3.如权利要求1所述的方法，每个第一子数据集对应有随机种子；
所述对第一子数据集中的记录进行乱序处理，包括：
根据随机种子，对第一子数据集中的记录进行乱序处理。

4.如权利要求3所述的方法，所述对第一子数据集中的记录进行乱序处理，包括：
根据随机种子，为第一子数据集中的记录生成随机数；
根据记录所对应随机数的大小，对第一子数据集中的记录进行排序。

5.如权利要求1所述的方法，每个第二子数据集对应有随机种子；
所述对第二子数据集中的记录进行乱序处理，包括：
根据随机种子，对第二子数据集中的记录进行乱序处理。

6.如权利要求5所述的方法，所述对第二子数据集中的记录进行乱序处理，包括：
根据随机种子，为第二子数据集中的记录生成随机数；
根据记录所对应随机数的大小，对第二子数据集中的记录进行排序。

7.如权利要求1所述的方法，所述数据集为特征集或者标签集；
所述特征集包括多条记录，每条记录包括训练数据的特征和训练数据的标识；所述标签集包括多条记录，每条记录包括训练数据的标签和训练数据的标识。

8.一种模型训练方法，包括：
将乱序后的数据集拆分为多个子数据集，所述乱序后的数据集根据权利要求1-7中任一项所述方法获得，所述多个子数据集被存储在外存储器中；
在需要训练模型时，从所述外存储器中读取子数据集，根据读取的子数据集训练模型。

9.如权利要求8所述的方法，所述数据集为特征集或者标签集；
所述特征集包括多条记录，每条记录包括训练数据的特征和训练数据的标识；所述标签集包括多条记录，每条记录包括训练数据的标签和训练数据的标识。

10.如权利要求8所述的方法，所述根据读取的子数据集训练模型，包括：
根据读取的子数据集与合作方联合训练模型。
...

【专利技术属性】
技术研发人员：周亚顺，王华忠，赵原，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人