一种数据训练方法、装置、设备及存储介质制造方法及图纸

技术编号：26651256 阅读：32 留言：0更新日期：2020-12-09 00:52

本申请提供的一种数据训练方法、装置、设备及存储介质，获取原始训练数据集中的样本数据；并预处理得到正、负样本数据；分别针对正、负样本数据，遍历其所包含的所有列特征；分别针对正、负样本数据所包含的所有列特征，随机打乱每一列特征，并重新组合，得到新的正、负样本数据；并添加至原始训练数据集中，得到新的训练数据集；并用其进行模型训练。在本申请中，通过每样本数据中的特征进行随机打乱和重新组合，使N个特征相互独立，且每个特征都服从正态分布，基于此处理后，使非图像和非语音类数据可以进行数据增强，从而有效的扩充此类数据的数据集，在利用该类数据进行数据训练时，能够有效改善模型过拟合的现象，提升模型预测的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据训练方法、装置、设备及存储介质
本专利技术涉及数据处理
，具体地说，涉及一种数据训练方法、装置、设备及存储介质。
技术介绍
目前，使用训练样本数据进行模型训练的过程中，如果采用的训练样本数据规模较小，容易出现过拟合现象，即在进行模型训练的过程中过分依赖训练样本数据，从而对模型预测的结果准确性带来不利影响。对于图像类数据及语音类数据，通常采用诸如翻转、旋转和高斯噪声等数据增强手段对训练样本数据规模进行扩增，以改善进行模型训练的过程中出现的过拟合现象，提高模型预测的结果准确性；然而，对于非图像类数据和非语音类数据，无法通过上述数据增强手段对样本数据规模进行扩增，进而导致在利用非图像类数据和非语音类数据进行模型训练的过程中，容易出现的过拟合现象，以及预测结果不准确的问题。
技术实现思路
有鉴于此，本专利技术实施例提供一种数据训练方法、装置、设备及存储介质，以实现使用非图像类数据和非语音类数据进行模型训练的过程中，能通过数据增强手段进行样本数据规模的扩增，进而改善模型过拟合的现象，提升模型预...

【技术保护点】
1.一种数据训练方法，其特征在于，所述方法包括：/n获取原始训练数据集中的样本数据；/n对所述样本数据进行预处理，得到正样本数据和负样本数据；/n分别针对所述正样本数据和所述负样本数据，遍历所述正样本数据和所述负样本数据所包含的所有列特征；/n分别针对所述正样本数据和所述负样本数据所包含的所有列特征，随机打乱所述所有列特征中的每一列特征，并重新组合，得到新的正样本数据和新的负样本数据；/n将所述新的正样本数据和所述新的负样本数据添加至所述原始训练数据集中，得到新的训练数据集；/n利用所述新的训练数据集进行模型训练。/n

【技术特征摘要】
1.一种数据训练方法，其特征在于，所述方法包括：
获取原始训练数据集中的样本数据；
对所述样本数据进行预处理，得到正样本数据和负样本数据；
分别针对所述正样本数据和所述负样本数据，遍历所述正样本数据和所述负样本数据所包含的所有列特征；
分别针对所述正样本数据和所述负样本数据所包含的所有列特征，随机打乱所述所有列特征中的每一列特征，并重新组合，得到新的正样本数据和新的负样本数据；
将所述新的正样本数据和所述新的负样本数据添加至所述原始训练数据集中，得到新的训练数据集；
利用所述新的训练数据集进行模型训练。

2.根据权利要求1所述的方法，其特征在于，所述分别针对所述正样本数据和所述负样本数据，遍历所述正样本数据和所述负样本数据所包含的所有列特征，包括：
分别针对第一预设比例的所述正样本数据和第二预设比例的所述负样本数据，遍历所述第一预设比例的正样本数据和所述第二预设比例的负样本数据所包含的所有列特征；
其中，所述第一预设比例指示用于遍历的正样本数据个数占所有的正样本数据个数的比例，所述第二预设比例指示用于遍历的负样本数据个数占所有的负样本数据个数的比例。

3.根据权利要求1所述的方法，其特征在于，所述分别针对所述正样本数据和所述负样本数据，遍历所述正样本数据和所述负样本数据所包含的所有列特征，包括：
分别针对满足第三预设比例关系的所述正样本数据和所述负样本数据，遍历所述满足第三预设比例关系的正样本数据和负样本数据所包含的所有列特征；
其中，所述第三预设比例指示用于遍历的正样本数据个数与用于遍历的负样本数据个数之间的比例。

4.根据权利要求1所述的方法，其特征在于，所述分别针对所述正样本数据和所述负样本数据，遍历所述正样本数据和所述负样本数据所包含的所有列特征，包括：
分别针对所有的所述正样本数据和所有的所述负样本数据，遍历所述所有的正样本数据和所述所有的负样本数据所包含的所有列特征。

5.一种数据训练装置，其特征在于，所述装置包括：
获取模块，用于获取原始训练数据集中的样本数据；
预处理...

【专利技术属性】
技术研发人员：万明霞，
申请(专利权)人：中国银行股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人