一种样本量有限的表格型数据增强方法技术

技术编号：41736356 阅读：32 留言：0更新日期：2024-06-19 12:55

本发明专利技术涉及有限样本数据增强领域；对于具有有限样本量的表格型数据，传统数据增强方法生成的样本集中地聚集在某一单一的模式周围，仍然会对下游模型的训练造成影响。本发明专利技术提供一种样本量有限的表格型数据增强方法，利用生成式方法实现表格型数据的增强，将原始数据集分为训练集和测试集，训练集中的数据作为邻域中心点构造邻域并在邻域内进行采样得到邻域数据集，通过邻域数据集训练生成式模型，使用测试集对挑选最佳生成数据集，通过扰动不重要的特征构建邻域分布训练扩散模型，生成足量且具有多样性的表格型数据，服从原始训练数据的真实分布，解决了传统表格型数据增强方法难以进行数据增强的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及有限样本数据增强领域，更具体的说，涉及一种样本量有限的表格型数据增强方法。

技术介绍

1、数据增强是解决样本量不足的有效方法之一。增强后的数据将代表一组更全面的可能数据点，从而最小化训练集和测试集之间的分布差异性，得到具有更高泛化性能的模型。数据增强方法根据任务中数据模态的不同，有着不同的增强方式。

2、对于图像数据来说，最典型的增强方法是对图像的几何操作，但此类增强应该考虑图像进行几何操作后保留标签的可能性，对领域具有依赖性。生成式方法能够捕获数据的真实分布，也是常见的图像数据增强方法之一，dpt利用了扩散模型生成出来的数据作为带标签的伪图像增强对分类器进行训练或微调。对于文本数据来说，在输入数据中添加噪声是相对原始数据来说变化最小的数据增强方法之一，wan等人通过对transformer编码器隐层的中间表示中注入噪声的方法来提高模型的分类能力。同样地，生成式方法也适用于文本数据，diffuseq利用一种专为文本生成任务设计的扩散模型，实现了较高句子级多样性。然而，上述图像与文本的增强方法利用了数据自身的特点...

【技术保护点】

1.一种样本量有限的表格型数据增强方法，其特征在于：利用生成式方法实现表格型数据的增强，将原始数据集分为训练集和测试集，训练集中的数据作为邻域中心点构造邻域并在邻域内进行采样得到邻域数据集，通过邻域数据集训练生成式模型，使用测试集对生成式模型进行测试，具体包括以下步骤：

2.根据权利要求1所述的样本量有限的表格型数据增强方法，其特征在于：所述步骤1中，连续型表格型数据中缺失的数据采用均值填充法进行填充，分类型表格型数据中缺失的数据采用众数填充法进行填充。

3.根据权利要求1或2所述的样本量有限的表格型数据增强方法，其特征在于：所述步骤3中邻域数据集根据类型进行数据...

【技术特征摘要】

3.根据权利要求1或2所述的样本量有限的表格型数据增强方法，其特征在于：所述步骤3中邻域数据集根据类型进行数据处理，邻域数据集的连续型特征进行分位数转化，分类型特征利用one-hot编码进行处理。

【专利技术属性】
技术研发人员：万博闻，石洪波，张赢，史彦昊，
申请(专利权)人：山西财经大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人