基于深度学习的无监督数据划分方法技术

技术编号：39063159 阅读：11 留言：0更新日期：2023-10-12 19:55

本发明专利技术涉及信息处理技术。本发明专利技术的目的是要解决目前数据划分方法中数据划分效果较差的问题，提供了一种用于深度学习的数据划分方法及可读存储介质，其技术方案可概括为：对所获取的图像进行预处理及提取图像的特征，将各图像的特征组合成一个特征空间；使用K

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习的无监督数据划分方法

[0001]本申请涉及信息处理技术，特别涉及用于深度学习的数据划分方法及可读存储介质。

技术介绍

[0002]在对图像处理进行的深度学习的模型训练中，数据的划分方式非常重要，若相同数据全部划分在同一种类型的数据集里时，模型往往在当前数据上会存在严重的欠拟合或过拟合，从而导致模型的泛化能力交差。因此需要将同一场景中的数据划分在一起，不同场景的数据分开，以保证在后续的模型训练的数据处理阶段中，可以依据不同的场景将数据划分到不同的类型中，然后将不同类型的数据集同时划分在训练集和测试集中，保证模型在训练过程中能够拟合得到更好的结果，获得更好的泛化性。
[0003]目前的数据划分方法一般有两种：一种是人工划分，即通过人工对数据进行筛选和分类。但这种方式存在工作量大较大的问题，例如在人工对数据进行划分时，当数据的场景较多时，人工难以找到以往分配的同类型文件夹，或因为分类出的文件夹数量较多而导致工作量大，且人工划分时，会因为人为因素导致划分错误，使得数据划分的过程中质量不高。
[0004]另一种是通过常用的CV（Computer Vision，计算机视觉）库进行提取，从而将相似的图像划分为一类。但这种方式的错误率较高，因为在使用CV库进行数据划分时，由于CV对像素信息较为敏感，当同一场景下的图片的前景发生变化时，很容易就将其划分成不同的类别，或者一个类型中只能找到几张最相似的图片，导致划分过细，泛化性较差。
[0005]因此，现有技术中存在数据划分效果较差的问题。
...

【技术保护点】

【技术特征摘要】
1.用于深度学习的数据划分方法，其特征在于，包括以下步骤：步骤1、对所获取的图像进行预处理及提取图像的特征，将各图像的特征组合成一个特征空间；步骤2、使用K
‑
means算法对特征空间中的各特征进行聚类，将聚类为一类的各特征对应的图像划分为同一类型的数据集。2.如权利要求1所述的用于深度学习的数据划分方法，其特征在于，步骤1中，所述对所获取的图片进行预处理及提取图像的特征，包括：对所获取的图片进行特征提取，并对所提取的特征进行缩放及归一化，使得各特征均为同一预设维数的图像特征。3.如权利要求2所述的用于深度学习的数据划分方法，其特征在于，所述对所获取的图像进行特征提取，包括：分别将所获取的图像送入预训练模型，以进行特征提取。4.如权利要求2所述的用于深度学习的数据划分方法，其特征在于，所述预设维数为512维。5.如权利要求1
‑
4任一项所述的用于深度学习的数据划分方法，其特征在于，所述步骤2包括：步骤201、使用K
‑
means算法，将特征空间中的特征划分为不同的簇；步骤202、将同一簇内各特征对应的图像分入同一文件夹，根据所划分的簇，将各...

【专利技术属性】
技术研发人员：陈思竹，王浩博，
申请(专利权)人：四川弘和数智集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人