基于深度学习的无监督数据划分方法技术

技术编号:39063159 阅读:11 留言:0更新日期:2023-10-12 19:55
本发明专利技术涉及信息处理技术。本发明专利技术的目的是要解决目前数据划分方法中数据划分效果较差的问题,提供了一种用于深度学习的数据划分方法及可读存储介质,其技术方案可概括为:对所获取的图像进行预处理及提取图像的特征,将各图像的特征组合成一个特征空间;使用K

【技术实现步骤摘要】
基于深度学习的无监督数据划分方法


[0001]本申请涉及信息处理技术,特别涉及用于深度学习的数据划分方法及可读存储介质。

技术介绍

[0002]在对图像处理进行的深度学习的模型训练中,数据的划分方式非常重要,若相同数据全部划分在同一种类型的数据集里时,模型往往在当前数据上会存在严重的欠拟合或过拟合,从而导致模型的泛化能力交差。因此需要将同一场景中的数据划分在一起,不同场景的数据分开,以保证在后续的模型训练的数据处理阶段中,可以依据不同的场景将数据划分到不同的类型中,然后将不同类型的数据集同时划分在训练集和测试集中,保证模型在训练过程中能够拟合得到更好的结果,获得更好的泛化性。
[0003]目前的数据划分方法一般有两种:一种是人工划分,即通过人工对数据进行筛选和分类。但这种方式存在工作量大较大的问题,例如在人工对数据进行划分时,当数据的场景较多时,人工难以找到以往分配的同类型文件夹,或因为分类出的文件夹数量较多而导致工作量大,且人工划分时,会因为人为因素导致划分错误,使得数据划分的过程中质量不高。
[0004]另一种是通过常用的CV(Computer Vision,计算机视觉)库进行提取,从而将相似的图像划分为一类。但这种方式的错误率较高,因为在使用CV库进行数据划分时,由于CV对像素信息较为敏感,当同一场景下的图片的前景发生变化时,很容易就将其划分成不同的类别,或者一个类型中只能找到几张最相似的图片,导致划分过细,泛化性较差。
[0005]因此,现有技术中存在数据划分效果较差的问题。

技术实现思路

[0006]本申请的目的是要解决目前数据划分方法中数据划分效果较差的问题,提供了一种用于深度学习的数据划分方法及可读存储介质。
[0007]本申请解决上述技术问题采用的技术方案中,第一方面提供了一种用于深度学习的数据划分方法,包括以下步骤:步骤1、对所获取的图像进行预处理及提取图像的特征,将各图像的特征组合成一个特征空间;步骤2、使用K

means算法对特征空间中的各特征进行聚类,将聚类为一类的各特征对应的图像划分为同一类型的数据集。
[0008]具体的,为提供一种预处理及提取图像的特征的方法,则步骤1中,所述对所获取的图片进行预处理及提取图像的特征,包括:对所获取的图片进行特征提取,并对所提取的特征进行缩放及归一化,使得各特征均为同一预设维数的图像特征。
[0009]进一步的,为细化特征提取,则所述对所获取的图像进行特征提取,包括:
分别将所获取的图像送入预训练模型,以进行特征提取。
[0010]具体的,为提供一个较为符合要求的图像特征,则所述预设维数为512维。
[0011]再进一步的,为细化步骤2,则步骤2包括:步骤201、使用K

means算法,将特征空间中的特征划分为不同的簇;步骤202、将同一簇内各特征对应的图像分入同一文件夹,根据所划分的簇,将各特征对应的图像分入对应文件夹,得到各类型的数据集。
[0012]再进一步的,为细化步骤201,则步骤202中,所述使用K

means算法,将特征空间中的特征划分为不同的簇时,采用误差平方和来动态调整阈值,进而得到最优的簇空间距离及簇间平均距离,并选择使用平均距离从迅速变化到缓慢降低的阈值作为最优的K值,获取该K值划分出的不同的簇,作为最终划分出的各簇。
[0013]具体的,为细化误差平方和,则所述误差平方和的计算方式为:其中,SSE是指误差平方和,Ci是指第i个簇,p是Ci中的样本点,mi是Ci的质心,即Ci中所有样本的均值。
[0014]再进一步的,由于在使用K

means算法,将特征空间中的特征划分为不同的簇前,采用误差平方和来动态调整阈值时,一般会限定一个大致的簇范围,以减少迭代次数及缩短计算时间,则所述使用K

means算法,将特征空间中的特征划分为不同的簇前,还将簇范围预设为预设范围。
[0015]具体的,为提供一个较为可行的簇范围,则所述预设范围为10

50。
[0016]本申请解决上述技术问题采用的技术方案中,第二方面提供了一种可读存储介质,所述可存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述用于深度学习的数据划分方法。
[0017]本申请的有益效果是,在本申请方案中,先利用图像特征提取,并形成特征空间,再使用K

means算法对各特征空间进行聚类划分,从而能够按照场景对各图像进行划分,解决了因为数据划分不合理导致的深度学习模型欠拟合或者过拟合的问题,另外,由于人工只需输入图像,不需要人工参与划分,工作量大大减少的同时也提高了划分效率及准确度。
[0018]附图说明
[0019]图1是本申请实施例第一方面提供的用于深度学习的数据划分方法的示意性流程图。
具体实施方式
[0020]为了使本申请所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
[0021]应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0022]还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0023]如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0024]另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0025]在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.用于深度学习的数据划分方法,其特征在于,包括以下步骤:步骤1、对所获取的图像进行预处理及提取图像的特征,将各图像的特征组合成一个特征空间;步骤2、使用K

means算法对特征空间中的各特征进行聚类,将聚类为一类的各特征对应的图像划分为同一类型的数据集。2.如权利要求1所述的用于深度学习的数据划分方法,其特征在于,步骤1中,所述对所获取的图片进行预处理及提取图像的特征,包括:对所获取的图片进行特征提取,并对所提取的特征进行缩放及归一化,使得各特征均为同一预设维数的图像特征。3.如权利要求2所述的用于深度学习的数据划分方法,其特征在于,所述对所获取的图像进行特征提取,包括:分别将所获取的图像送入预训练模型,以进行特征提取。4.如权利要求2所述的用于深度学习的数据划分方法,其特征在于,所述预设维数为512维。5.如权利要求1

4任一项所述的用于深度学习的数据划分方法,其特征在于,所述步骤2包括:步骤201、使用K

means算法,将特征空间中的特征划分为不同的簇;步骤202、将同一簇内各特征对应的图像分入同一文件夹,根据所划分的簇,将各...

【专利技术属性】
技术研发人员:陈思竹王浩博
申请(专利权)人:四川弘和数智集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1