电子装置、混乱样本整理方法和计算机可读存储介质制造方法及图纸

技术编号:18732965 阅读:24 留言:0更新日期:2018-08-22 03:13
本发明专利技术公开一种电子装置、混乱样本整理方法和计算机可读存储介质,其中,该方法包括:获取待整理的样本图片,将获取的样本图片统一调整至预设尺寸;对调整尺寸后的所有样本图片进行局部特征提取,以得到第一特征集合;对所述第一特征集合中的局部特征进行PCA降维处理,得到降维处理后的第二特征集合;采用预设类型的聚类算法将第二特征集合中的局部特征聚类成预先设置的n类,根据第二特征集合中的局部特征聚类结果,将获取到的所有样本图片分成n类。本发明专利技术技术方案有效提升了样本整理效率高,解决了人工整理样本耗时太长而影响样本训练工作的进度的问题,并且降低了人工成本。

Electronic device, chaotic sample sorting method and computer readable storage medium

The invention discloses an electronic device, a confused sample collation method and a computer readable storage medium, wherein the method comprises: acquiring sample pictures to be collated, uniformly adjusting the acquired sample pictures to a preset size, and extracting local features of all sample pictures after adjusting the size to obtain the first feature set; The local features in the first feature set are processed by PCA to get the second feature set after dimension reduction, and the local features in the second feature set are clustered into pre-set n classes by preset type clustering algorithm, according to the clustering results of the local features in the second feature set, the acquired ones are obtained. Sample pictures are divided into n classes. The technical scheme of the invention effectively improves the sample sorting efficiency, solves the problem that the manual sorting sample takes too long to affect the training progress of the sample, and reduces the labor cost.

【技术实现步骤摘要】
电子装置、混乱样本整理方法和计算机可读存储介质
本专利技术涉及样本数据处理领域,特别涉及一种电子装置、混乱样本整理方法和计算机可读存储介质。
技术介绍
使用深度学习进行图片样本数据训练时,需要大量的样本数据,目前业内一般都是采用人工对样本数据进行整理分类。然而,当样本数据量巨大,达到数以万、几十万计时,通过人工对样本进行整理则极为耗时且效率低,严重影响样本训练工作的进度,并且人工成本非常高。
技术实现思路
本专利技术提供一种电子装置、混乱样本整理方法和计算机可读存储介质,旨在降低样本数据整理的耗时,提升整理效率。为实现上述目的,本专利技术提出的电子装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的混乱样本整理系统,所述混乱样本整理系统被所述处理器执行时实现如下步骤:A1、获取待整理的样本图片,将获取的样本图片统一调整至预设尺寸;B1、对调整尺寸后的所有样本图片进行局部特征提取,以得到第一特征集合;C1、对所述第一特征集合中的局部特征进行PCA降维处理,得到降维处理后的第二特征集合;D1、采用预设类型的聚类算法将第二特征集合中的局部特征聚类成预先设置的n类,根据第二特征集合中的局部特征聚类结果,将获取到的所有样本图片分成n类。优选地,于所述步骤B1之前,所述处理器还用于执行所述混乱样本整理系统,以实现步骤:计算获取到的样本图片数量,根据预设的样本数量区间与文件夹数量的映射关系,确定当前样本图片数量对应的文件夹数量,将调整尺寸后的所有样本图片均匀分配至确定数量的文件夹中;所述步骤D1替换为:采用预设类型的聚类算法将第二特征集合中的局部特征聚类成预先设置的n类,根据第二特征集合中的局部特征聚类结果,将每个文件夹中的样本图片分成n类。优选地,在所述步骤B中,样本图片的局部特征的提取方式为:针对每一张样本图片,提取一个局部特征;或者,针对每一张样本图片,将该样本图片划分为预设的m个图像区域,从各个图像区域中分别提取一个局部特征,再计算m个图像区域的平均局部特征,该平均局部特征作为该样本图片的局部特征。优选地,所述将第二特征集合中的局部特征聚类成预设的n个类别的步骤包括:a、随机在所述第二特征集合中选取n个局部特征作为种子点;b、计算所述第二特征集合中的所有余下的局部特征分别到这n个种子点的距离,将所有余下的局部特征分别划分到其距离最近的种子点的点群,得到n个点群;c、计算得到的每个点群的中心,将种子点移动到点群的中心;d、重复步骤b和c,直到种子点不再移动后,此时的n个点群则为分类结果。本专利技术还提出一种混乱样本整理方法,该方法包括步骤:A2、获取待整理的样本图片,将获取的样本图片统一调整至预设尺寸;B2、对调整尺寸后的所有样本图片进行局部特征提取,以得到第一特征集合;C2、对所述第一特征集合中的局部特征进行PCA降维处理,得到第二特征集合;D2、采用预设类型的聚类算法将第二特征集合中的局部特征聚类成预设的n个类别,根据第二特征集合中的局部特征聚类结果,将获取到的所有样本图片分成n类。优选地,于所述步骤B2之前,所述混乱样本整理方法还包括:计算获取到的样本图片数量,根据预设的样本数量区间与文件夹数量的映射关系,确定当前样本图片数量对应的文件夹数量,将调整尺寸后的所有样本图片均匀分配至确定数量的文件夹中;所述步骤D2替换为:采用预设类型的聚类算法将第二特征集合中的局部特征聚类成预先设置的n类,根据第二特征集合中的局部特征聚类结果,将每个文件夹中的样本图片分成n类。优选地,在所述步骤B中,样本图片的局部特征的提取方式为:针对每一张样本图片,提取一个局部特征;或者,针对每一张样本图片,将该样本图片划分为预设的m个图像区域,从各个图像区域中分别提取一个局部特征,再计算m个图像区域的平均局部特征,该平均局部特征作为该样本图片的局部特征。优选地,所述将第二特征集合中的局部特征聚类成预设的n个类别的步骤包括:a、随机在所述第二特征集合中选取n个局部特征作为种子点;b、计算所述第二特征集合中的所有余下的局部特征分别到这n个种子点的距离,将所有余下的局部特征分别划分到其距离最近的种子点的点群,得到n个点群;c、计算得到的每个点群的中心,将种子点移动到点群的中心;d、重复步骤b和c,直到种子点不再移动后,此时的n个点群则为分类结果。本专利技术还提出一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有混乱样本整理系统,所述混乱样本整理方法系统可被至少一个处理器执行,以使所述至少一个处理器执行如下步骤:获取待整理的样本图片,将获取的样本图片统一调整至预设尺寸;对调整尺寸后的所有样本图片进行局部特征提取,以得到第一特征集合;对所述第一特征集合中的局部特征进行PCA降维处理,得到第二特征集合;采用预设类型的聚类算法将第二特征集合中的局部特征聚类成预设的n个类别,根据第二特征集合中的局部特征聚类结果,将获取到的所有样本图片分成n类。优选地,所述样本图片的局部特征的提取方式为:针对每一张样本图片,提取一个局部特征;或者,针对每一张样本图片,将该样本图片划分为预设的m个图像区域,从各个图像区域中分别提取一个局部特征,再计算m个图像区域的平均局部特征,该平均局部特征作为该样本图片的局部特征。本专利技术技术方案,首先对所有样本图片进行尺寸统一规范调整,然后提取调整尺寸后的每张样本图片的局部特征,组成第一特征集合,再将第一特征结合中的局部特征进行PCA降维处理,得到降维处理后的局部特征形成的第二特征集合,最终通过预设的聚类算法对第二特征集合中的局部特征进行聚类,将局部特征聚类成预设的n类,根据局部特征的分类,对应的将样本图片进行分类整理为n类,即完成样本图片的整理分类。与现有技术相比,本方案通过系统对样本图片进行自动的分类整理,样本整理速度快、效率高,解决了人工整理样本耗时太长而影响样本训练工作的进度的问题,并且降低了人工成本。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。图1为本专利技术混乱样本整理方法一实施例的流程示意图;图2为本专利技术混乱样本整理方法二实施例的流程示意图;图3为本专利技术混乱样本整理系统一实施例的运行环境示意图;图4为本专利技术混乱样本整理系统一实施例的程序模块图;图5为本专利技术混乱样本整理系统二实施例的程序模块图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。如图1所示,图1为本专利技术混乱样本整理方法一实施例的流程示意图。本实施例中,该混乱样本整理方法包括:步骤S10,获取待整理的样本图片,将获取的样本图片统一调整至预设尺寸;首先,系统从样本库中获取待整理的样本图片,获取到的样本图片的尺寸大小可能不一致,因此先对获取的样本图片进行尺寸调整,将所有样本图片的尺寸统一调整至预设尺寸,为后续计算作准备;所述预设尺寸应该小于所有样本图片中的最小样本图片的尺寸。例如,获取的样本图片中存在8本文档来自技高网...

【技术保护点】
1.一种电子装置,其特征在于,所述电子装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的混乱样本整理系统,所述混乱样本整理系统被所述处理器执行时实现如下步骤:A1、获取待整理的样本图片,将获取的样本图片统一调整至预设尺寸;B1、对调整尺寸后的所有样本图片进行局部特征提取,以得到第一特征集合;C1、对所述第一特征集合中的局部特征进行PCA降维处理,得到降维处理后的第二特征集合;D1、采用预设类型的聚类算法将第二特征集合中的局部特征聚类成预先设置的n类,根据第二特征集合中的局部特征聚类结果,将获取到的所有样本图片分成n类。

【技术特征摘要】
1.一种电子装置,其特征在于,所述电子装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的混乱样本整理系统,所述混乱样本整理系统被所述处理器执行时实现如下步骤:A1、获取待整理的样本图片,将获取的样本图片统一调整至预设尺寸;B1、对调整尺寸后的所有样本图片进行局部特征提取,以得到第一特征集合;C1、对所述第一特征集合中的局部特征进行PCA降维处理,得到降维处理后的第二特征集合;D1、采用预设类型的聚类算法将第二特征集合中的局部特征聚类成预先设置的n类,根据第二特征集合中的局部特征聚类结果,将获取到的所有样本图片分成n类。2.如权利要求1所述的电子装置,其特征在于,于所述步骤B1之前,所述处理器还用于执行所述混乱样本整理系统,以实现步骤:计算获取到的样本图片数量,根据预设的样本数量区间与文件夹数量的映射关系,确定当前样本图片数量对应的文件夹数量,将调整尺寸后的所有样本图片均匀分配至确定数量的文件夹中;所述步骤D1替换为:采用预设类型的聚类算法将第二特征集合中的局部特征聚类成预先设置的n类,根据第二特征集合中的局部特征聚类结果,将每个文件夹中的样本图片分成n类。3.如权利要求1或2所述的电子装置,其特征在于,在所述步骤B中,样本图片的局部特征的提取方式为:针对每一张样本图片,提取一个局部特征;或者,针对每一张样本图片,将该样本图片划分为预设的m个图像区域,从各个图像区域中分别提取一个局部特征,再计算m个图像区域的平均局部特征,该平均局部特征作为该样本图片的局部特征。4.如权利要求1或2所述的电子装置,其特征在于,所述将第二特征集合中的局部特征聚类成预设的n个类别的步骤包括:a、随机在所述第二特征集合中选取n个局部特征作为种子点;b、计算所述第二特征集合中的所有余下的局部特征分别到这n个种子点的距离,将所有余下的局部特征分别划分到其距离最近的种子点的点群,得到n个点群;c、计算得到的每个点群的中心,将种子点移动到点群的中心;d、重复步骤b和c,直到种子点不再移动后,此时的n个点群则为分类结果。5.一种混乱样本整理方法,其特征在于,该方法包括步骤:A2、获取待整理的样本图片,将获取的样本图片统一调整至预设尺寸;B2、对调整尺寸后的所有样本图片进行局部特征提取,以得到第一特征集合;C2、对所述第一特征集合中的局部特征进行PCA降维处理,得到第二特征集合;D2、采用预设类型的聚类算法将第二特征集合中的局部特征聚类成预设的n个类别...

【专利技术属性】
技术研发人员:陈林
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1