电子装置、图片样本集生成方法和计算机可读存储介质制造方法及图纸

技术编号:19635674 阅读:25 留言:0更新日期:2018-12-01 16:18
本发明专利技术公开一种电子装置、图片样本集生成方法和计算机可读存储介质,该方法包括:逐一播放预先录制的视频;针对每一帧图片,对该帧图片进行识别及标记处理;在所有视频播放完成后,针对每一种标记,对应创建一个文件夹,将所有图片按照其标记存放到对应的文件夹中;针对每一个文件夹,采用预先训练好的人脸识别的深度学习模型对该文件夹中的所有图片进行特征提取,以得到该文件夹中的每一张图片的特征向量;通过聚类算法对该文件夹中的特征向量进行聚类处理,以清洗去除该文件夹中的杂质图片;将各个文件夹中的图片合并形成图片样本集。本发明专利技术技术方案通过视频资源快速生成杂质少的图片样本集,用作训练集训练出的模型的效果更佳。

Electronic Device, Method of Generating Picture Sample Set and Computer Readable Storage Media

The invention discloses an electronic device, a method for generating image sample set and a computer readable storage medium. The method includes: playing pre-recorded video one by one; recognizing and marking the frame image for each frame image; creating a text corresponding to each kind of marker after all video playback is completed. For each folder, a pre-trained deep learning model of face recognition is used to extract the features of all the pictures in the folder to get the feature vectors of each picture in the folder. The clustering algorithm is used to extract the feature vectors of each picture in the folder. The feature vectors in the folder are clustered to clean and remove the impurity pictures in the folder, and the pictures in each folder are merged to form a sample set of pictures. The technical scheme of the invention can quickly generate a picture sample set with less impurities through video resources, and has better effect as a model trained by the training set.

【技术实现步骤摘要】
电子装置、图片样本集生成方法和计算机可读存储介质
本专利技术涉及图片数据处理
,特别涉及一种电子装置、图片样本集生成方法和计算机可读存储介质。
技术介绍
深度学习工程应用领域,数据比算法更重要,但是样本训练集很难获取,并且原始得到的人脸照片,很多时候都混肴着很大杂质的照片,这样导致训练集的噪声很大,从而训练出的模型的效果不佳。
技术实现思路
本专利技术提供一种电子装置、图片样本集生成方法和计算机可读存储介质,旨在实现快速的获取杂质少的图片样本集,以用于训练出更好的模型。为实现上述目的,本专利技术提出的电子装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的图片样本集生成系统,所述图片样本集生成系统被所述处理器执行时实现如下步骤:A1、逐一播放预先录制的视频;B1、在视频播放过程中,针对每一帧图片,对该帧图片进行识别及标记处理,经过识别和标记处理的图片中,识别为同一个人的任意两帧图片的标记相同,识别为非同一个人的任意两帧图片的标记不同;C1、在所有视频播放完成后,针对每一种标记,对应创建一个文件夹,将所有图片按照其标记存放到对应的文件夹中;D1、针对每一个文件夹,采用预先训练好的人脸识别的深度学习模型对该文件夹中的所有图片进行特征提取,以得到该文件夹中的每一张图片的特征向量;E1、针对每一个文件夹,通过聚类算法对该文件夹中的特征向量进行聚类处理,以清洗去除该文件夹中的杂质图片;F1、将各个文件夹中的图片合并形成图片样本集。优选地,所述通过聚类算法对该文件夹中的特征向量进行聚类处理,以清洗去除该文件夹中的杂质图片的步骤包括:先计算出该文件夹中的所有特征向量的均值向量,再计算该文件夹中的每个特征向量分别到所述均值向量的距离;在该文件夹中提取出到所述均值向量的距离最近的N个特征向量作为种子,计算该文件夹中余下的特征向量分别到各个种子的余弦距离;筛选出到各个种子的余弦距离均大于预设阈值的特征向量,保留筛选出的特征向量对应的图片和各个种子对应的图片,将其余图片从当前文件夹中删除。优选地,所述对该帧图片进行识别及标记处理的步骤包括:识别当前帧图片得出当前识别结果,将当前识别结果与识别历史记录中的所有识别结果进行比对;若识别历史记录中存在与当前识别结果相同的识别结果,则采用与当前识别结果相同的识别结果所对应的标记来标记当前帧图片;若识别历史记录中不存在与当前识别结果相同的识别结果,则采用新增的标记对当前帧图片进行标记。优选地,在所述步骤E1之后,所述处理器还用于执行所述图片样本集生成系统,以实现如下步骤:获取预先保存的参与录制视频的所有人员的样本照片,每张样本照片标有其对应的人员的姓名标签;采用预先训练好的人脸识别的深度学习模型,分别提取各个样本照片的特征向量,并获取各个文件夹中各个的特征向量,使用knn算法分别计算出各个文件夹各自对应的样本照片,将每个文件夹中的所有图片均标注上该文件夹对应的样本照片的姓名标签。本专利技术还提出一种图片样本集生成方法,该方法包括步骤:A2、逐一播放预先录制的视频;B2、在视频播放过程中,针对每一帧图片,对该帧图片进行识别及标记处理,经过识别和标记处理的图片中,识别为同一个人的任意两帧图片的标记相同,识别为非同一个人的任意两帧图片的标记不同;C2、在所有视频播放完成后,针对每一种标记,对应创建一个文件夹,将所有图片按照其标记存放到对应的文件夹中;D2、针对每一个文件夹,采用预先训练好的人脸识别的深度学习模型对该文件夹中的所有图片进行特征提取,以得到该文件夹中的每一张图片的特征向量;E2、针对每一个文件夹,通过聚类算法对该文件夹中的特征向量进行聚类处理,以清洗去除该文件夹中的杂质图片;F2、将各个文件夹中的图片合并形成图片样本集。优选地,所述通过聚类算法对该文件夹中的特征向量进行聚类处理,以清洗去除该文件夹中的杂质图片的步骤包括:先计算出该文件夹中的所有特征向量的均值向量,再计算该文件夹中的每个特征向量分别到所述均值向量的距离;在该文件夹中提取出到所述均值向量的距离最近的N个特征向量作为种子,计算该文件夹中余下的特征向量分别到各个种子的余弦距离;筛选出到各个种子的余弦距离均大于预设阈值的特征向量,保留筛选出的特征向量对应的图片和各个种子对应的图片,将其余图片从当前文件夹中删除。优选地,所述对该帧图片进行识别及标记处理的步骤包括:识别当前帧图片得出当前识别结果,将当前识别结果与识别历史记录中的所有识别结果进行比对;若识别历史记录中存在与当前识别结果相同的识别结果,则采用与当前识别结果相同的识别结果所对应的标记来标记当前帧图片;若识别历史记录中不存在与当前识别结果相同的识别结果,则采用新增的标记对当前帧图片进行标记。优选地,在所述步骤E2之后,所述图片样本集生成方法还包括:获取预先保存的参与录制视频的所有人员的样本照片,每张样本照片标有其对应的人员的姓名标签;采用预先训练好的人脸识别的深度学习模型,分别提取各个样本照片的特征向量,并获取各个文件夹中各个的特征向量,使用knn算法分别计算出各个文件夹各自对应的样本照片,将每个文件夹中的所有图片均标注上该文件夹对应的样本照片的姓名标签。本专利技术还提出一种计算机可读存储介质,所述计算机可读存储介质存储有图片样本集生成系统,所述图片样本集生成系统可被至少一个处理器执行,以使所述至少一个处理器执行如下步骤:逐一播放预先录制的视频;在视频播放过程中,针对每一帧图片,对该帧图片进行识别及标记处理,经过识别和标记处理的图片中,识别为同一个人的任意两帧图片的标记相同,识别为非同一个人的任意两帧图片的标记不同;在所有视频播放完成后,针对每一种标记,对应创建一个文件夹,将所有图片按照其标记存放到对应的文件夹中;针对每一个文件夹,采用预先训练好的人脸识别的深度学习模型对该文件夹中的所有图片进行特征提取,以得到该文件夹中的每一张图片的特征向量;针对每一个文件夹,通过聚类算法对该文件夹中的特征向量进行聚类处理,以清洗去除该文件夹中的杂质图片;将各个文件夹中的图片合并形成图片样本集。优选地,所述通过聚类算法对该文件夹中的特征向量进行聚类处理,以清洗去除该文件夹中的杂质图片的步骤包括:先计算出该文件夹中的所有特征向量的均值向量,再计算该文件夹中的每个特征向量分别到所述均值向量的距离;在该文件夹中提取出到所述均值向量的距离最近的N个特征向量作为种子,计算该文件夹中余下的特征向量分别到各个种子的余弦距离;筛选出到各个种子的余弦距离均大于预设阈值的特征向量,保留筛选出的特征向量对应的图片和各个种子对应的图片,将其余图片从当前文件夹中删除。本专利技术技术方案,先通过在预先录制的视频的播放过程中,追踪识别出每一帧图片中的人并进行标记,识别出为同一个人的任意两帧图片标上相同标记,对识别为非同一个人的任意两帧图片分别标上不同标记;然后根据标记种数,创建与标记一一对应的文件夹,将识别出的所有图片按照标记分别存入对应的文件夹;再利用预先训练好的人脸识别的深度学习模型和聚类算法对每个文件夹中的图片分别进行清洗,去除各个文件夹中的杂质图片;最终得到由各个文件夹合并形成的图片样本集。本方案实现了通过视频资源快速生成图片样本集,并且该图片样本集经过了聚类算法进行杂质图片清洗,从而得到的图片样本文档来自技高网...

【技术保护点】
1.一种电子装置,其特征在于,所述电子装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的图片样本集生成系统,所述图片样本集生成系统被所述处理器执行时实现如下步骤:A1、逐一播放预先录制的视频;B1、在视频播放过程中,针对每一帧图片,对该帧图片进行识别及标记处理,经过识别和标记处理的图片中,识别为同一个人的任意两帧图片的标记相同,识别为非同一个人的任意两帧图片的标记不同;C1、在所有视频播放完成后,针对每一种标记,对应创建一个文件夹,将所有图片按照其标记存放到对应的文件夹中;D1、针对每一个文件夹,采用预先训练好的人脸识别的深度学习模型对该文件夹中的所有图片进行特征提取,以得到该文件夹中的每一张图片的特征向量;E1、针对每一个文件夹,通过聚类算法对该文件夹中的特征向量进行聚类处理,以清洗去除该文件夹中的杂质图片;F1、将各个文件夹中的图片合并形成图片样本集。

【技术特征摘要】
1.一种电子装置,其特征在于,所述电子装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的图片样本集生成系统,所述图片样本集生成系统被所述处理器执行时实现如下步骤:A1、逐一播放预先录制的视频;B1、在视频播放过程中,针对每一帧图片,对该帧图片进行识别及标记处理,经过识别和标记处理的图片中,识别为同一个人的任意两帧图片的标记相同,识别为非同一个人的任意两帧图片的标记不同;C1、在所有视频播放完成后,针对每一种标记,对应创建一个文件夹,将所有图片按照其标记存放到对应的文件夹中;D1、针对每一个文件夹,采用预先训练好的人脸识别的深度学习模型对该文件夹中的所有图片进行特征提取,以得到该文件夹中的每一张图片的特征向量;E1、针对每一个文件夹,通过聚类算法对该文件夹中的特征向量进行聚类处理,以清洗去除该文件夹中的杂质图片;F1、将各个文件夹中的图片合并形成图片样本集。2.如权利要求1所述的电子装置,其特征在于,所述通过聚类算法对该文件夹中的特征向量进行聚类处理,以清洗去除该文件夹中的杂质图片的步骤包括:先计算出该文件夹中的所有特征向量的均值向量,再计算该文件夹中的每个特征向量分别到所述均值向量的距离;在该文件夹中提取出到所述均值向量的距离最近的N个特征向量作为种子,计算该文件夹中余下的特征向量分别到各个种子的余弦距离;筛选出到各个种子的余弦距离均大于预设阈值的特征向量,保留筛选出的特征向量对应的图片和各个种子对应的图片,将其余图片从当前文件夹中删除。3.如权利要求1所述的电子装置,其特征在于,所述对该帧图片进行识别及标记处理的步骤包括:识别当前帧图片得出当前识别结果,将当前识别结果与识别历史记录中的所有识别结果进行比对;若识别历史记录中存在与当前识别结果相同的识别结果,则采用与当前识别结果相同的识别结果所对应的标记来标记当前帧图片;若识别历史记录中不存在与当前识别结果相同的识别结果,则采用新增的标记对当前帧图片进行标记。4.如权利要求1至3中任意一项所述的电子装置,其特征在于,在所述步骤E1之后,所述处理器还用于执行所述图片样本集生成系统,以实现如下步骤:获取预先保存的参与录制视频的所有人员的样本照片,每张样本照片标有其对应的人员的姓名标签;采用预先训练好的人脸识别的深度学习模型,分别提取各个样本照片的特征向量,并获取各个文件夹中各个的特征向量,使用knn算法分别计算出各个文件夹各自对应的样本照片,将每个文件夹中的所有图片均标注上该文件夹对应的样本照片的姓名标签。5.一种图片样本集生成方法,其特征在于,该方法包括步骤:A2、逐一播放预先录制的视频;B2、在视频播放过程中,针对每一帧图片,对该帧图片进行识别及标记处理,经过识别和标记处理的图片中,识别为同一个人的任意两帧图片的标记相同,识别为非同一个人的任意两帧图片的标记不同;C2、在所有视频播放完成后,针对每一种标记,对应创建一个文件夹,将所有图片按照其标记存放到对应的文件夹中;D2、针对每一个文件夹,采用预先训练好的人脸识别的深度学习模型对该文件夹中的所有图片进行特征提取,以得到该文件夹中的每一张图片的特征向量;E2、针对每一个文件夹,通过聚类算法对该文件夹中的...

【专利技术属性】
技术研发人员:徐玲玲
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1