一种基于KNN的图像样本生成方法技术

技术编号:23051086 阅读:21 留言:0更新日期:2020-01-07 14:56
本发明专利技术提供一种基于KNN的图像样本生成方法,包括以下步骤:(1)按照已知的类别,对采集到的图像数据进行归类,得到不同类别的图像数据集合;(2)对这些类别的图像数据按照定制的标准进行对齐处理;(3)对对齐后的每一类数据进行主成分分析;再对每一个主成分与原数据用KNN求解m维最近距离,其中m的取值范围为(1,n),n为主成分个数;(4)取最小的m维最近距离对应的m个原数据,并对这m个数据进行加权求和,即得该定制标准下的规则样本数据。本发明专利技术可以得到本类质量更好、更具代表性,针对性的图像样本数据,提高了图像样本数据分类器的精度,从而满足算法等其他应用需要。

An image sample generation method based on KNN

【技术实现步骤摘要】
一种基于KNN的图像样本生成方法
本专利技术涉及一种样本生成方法,具体说是一种基于KNN的图像样本生成方法,属于图像处理

技术介绍
随着大数据云计算技术的兴起,各种数据的大量建立,造成数据之间的标准不一致,有效数据的评价不一致,导致数据质量参差不齐。现有技术一般依赖业界开源的标准库,对算法的适应性检测较为粗糙,普遍地标准库上算法效果好,实际场景中效果不如人意。比如在人脸图像处理的技术落地方面,通用标准库一般让采集的角度,光照条件,表情变化等趋向一致,而实际情况是角度多变,光照条件多变,表情更是随机。通常对于一个算法,往往需要大量的人脸图像数据来训练。而大量样本的收集费时费力,还需要人工标注,更重要的是人工标注的好坏将直接影响算法的训练。对于一些特殊应用,比如单人脸实时识别,高速移动物体的实时识别等,这些对象的图像采集本身就非常困难,样本数量更加有限。因此需要设计一种方法,能根据有限的样本生成更加标准的样本,再对生成的样本根据现有的样本繁殖技术(例如AAM模型)进行样本繁殖,以生成更多的可用的高质量样本。
技术实现思路
本专利技术设计了一种图像样本生成方法,具体说是一种基于KNN的图像样本生成方法,用来得到质量更好,更具有代表性的图像样本数据,从而提高算法落地可能性。本专利技术提供的一种样本生成方法,具体说是一种基于KNN的图像样本生成方法,包括以下步骤:(1)按照已知的类别,对采集到的图像数据进行归类,得到不同类别的图像数据集合;(2)对这些类别的图像数据按照定制的标准进行对齐处理;(3)对对齐后的每一类数据进行主成分分析;再对每一个主成分与原数据用KNN求解m维最近距离,其中m的取值范围为(1,n),n为主成分个数;(4)取最小的m维最近距离对应的m个原数据,并对这m个数据进行加权求和,即得该定制标准下的规则样本数据。可以根据该规则样本数据进行样本繁殖。最近距离的维数m取值以及加权求和可为根据实际需要调整,只要不脱离主成分分析和KNN求解最近距离样本的范围。其中K的取值范围为(1,n),n为主成分个数。一般地,KNN中的K既不能取太小值,也不能取太大值。取太小,则结果依赖所取的个别样本,误差影响较大;取太大,则运算量非常大。合适范围的取值视提取任务的量和工程师的经验而定。本专利技术提供的一种基于KNN的图像样本生成方法,按照已知的类别,对采集到的图像样本数据进行分类,得到多个类别的样本数据集合;对每个类的数据按照定制要求进行对齐;分别对每类数据进行主成分分析,得到多个主成分组;再对每个组求解m维最近距离,并取最小距离值对应的m个原数据,得到这m个数据的加权和,即为该定制要求下的规则样本数据;最后可以利用AAM等模型来对该类的规则样本数据进行样本繁殖,从而可以得到本类质量更好、更具代表性,针对性的图像样本数据,提高图像样本数据分类器的精度,从而满足算法等其他应用需要。附图说明图1为实施例以人脸图像为例的原理流程示意图;图2为实施例用KNN对原数据和主成分求解m维最近距离的数据,图例中m=2。具体实施方式本专利技术提供了一种图像样本生成方法,具体说是一种基于KNN的图像样本生成方法,用来得到质量更好,更具有代表性的图像样本数据,从而提高算法落地可能性。为方便说明本专利技术实施例,以人脸图像样本数据为例。进一步地,对于其他研究对象的图像样本数据,本专利技术实施例提供的技术方案同样适用。下面结合附图对本专利技术提供的技术方案进行说明。本专利技术实施例设计了一种基于KNN的图像样本生成方法,参见图1,首先按照已知的类别,对采集到的图像数据进行归类,得到不同类别的图像数据集合;对这些类别的图像数据按照定制的标准进行对齐处理;对对齐后的每一类数据进行主成分分析,假设对某类数据Φ(θ1,…,θn)进行分析,其中θi(i=1,…,n)为本类中的第i个样本;主成分(PCA)是一种数据集简化手段。将数据按照方差的特性进行排列,主成分即为特征向量,方差大的主成分,对应的特征值就越大,所占权重就相应的更大。对Φ(θ1,…,θn)主成分分析,得到n个主成分Γ(f1,…,fn)。如图2,假设原数据为3维,通过主成分分析可以得到v1,v2,v3这3个主成分向量。对主成分v1与整个本类的原数据集(这里是x1x2x3O坐标系下的数据)用KNN算法来计算最近距离所对应的原数据(样本),K取值为1;其他主成分以此类推,示例中m取2,则得到2维最近距离对应的2个原数据。计算规则样本数据为方便描述,这里的加权求和简化为求平均。如图2,示例中即认为S是本类样本数据在该定制要求下的规则数据。然后按照样本繁殖技术(比如AAM)对S进行繁殖,得到符合定制要求且质量较高的数据。定制要求包括但不限于本文所述;样本繁殖技术包括但不限于本文所述;所述m维数的取值以及加权求和的设计方法可以根据实际需要来调整,不必限于本专利技术的举例。只要不脱离主成分分析和KNN求解最近距离样本的范围,则本专利技术也意图包含这些变动和变型在内。本文档来自技高网...

【技术保护点】
1.一种基于KNN的图像样本生成方法,其特征在于,包括以下步骤:/n(1)按照已知的类别,对采集到的图像数据进行归类,得到不同类别的图像数据集合;/n(2)对这些类别的图像数据按照定制的标准进行对齐处理;/n(3)对对齐后的每一类数据进行主成分分析;再对每一个主成分与原数据用KNN求解m维最近距离,其中m的取值范围为(1,n),n为主成分个数;/n(4)取最小的m维最近距离对应的m个原数据,并对这m个数据进行加权求和,即得该定制标准下的规则样本数据。/n

【技术特征摘要】
1.一种基于KNN的图像样本生成方法,其特征在于,包括以下步骤:
(1)按照已知的类别,对采集到的图像数据进行归类,得到不同类别的图像数据集合;
(2)对这些类别的图像数据按照定制的标准进行对齐处理;
(3)对对齐后的每一类数据进行主成分分析;再对每一个主成分与原数据用KNN求解m维最近距离,其中m的取值范围为(...

【专利技术属性】
技术研发人员:赵书朵韩旭冯冠钦周文豪马晨鑫董双慧
申请(专利权)人:西南石油大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1