一种基于样例选择的增量目标识别方法技术

技术编号:24458290 阅读:32 留言:0更新日期:2020-06-10 16:13
本发明专利技术属于自动目标识别技术领域,具体涉及一种基于样例选择的增量目标识别方法。本发明专利技术提出了一种基于局部几何的类边界样本选择方法,并应用于雷达图像自动目标识别的类别增量学习场景中。提出方法能够在数据、类别增量过程中,不仅高效添加新的识别性能,也能够有效保护已有类别的识别能力,提升增量训练的计算和数据整合效率,解决大规模训练数据的高效利用问题。

Incremental target recognition method based on sample selection

【技术实现步骤摘要】
一种基于样例选择的增量目标识别方法
本专利技术属于目标识别
,具体涉及一种基于样例选择的增量目标识别方法。
技术介绍
目标识别利用遥感传感器获取的图像信息实现目标种类、型号等属性的判定,在战场侦察、精确打击等军事领域有明确的应用需求。监督学习从已有的标记训练样本训练分类器,对未知样本目标类型进行判断,是目前目标识别领域的主流方法。监督学习的性能和训练样本的完备程度密切相关。随着训练数据的不断获取与丰富,目标样本的数量和类型也逐渐增加。增量式的目标识别方法仅使用新增数据对已有识别模型进行局部快速更新,避免了对已有数据和类别的重复存储和训练。然而,如果完全脱离已有训练样本,将会造成前期训练样本形成的识别能力的损失。解决这一问题的途径之一就是在数据增量过程中筛选部分关键样例,仅使用代表性示例代替全部的数据分布参与增量模型构建,可以保证更新效率与质量。近年来,在机器学习,计算机视觉领域,提出了很多用于增量式目标识别的样例选择的方法,主要分为两个方面:(1)基于已有模型输出的样例选择方法,对一些模型的输出指标进行计算评估可以选择关键样例,如分类概率自信度,决策熵,到分类面距离等;(2)基于数据分布的样例选择方法,建立一定的数据分布挑选规则来挑选样本,如随机选择,利用数据均值扩散选择,利用聚类结构选择等。现有的增量目标识别方法在模型训练过程中,样本数据的优选问题尚未得到足够重视,随着数据规模的逐渐扩大,开展增量目标识别中样例选择方法的研究,能够显著提高数据的有效利用率,实现数据增量过程中有效训练集的快速整合。当数据不断获取时,识别性能降低的根本原因是数据分布的变化。新增数据与之前的数据分布不同,造成更新后的模型拟合更偏向于新数据,已有训练数据对应的识别能力下降。基于模型输出的样例选择过于依赖当下数据分布对应的模型,无法从根本上选择到关键的数据分布。因此本文更关注基于数据分布的样例选择方法。类别增量是增量学习的典型场景,当已有类别训练完备时,新类别的加入会导致模型更偏向于新类的判决,已有类别和全局分类性能大幅下降。提取已有类别的关键分布信息,可以在数据增量过程中保留已有类别样本的识别能力,提升增量训练的计算和数据整合效率,解决大规模训练数据的高效利用问题。因此,研究优秀的类别关键样例提取方法,让目标识别系统在数据类别不断增加的过程中,不仅能够高效添加新的识别性能,也能够有效保护已有识别能力,是增量目标识别技术面向实用化的关键。
技术实现思路
本专利技术的目的,就是针对上述存在的问题及不足,为了克服增量目标识别方法在学习新数据时,已有数据对应的识别性能下降的缺陷,使自动目标识别系统具备对已有训练样本关键分布的提取能力,提供了一种基于样例选择的增量目标识别方法。本专利技术由以下步骤实现,首先对于已有训练样本集,选择每个类别的边界样例(步骤1-7),在之后的类别逐渐增加过程中,当添加新类别的训练样本训练识别模型时,已有类别只使用选择的边界样例即可(步骤8)。详细步骤包括:步骤1、首先构建每个样本与类内其他样本的空间几何关系,对于一个训练样本xi,通过与类内其他样本距离的计算,得到它的类内最近邻的k个样本{xij,j=1,…,k}。此过程的训练样本x指的是已经完成特征提取的特征空间的训练样本而不是原始图像数据,距离的计算采用欧式距离计算方式。步骤2、为了评估训练样本xi在整个类别分布中的密度梯度方向,计算以xi为起点的最近邻的k个样本的方向向量{vij,j=1,…,k}:vij=xij-xi步骤3、训练样本xi处的梯度方向向量vi为其局部k个近邻样本方向向量的均值。计算方式如下:其中||·||代表向量的2范数。由附图1可以看出,梯度方向向量vi的垂直方向即为训练样本xi处的切平面向量方向,由训练样本xi的k个近邻样本的分布位置即可以判断xi是否为类别边界,若大多数近邻样本分布在切平面一侧即梯度方向向量vi同侧,则xi为类别边界样本。步骤4、计算训练样本xi的每一个近邻样本的方向向量与梯度方向向量vi的内积{θij,j=1,…,k},计算公式如下:θij=viTvij步骤5、如果近邻样本分布在切平面一侧即梯度方向向量vi同侧,则此内积值大于0。因此可以统计出训练样本xi的k个近邻样本分布在梯度方向向量vi同侧的比率li,计算公式如下:其中,I(·)函数的定义是,括号内的判断为正确则值为1,反之为0。步骤6、由上述比率li可以判断训练样本xi是否为边界样本。xi是为边界样本的条件如下:li≥1-γ其中,γ为人工设定的常量参数,取值范围为0~0.2。如,取γ值为0.1时,判断条件为90%的近邻样本都在在切平面一侧即梯度方向向量vi同侧。至此,基于局部几何信息的类别边界初步提取完毕,假设提取到的边界样本集合为{et,t=1,…,N},N为初步挑选的边界样本的数目。增量学习中需要控制已有类别样本的数量,而初步挑选的样本数量是不能直接控制的,而且数量很少,不足以使得边界完整。因此接下来的步骤采用羊群效应对已有边界样例集{et}进行拓展。步骤7、对于每一个边界样本et进行羊群效应的拓展,假设et作为羊头的M个羊群点的集合为{pm,m=1,...,M}。羊群点的选择范围为同类样本中的其他样本,迭代公式如下:其中,||·||代表向量的2范数。迭代规则为:每次选择一个类内的非羊头样本xi加入羊群点集合{pm}中,添加依据为,求羊群集合已有样本和每一个待选择样本{xi,xi≠et}的均值,然后用此均值样本和et计算距离,距离最小的xi为加入羊群,一直迭代到{pm}中包含M个样本。对已有边界样例集{et}中的其他样本重复执行步骤7,则得到的边界样本数量为(N×M)个。然而,(N×M)不是最终的边界样本数量。由于已有边界样例集{et}中的不同样本作为羊头在执行羊群效应时,可能会在他们的羊群中加入相同的训练样本,因此剔除重复的样本得到最终的K个样例的集合。在实际操作时,由于步骤7是一个迭代过程,因此对于羊群数量M并不做人工设定,仅设定最终样例数量K作为迭代终止条件,即,每迭代一次统计最终的样例数量,达到K则停止,没有达到则继续迭代。步骤8、对已有训练样本集的每个类别实施步骤1-7,假设类别数为C,选择出已有训练样本集的样例集,样例数目为(C×K),当新类别训练样本到来时,仅使用(C×K)个已有样例与新样本合并训练分类器,避免了对全部已有训练样本的重复计算和存储,完成已有类别和新类别待识别样本的分类识别。边界样本能够界定类别数据分布范围,其决策信息量远远大于内部样本。本专利技术根据局部几何分布定义,首先提取了类别的边界样本,然后基于增量学习的需求,引入羊群效应,来控制边界样本的数量并补全可能缺失的类别边界。作为样例选择方法可以有效提取训练样本中的关键数据分布,大幅提升训练的效率,用于类别增量学习可以有效保留已有类别的识别能力。本专利技术的有益效果为,本文档来自技高网
...

【技术保护点】
1.一种基于样例选择的增量目标识别方法,其特征在于,包括以下步骤:/n步骤1、对特征空间的一个训练样本x

【技术特征摘要】
1.一种基于样例选择的增量目标识别方法,其特征在于,包括以下步骤:
步骤1、对特征空间的一个训练样本xi,通过与类内其他样本距离的计算,得到它的类内最近邻的k个样本{xij,j=1,…,k};
步骤2、计算以xi为起点的最近邻的k个样本的方向向量{vij,j=1,…,k}:
vij=xij-xi
步骤3、计算训练样本xi处的梯度方向向量vi:






其中||·||代表向量的2范数;
步骤4、计算训练样本xi的每一个近邻样本的方向向量与梯度方向向量vi的内积{θij,j=1,…,k}:
θij=viTvij
步骤5、计算训练样本xi的k个近邻样本分布在切平面一侧,即梯度方向向量vi同侧的比率li:



其中,I(·)函数的定义是,括号内的判断为正确则值为1,反之为0;
步骤6、判断训练样本xi是否为边界样本,xi为边界样本的条件如下:
li≥1-γ
其中,γ为人工设定的常量参数,取值范围为0~0.2;
若xi是边界样本,则将其提取到边界样本集合{...

【专利技术属性】
技术研发人员:曹宗杰党思航崔宗勇皮亦鸣杨建宇
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1