一种基于样本自适应扩充的集成学习方法技术

技术编号:19481182 阅读:34 留言:0更新日期:2018-11-17 10:39
本发明专利技术公开了一种基于样本自适应扩充的集成学习方法,一方面通过采用bootstrap特征抽样与动态加权投票的方式对多个弱分类器进行集成,继承了集成学习方法分类精度高、重复性好的优点;另一方面,该方法能够在少量地面调查样本的基础上,通过迭代分类与基于空间离散度和属性相似度的样本筛选,实现样本的自适应扩充,解决了分类中小样本导致的模型欠学习问题。本案所涉及的集成学习方法采用样本自适应扩充的方式,可以有效解决遥感分类过程中样本不足的问题,同时减少了研究人员获取样本所耗费的人力及时间。

【技术实现步骤摘要】
一种基于样本自适应扩充的集成学习方法
本专利技术涉及遥感
,具体涉及通过对少量采集的真实样本进行自适应扩充,以实现小样本情况下进行遥感信息提取的方法。
技术介绍
随着成像技术的提高,遥感数据获取的手段越来越多样,遥感数据的重要应用之一是图像分类。早期的遥感影像分类主要有监督分类和非监督分类两种方式,其中监督分类方式需要在地物样本支持下进行模型训练,进而对整幅影像进行分类。地物样本的获取主要有两种方式:一是依赖先验知识在影像上通过目视解译确定不同地物类型,从影像中选取各地类的样本;二是通过外业调查方式,实地获取不同地类的地理坐标和照片,尔后在内业分类中结合外业调查点坐标在影像上进行样本选择。样本的准确获取是一项费时费力的工作,尤其是在需通过实地调查获取样本的农业遥感应用中,样本量大小不仅与分类识别精度密切相关,同时也是成本控制需要考虑的重要因素。近年来,基于机器学习的遥感影像分类方法得到了长足的发展,相比于传统的遥感影像分类方法,其样本的需求量急剧增加。以深度学习方法进行遥感影像分类为例,地类样本数量一般为几百甚至几千个,样本选择工作量巨大,靠人工方式有时甚至难以获取足够的样本数据,而在缺少样本的前提下,机器学习分类的准确性难以得到保证。因此,在遥感大数据时代,样本在遥感影像分类方面的重要性日益凸显。此外,大量的样本采集和整理工作降低了分类的时效性,对于时效性要求较高的应用如灾情评估等,传统的样本获取方式难以满足应用需求。而另一方面,以往的遥感监督分类方法都是基于给定数目样本的基础上进行训练和分类,在整个分类信息提取过程中样本总量保持不变,模型输入的样本数量与质量在很大程度上决定了遥感分类的效果。如何在有限的样本条件下获得满足应用需求的分类精度是当前遥感分类信息提取工作中急需解决的难题。(相关文献:赵英时.遥感应用分析原理与方法[M].科学出版社,2013.;刘大伟,韩玲,韩晓勇.基于深度学习的高分辨率遥感影像分类研究[J].光学学报,2016,(04):306-314.;高常鑫,桑农.基于深度学习的高分辨率遥感影像目标检测[J].测绘通报,2014,(S1):108-111.)针对遥感影像分类中大量真实样本的获取存在成本高、难度大的难题,本专利技术提出了一种样本自适应扩充的集成学习方法。在少量真实样本基础上,通过多分类器集成的迭代扩充,以及在空间和属性二重维度的筛选,有效解决小样本问题,同时实现遥感影像的高精度分类,提高遥感信息提取的时效性和准确性。
技术实现思路
针对现有技术中存在的不足之处,尤其是针对遥感影像分类过程中的真实样本难以获取的问题,本专利技术的目的在于提出一种基于样本自适应扩充的集成学习方法,应用该方法可以有效解决样本不足的问题,进而实现利用机器学习中的集成学习方式进行遥感影像的分类,以提高样本分类的时效性和准确性。本专利技术的总体思路是首先构建一个由不同性质分类算法组成的分类器模版库,通过模版库可生成具有不同参数设置的分类器实例(弱分类器);然后由多个生成的分类器实例以及专家知识决策树构成一个集成分类器(可由数十上百个弱分类器组成),各弱分类器之间采用类似于bagging的并行集成方式,每一个弱分类器基于全样本集对目标影像进行训练和分类;其次,结合当前样本集对各个弱分类器在不同类型地物上的识别能力进行评分与权重调整,使之对不同地类的最终分类结果具有不同的影响权重,对于某个待分类像元(或者地块对象),其所属类别由所有地类中权重和最高者决定;最后计算所得分类结果的分类精度,如果精度满足要求则输出,否则针对每一地类从当前分类结果中抽选一定比例(20%)的权重最高的像元(或地块对象)作为候选新增样本,通过属性相似与空间离散最大化原则进行筛选,并将筛选优化后的新样本加入到原样本中,形成新的样本集合,进而开始下一轮迭代分类和样本扩充,直至分类精度满足要求(或精度不再提升)。本专利技术提供了一种基于样本自适应扩充的集成学习方法,包括下述步骤:1)建立目标研究区域的影像样本库;2)根据步骤1)所述影像样本库中的所有影像样本,采取有放回抽样法(bootstrap方法)从样本特征集中抽样获得n个特征子集;其中,n为任意正整数,与要采用的弱分类器的数量相同;3)根据预设参数从分类算法模版库中生成n个弱分类器,这些弱分类器可以为同一类型分类器(如C5决策树)或不同类型分类器,由这些弱分类器集成为一个强分类器;并利用所述n个特征子集以一一对应的方式对每个弱分类器进行模型训练,其中,所述特征子集的数量与弱分类器的数量相同;4)使用所述训练好的n个弱分类器分别对所述影像样本进行分类,得到n个分类结果;5)基于步骤1)所述影像样本库对步骤4)所述n个分类结果进行精度检验,得到每个弱分类器对不同地类的分类精度,并据此对每个弱分类器进行权重赋值;6)对任一待分类地类的象元,其所属地类类别由所述n个弱分类器对其的识别结果以及各弱分类器的权重所决定;首先采用所述n个弱分类器分别对其进行分类得到n个弱分类结果;然后根据所述每个弱分类器的权重,对所述n个弱分类结果进行加权投票计算得到分类权重,并以权重和最高的地类作为所述待分类地类的象元所属类别,即得到强分类结果;7)判别所述强分类结果是否满足精度要求;当满足所述精度要求时,转向步骤10);当不满足所述精度要求时,对于每一地类从强分类结果中取权重最高的20%像元作为该地类的候选新增样本,组成候选新增样本集;8)在候选新增样本集下,计算每个候选新增样本与同一地类剩余候选新增样本的空间离散度及属性相似度,并与该候选新增样本的分类权重相乘,进而获得每个候选新增样本的总权重,该总权重作为样本分类正确性、空间离散性及属性相似性的综合度量;9)在步骤8)的基础上,从每一地类的候选新增样本中筛选出10%总权重最高的样本作为新增样本,加入到步骤1)中影像样本库中,以实现新样本的扩充,并重新执行步骤1)至9)的分类过程;10)终止分类过程并输出。优选的是,所述影像样本库中的影像样本包括基于地面调查点的遥感影像样本以及新增样本;其中,所述基于地面调查点的遥感影像样本通过各调查点的空间位置对影像象元进行采样及特征计算获得;所述遥感影像经过几何校正和辐射校正。优选的是,所述影像样本库采用迭代的方式生成候选新增样本,并根据其空间离散度和属性相似度进行筛选,以补充到影像样本库中,实现影像样本库的自适应扩充。优选的是,步骤7)中所述强分类结果满足精度要求时,终止迭代;不满足精度要求时,从本轮强分类结果中生成新增样本补充至影像样本库,重复步骤1)至9)的过程,直至所述强分类器的分类结果满足精度要求。优选的是,步骤3)中所述分类算法模块库是由不同性质的分类算法组成,能够生成具有不同参数设置的分类器实例,即弱分类器;所述n个弱分类器为同一类型或者不同类型的分类器实例。优选的是,步骤3)中所述n个弱分类器以类似bagging的并行方式构成一个集成分类器。优选的是,步骤6)中所述弱分类结果被加权投票计算得到分类权重,并以权重和最高的地类作为所述待分类地类的象元所属类别,即得到强分类结果。优选的是,步骤6)中所述强分类结果为强分类器的分类结果;所述强分类器由弱分类器集成而得。优选的是,步骤8)中所述空间离散度的计算公式为:本文档来自技高网
...

【技术保护点】
1.一种基于样本自适应扩充的集成学习方法,其特征在于,包括下述步骤:1)建立目标研究区域的影像样本库;2)根据步骤1)所述影像样本库中的所有影像样本,采取有放回抽样法从样本特征集中抽样获得n个特征子集;其中,n为任意正整数;3)根据预设参数从分类算法模版库中生成n个弱分类器,并利用所述n个特征子集以一一对应的方式对每个弱分类器进行模型训练;其中,所述特征子集的数量与弱分类器的数量相同;4)使用所述训练好的n个弱分类器分别对所述影像样本进行分类,得到n个分类结果;5)基于步骤1)所述影像样本库对步骤4)所述n个分类结果进行精度检验,得到每个弱分类器对不同地类的分类精度,并据此对每个弱分类器进行权重赋值;6)对任一待分类象元,首先采用所述n个弱分类器分别对其进行分类得到n个弱分类结果;然后根据所述每个弱分类器的权重,对所述n个弱分类结果进行加权投票计算得到分类权重,并以权重和最高的地类作为所述待分类地类的象元所属类别,即得到强分类结果;7)判别所述强分类结果是否满足精度要求;当满足所述精度要求时,转向步骤10);当不满足所述精度要求时,对于每一地类从强分类结果中取权重最高的20%像元作为该地类的候选新增样本,组成候选新增样本集;8)在候选新增样本集下,计算每个候选新增样本与同一地类剩余候选新增样本的空间离散度及属性相似度,并与该候选新增样本的分类权重相乘,进而获得每个候选新增样本的总权重;9)在步骤8)的基础上,从每一地类的候选新增样本中筛选出10%总权重最高的样本作为新增样本,加入到步骤1)影像样本库中,以实现新样本的扩充,并重新执行步骤1)至9)的分类过程;10)终止分类过程并输出。...

【技术特征摘要】
1.一种基于样本自适应扩充的集成学习方法,其特征在于,包括下述步骤:1)建立目标研究区域的影像样本库;2)根据步骤1)所述影像样本库中的所有影像样本,采取有放回抽样法从样本特征集中抽样获得n个特征子集;其中,n为任意正整数;3)根据预设参数从分类算法模版库中生成n个弱分类器,并利用所述n个特征子集以一一对应的方式对每个弱分类器进行模型训练;其中,所述特征子集的数量与弱分类器的数量相同;4)使用所述训练好的n个弱分类器分别对所述影像样本进行分类,得到n个分类结果;5)基于步骤1)所述影像样本库对步骤4)所述n个分类结果进行精度检验,得到每个弱分类器对不同地类的分类精度,并据此对每个弱分类器进行权重赋值;6)对任一待分类象元,首先采用所述n个弱分类器分别对其进行分类得到n个弱分类结果;然后根据所述每个弱分类器的权重,对所述n个弱分类结果进行加权投票计算得到分类权重,并以权重和最高的地类作为所述待分类地类的象元所属类别,即得到强分类结果;7)判别所述强分类结果是否满足精度要求;当满足所述精度要求时,转向步骤10);当不满足所述精度要求时,对于每一地类从强分类结果中取权重最高的20%像元作为该地类的候选新增样本,组成候选新增样本集;8)在候选新增样本集下,计算每个候选新增样本与同一地类剩余候选新增样本的空间离散度及属性相似度,并与该候选新增样本的分类权重相乘,进而获得每个候选新增样本的总权重;9)在步骤8)的基础上,从每一地类的候选新增样本中筛选出10%总权重最高的样本作为新增样本,加入到步骤1)影像样本库中,以实现新样本的扩充,并重新执行步骤1)至9)的分类过程;10)终止分类过程并输出。2.根据权利要求1所述的集成学习方法,其特征在于,所述影像样本库中的影像样本包括基于地面调查点的遥感影像样本以及新增样本;其中,所述基于地面调查点的遥感影像样本通过各调查点的空间位置对影像象元进行采样及特征计算获得;所述遥感影像样本经过几何校正和辐射校正。3.根据权利要求1所述的集成学习方法,其特征在于,所述...

【专利技术属性】
技术研发人员:黄启厅覃泽林骆剑承曾志康张竹林郜丽静
申请(专利权)人:苏州中科天启遥感科技有限公司广西壮族自治区农业科学院农业科技信息研究所中国科学院遥感与数字地球研究所
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1