一种二级筛选模式融合校验的协同式半监督算法制造技术

技术编号:28498927 阅读:21 留言:0更新日期:2021-05-19 22:38
一种二级筛选模式融合校验的协同式半监督算法。训练基础分类器;使用多种主动学习策略对未标记样本进行挑选,再分别运用多种聚类算法进行聚类,从而形成二级筛选模式。对每一种二级筛选模式挑选完的样本进行标记并更新有标签样本集;分别用每一种二级筛选模式挑选出的有标记样本训练对应的校验分类器;将训练好的多个校验分类器与基础分类器对未标记样本与伪标签样本进行分类,比较基础分类器与多个校验分类器对每一个未标记样本与伪标签样本的分类结果;当分类结果一致时,将此未标记样本贴上伪标签并放入到伪标签样本集,当分类结果不一致时,将此未标记样本放回未标记样本集中,继续迭代;当达到设定迭代次数,得到训练好的分类框架。好的分类框架。好的分类框架。

【技术实现步骤摘要】
Learning算法使用单一的主动学习策略降低了模型的差异性从而导致了伪标签的可靠程度降低的问题,以及CASSL算法停止条件过于依赖校验模型的可靠性,算法过早的截止和收敛严重影响到分类结果的问题,提供了一种二级筛选模式融合校验的协同式半监督算法,本专利技术提出将性能较好二级筛选模式嵌入到协同式半监督算法中,挑选多种类且最具有代表性的样本,提高分类器的泛化能力从而获得较高的分类精度。在算法融合这一过程中,选择不同且具有良好性能的算法,然后将差异化的算法整合。将本专利技术提出的算法运用到了在初始有标记样本稀少情况下的遥感图像目标分类中,也可以运用于其他图像的分类。
[0006]为实现上述目的,本专利技术采取的技术方案如下:
[0007]一种二级筛选模式融合校验的协同式半监督算法,所述方法包括如下步骤:
[0008]步骤一:设置好数据集中训练集,未标记样本集U与初始化伪标签样本集S
pseudo
,设定算法的迭代次数与每次迭代中选取的代表性样本的数量,分别设定三种二级筛选模式选择样本的个数占每次迭代选取样本总数量的权重比;
[0009]步骤二:选择三种不同且性能较好的主动学习算法分别来挑选最具有代表性的样本,分别用三种不同的聚类算法进行聚类,构成三种不同的二级筛选模式,按设置好的权重参数选出相应数量的代表性样本,检查在一次迭代中,不同的二级筛选模式是否选择了相同的候选样本,而为达到每次迭代需求,则需要运用跳变因子R来补充;
[0010]步骤三:将每种二级筛选模式所挑选的代表性未标记样本及跳变因子贴上标签,同时放入有标记样本集中,训练基础分类器,然后更新有标记样本集和未标记样本集;
[0011]步骤四:用基础分类器对未标记样本集和伪标签样本集进行分类,得到标签Label1,用每种二级筛选模式所挑选的具有代表性且人工贴上标签的样本同时训练对应的校验分类器,三种二级筛选模式对应训练三个校验分类器;
[0012]步骤五:对未标记样本和伪标签样本使用3个校验分类器预测分类,获取3个预测标签,分别为Label
2_c1
,Label
2_c2
,Label
2_c3

[0013]步骤六:比较每一个未标记样本和伪标签样本由基础分类器和三个校验分类器获得的类别标签,即比较Label1,Label
2_c1
,Label
2_c2
,Label
2_c3
的结果是否相同,如果所有的类别标签结果相同,将此样本投入到伪标签样本集中,更新未标记样本集和伪标签样本集,如果有标签结果不相同,将此样本放回到未标记样本中,继续迭代,直到达到预设的迭代次数。
[0014]本专利技术相比于现有技术的有益效果为:
[0015]即使在初始有标记样本较少的情况下,本专利技术的校验模型的性能不会完全依赖于初始有标记样本。同时,本专利技术设置恰当的置信度阈值,通过多模式融合提升分类器的泛化性,避免算法过早的截止和收敛,能够快速地得到理想的分类性能,增强了算法的鲁棒性。
[0016]在相同设定的实验环境和实验数据下,本专利技术能够使用较少的时间成本、获取更理想的目标样本分类精度,同时提出的算法鲁棒性较强。当采用多种分类器组成验证分类器组时会获得更好的分类效果,此算法解决了阈值设置不当导致的算法过早收敛的现象。
附图说明
[0017]图1为二级筛选模式融合校验的协同式半监督算法框图;
[0018]图2为本专利技术一种应用实例的原始遥感图像结果图;
[0019]图3为本专利技术一种应用实例的CASSL算法分类结果图;
[0020]图4为本专利技术一种应用实例的SFMFVCSA算法分类结果图;
[0021]图5为本专利技术方法流程示意图。
具体实施方式
[0022]为使本专利技术的目的、技术方案及优点更加清楚明白,下面结合实例以及附图对本专利技术的技术方案作进一步的说明,本专利技术提供了多模式融合校验的协同式半监督算法,但并不局限于用于高光谱图像中的目标分类,凡是对本专利技术技术方案进行修改或者等同替换,而不脱离本专利技术技术方案的精神和范围,均应涵盖在本专利技术的保护范围中。为使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实例,对本专利技术进行进一步的详细说明,此处所描述的具体实例仅用于解释本专利技术,并不用于限定专利技术。
[0023]具体实施方式一:本实施方式记载的是一种二级筛选模式融合校验的协同式半监督算法,所述方法包括如下步骤:
[0024]步骤一:设置好数据集中训练集,未标记样本集U与初始化伪标签样本集S
pseudo
,设定算法的迭代次数与每次迭代中选取的代表性样本的数量,分别设定三种二级筛选模式选择样本的个数占每次迭代选取样本总数量的权重比;
[0025]步骤二:选择三种不同且性能较好的主动学习算法分别来挑选最具有代表性的样本,提高分类器的泛化能力从而获得较高的分类精度,然后,分别用三种不同的聚类算法进行聚类,构成三种不同的二级筛选模式,按设置好的权重参数选出相应数量的代表性样本,保证所选样本的多样性;检查在一次迭代中,不同的二级筛选模式是否选择了相同的候选样本,为达到每次迭代需求,则需要运用跳变因子R来补充;性能好坏与具体的数据集和实验设置的初始条件有关,在本专利技术使用的数据集和设置的实验初始条件中,OA精度大于85%属于性能较好。
[0026]步骤三:将每种二级筛选模式所挑选的代表性未标记样本及跳变因子贴上标签,同时放入有标记样本集中,训练基础分类器,然后更新有标记样本集和未标记样本集;
[0027]步骤四:用基础分类器对未标记样本集和伪标签样本集进行分类,得到标签Label1,用每种二级筛选模式所挑选的具有代表性且人工贴上标签的样本同时训练对应的校验分类器,三种二级筛选模式对应训练三个校验分类器;
[0028]步骤五:对未标记样本和伪标签样本使用3个校验分类器预测分类,获取3个预测标签,分别为Label
2_c1
,Label
2_c2
,Label
2_c3

[0029]步骤六:比较每一个未标记样本和伪标签样本由基础分类器和三个校验分类器获得的类别标签,即比较Label1,Label
2_c1
,Label
2_c2
,Label
2_c3
的结果是否相同,如果所有的类别标签结果相同,将此样本投入到伪标签样本集中,更新未标记样本集和伪标签样本集,如果有标签结果不相同,将此样本放回到未标记样本中,继续迭代,直到达到预设的迭代次数。
[0030]具体实施方式二:具体实施方式一所述的二级筛选模式融合校验的协同式半监督算法,所述步骤一具体为:
[0031](1)确定每轮迭代时待标记样本的总数N;
[0032](2)确定在每一种二级筛选模式中使用主动学习算法挑选样本时的数量,三种二
级筛选模式分别对应着不同的主动学习算法,每种主动学习算法挑选本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种二级筛选模式融合校验的协同式半监督算法,其特征在于:所述方法包括如下步骤:步骤一:设置好数据集中训练集,未标记样本集U与初始化伪标签样本集S
pseudo
,设定算法的迭代次数与每次迭代中选取的代表性样本的数量,分别设定三种二级筛选模式选择样本的个数占每次迭代选取样本总数量的权重比;步骤二:选择三种不同且性能较好的主动学习算法分别来挑选最具有代表性的样本,分别用三种不同的聚类算法进行聚类,构成三种不同的二级筛选模式,按设置好的权重参数选出相应数量的代表性样本,检查在每次迭代中,不同的二级筛选模式算法是否选择了相同的候选样本,而为达到每次迭代需求,则需要运用跳变因子R来补充;步骤三:将每种二级筛选模式所挑选的代表性未标记样本及跳变因子贴上标签,同时放入有标记样本集中,训练基础分类器,然后更新有标记样本集和未标记样本集;步骤四:用基础分类器对未标记样本集和伪标签样本集进行分类,得到标签Label1,用每种二级筛选模式所挑选的具有代表性且人工贴上标签的样本同时训练对应的校验分类器,三种二级筛选模式对应训练三个校验分类器;步骤五:对未标记样本和伪标签样本使用3个校验分类器预测分类,获取3个预测标签,分别为Label
2_c1
,Label
2_c2
,Label
2_c3
;步骤六:比较每一个未标记样本和伪标签样本由基础分类器和三个校验分类器获得的类别标签,即比较Label1,Label
2_c1
,Label
2_c2
,Label
2_c3
的结果是否相同,如果所有的类别标签结果相同,将此样本投入到伪标签样本集中,更新未标记样本集和伪标签样本集,如果有标签结果不相同,将此样本放回到未标记样本中,继续迭代,直到达到预设的迭代次数。2.根据权利要求1所述的二级筛选模式融合校验的协同式半监督算法,其特征在于:所述步骤一具体为:(1)确定每轮迭代时待标记样本的总数N;(2)确定在每一种二级筛选模式中使用主动学习算法挑选样本时的数量,三种二级筛选模式分别对应着不同的主动学习算法;(3)分别将三种主动学习算法挑选样本的数量记为h1,h2,h3,并且满足H=h1+h2+h3;其中,H代表在一次迭代中所有的主动学习算法挑选的信息量较大的未标记样本总数;(4)通过不同的聚类算法分别对三种不同的主动学习算法挑选的样本进行聚类,通过聚类形成的簇的数量分别为m1,m2,m3,其中m1,m2,m3占总数N的比例定义为权重系数,从而,每一种二级筛选模式挑选出的样本数量分别定义为m1,m2,m3,并满足N=m1+m2+m3。3.根据权利要求1所述的二级筛选模式融合校验的协同式半监督算法,其特征在于:所述步骤二,步骤三的具体步骤为:先用主动学习算法按照样本不确定度的大小进行排序,按照预先设定的参数值挑选排在前列,即富含信息量的样本;用聚类算法对挑选出的样本进行聚类,再从每一个的簇中挑选一个样本,第一种主动学习算法V1对未标记样本按照信息量大小进行排列,组成L
A
有序列表,挑选m1个有价值且分布在不同簇的未标记样本这m1个有价值的未标记样本索引为N
A
,x
k
表示此未标记样本集中的一个未标记样本,k表示样本编号;第二种主动学习算法V2对未标记样本按照信息量大小进行排列,组成L
B
有序列表,挑选m2个未标记样本这...

【专利技术属性】
技术研发人员:季晓玮杨强李佳明张鑫
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1