一种二级筛选模式融合校验的协同式半监督算法制造技术

技术编号：28498927 阅读：21 留言：0更新日期：2021-05-19 22:38

一种二级筛选模式融合校验的协同式半监督算法。训练基础分类器；使用多种主动学习策略对未标记样本进行挑选，再分别运用多种聚类算法进行聚类，从而形成二级筛选模式。对每一种二级筛选模式挑选完的样本进行标记并更新有标签样本集；分别用每一种二级筛选模式挑选出的有标记样本训练对应的校验分类器；将训练好的多个校验分类器与基础分类器对未标记样本与伪标签样本进行分类，比较基础分类器与多个校验分类器对每一个未标记样本与伪标签样本的分类结果；当分类结果一致时，将此未标记样本贴上伪标签并放入到伪标签样本集，当分类结果不一致时，将此未标记样本放回未标记样本集中，继续迭代；当达到设定迭代次数，得到训练好的分类框架。好的分类框架。好的分类框架。

全部详细技术资料下载

【技术实现步骤摘要】
Learning算法使用单一的主动学习策略降低了模型的差异性从而导致了伪标签的可靠程度降低的问题，以及CASSL算法停止条件过于依赖校验模型的可靠性，算法过早的截止和收敛严重影响到分类结果的问题，提供了一种二级筛选模式融合校验的协同式半监督算法，本专利技术提出将性能较好二级筛选模式嵌入到协同式半监督算法中，挑选多种类且最具有代表性的样本，提高分类器的泛化能力从而获得较高的分类精度。在算法融合这一过程中，选择不同且具有良好性能的算法，然后将差异化的算法整合。将本专利技术提出的算法运用到了在初始有标记样本稀少情况下的遥感图像目标分类中，也可以运用于其他图像的分类。
[0006]为实现上述目的，本专利技术采取的技术方案如下：
[0007]一种二级筛选模式融合校验的协同式半监督算法，所述方法包括如下步骤：
[0008]步骤一：设置好数据集中训练集，未标记样本集U与初始化伪标签样本集S
pseudo
，设定算法的迭代次数与每次迭代中选取的代表性样本的数量，分别设定三种二级筛选模式选择样本的个数占每次迭代选取样本总数量的权重比；
[0009]步骤二：选择三种不同且性能较好的主动学习算法分别来挑选最具有代表性的样本，分别用三种不同的聚类算法进行聚类，构成三种不同的二级筛选模式，按设置好的权重参数选出相应数量的代表性样本，检查在一次迭代中，不同的二级筛选模式是否选择了相同的候选样本，而为达到每次迭代需求，则需要运用跳变因子R来补充；
[0010]步骤三：将每种二级筛选模式所挑选的代表性未标记样本及跳变因子贴上标签，同时...

【技术保护点】

【技术特征摘要】
1.一种二级筛选模式融合校验的协同式半监督算法，其特征在于：所述方法包括如下步骤：步骤一：设置好数据集中训练集，未标记样本集U与初始化伪标签样本集S
pseudo
，设定算法的迭代次数与每次迭代中选取的代表性样本的数量，分别设定三种二级筛选模式选择样本的个数占每次迭代选取样本总数量的权重比；步骤二：选择三种不同且性能较好的主动学习算法分别来挑选最具有代表性的样本，分别用三种不同的聚类算法进行聚类，构成三种不同的二级筛选模式，按设置好的权重参数选出相应数量的代表性样本，检查在每次迭代中，不同的二级筛选模式算法是否选择了相同的候选样本，而为达到每次迭代需求，则需要运用跳变因子R来补充；步骤三：将每种二级筛选模式所挑选的代表性未标记样本及跳变因子贴上标签，同时放入有标记样本集中，训练基础分类器，然后更新有标记样本集和未标记样本集；步骤四：用基础分类器对未标记样本集和伪标签样本集进行分类，得到标签Label1，用每种二级筛选模式所挑选的具有代表性且人工贴上标签的样本同时训练对应的校验分类器，三种二级筛选模式对应训练三个校验分类器；步骤五：对未标记样本和伪标签样本使用3个校验分类器预测分类，获取3个预测标签，分别为Label
2_c1
，Label
2_c2
，Label
2_c3
；步骤六：比较每一个未标记样本和伪标签样本由基础分类器和三个校验分类器获得的类别标签，即比较Label1，Label
2_c1
，Label
2_c2
，Label
2_c3
的结果是否相同，如果所有的类别标签结果相同，将此样本投入到伪标签样本集中，更新未标记样本集和伪标签样本集，如果有标签结果不相同，将此样本放回到未标记样本中，继续迭代，直到达到预设的迭代次数。2.根据权利要求1所述的二级筛选模式融合校验的协同式半监督算法，其特征在于：所述步骤一具体为：(1)确定每轮迭代时待标记样本的总数N；(2)确定在每一种二级筛选模式中使用主动学习算法挑选样本时的数量，三种二级筛选模式分别对应着不同的主动学习算法；(3)分别将三种主动学习算法挑选样本的数量记为h1，h2，h3，并且满足H＝h1+h2+h3；其中，H代表在一次迭代中所有的主动学习算法挑选的信息量较大的未标记样本总数；(4)通过不同的聚类算法分别对三种不同的主动学习算法挑选的样本进行聚类，通过聚类形成的簇的数量分别为m1，m2，m3，其中m1，m2，m3占总数N的比例定义为权重系数，从而，每一种二级筛选模式挑选出的样本数量分别定义为m1，m2，m3,并满足N＝m1+m2+m3。3.根据权利要求1所述的二级筛选模式融合校验的协同式半监督算法，其特征在于：所述步骤二，步骤三的具体步骤为：先用主动学习算法按照样本不确定度的大小进行排序，按照预先设定的参数值挑选排在前列，即富含信息量的样本；用聚类算法对挑选出的样本进行聚类，再从每一个的簇中挑选一个样本，第一种主动学习算法V1对未标记样本按照信息量大小进行排列，组成L
A
有序列表，挑选m1个有价值且分布在不同簇的未标记样本这m1个有价值的未标记样本索引为N
A
，x
k
表示此未标记样本集中的一个未标记样本，k表示样本编号；第二种主动学习算法V2对未标记样本按照信息量大小进行排列，组成L
B
有序列表，挑选m2个未标记样本这...

【专利技术属性】
技术研发人员：季晓玮，杨强，李佳明，张鑫，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人