【技术实现步骤摘要】
一种应对增量式新类图像数据的鲁棒弱监督分类方法
[0001]本专利技术涉及一种应对增量式新类图像数据的鲁棒弱监督分类方法,属于大数据环境下的人工智能和模式识别任务
技术介绍
[0002]数字图像是互联网时代的重要信息载体,在诸多日常生活和实际应用中扮演着重要的作用。随着个人用户的数字图像的快速增长,如何有效管理和利用数字图像成为一个重要而又具有挑战的工作,而图像标注是其中最为关键任务之一。以往大多数图像标注方法都在静态场景下进行,也就是假定数据的标注齐全,而且类别的集合不会发生变化。然而,随着图像标注任务不断走向开放场景,数据的形式会发生较大变化,已有技术已难以直接适用。具体表现在两个方面。一是,图像人工标注的速度远不及图像产生的速度,因此新涌现的数字图像中存在大量未标记数据。二是,随着时间的推移,数字图像数据经常出现新的类别,不加以区别会导致性能不佳乃至错失重要信息,亟需及时检测并给予合理利用。之前技术围绕上述单个方面提出解决方案,但极少技术能够同时应对上述两个难点的同时解决,提升图像标注在开放场景下的分类效能。 ...
【技术保护点】
【技术特征摘要】
1.一种应对增量式新类图像数据的鲁棒弱监督分类方法,其特征在于,对增量式图像数据的分类任务采用分而治之的策略:对于已标注图像,直接加入并更新标注单元;对于无标注图像,基于随机森林的新类发现单元对无标注数据进行评估,用以判断输入新来图像是否属于未见过的新类别;如其属于已知类别,则利用历史已知类别的数据和标记传播算法快速得到预测标注类别后更新标注单元;如其属于未见过的新类别,则先将该图像数据放入缓存器中,当收集设定数量的新类图像时,及时更新新类发现单元和已知类别标注单元,并清空数据缓存器以持续发现更多新类图像。2.根据权利要求1所述的应对增量式新类图像数据的鲁棒弱监督分类方法,其特征在于,新类图像数据的发现单元工作过程为:通过已知类别图像数据的随机森林算法,记录每棵决策树所有叶子节点与根节点的平均距离,记为其中leaf set和leaf
i
分别表示所有叶子节点集和第i个叶子节点,并记录每个节点下图像数据的球形半径,其中O为当前节点下数据样本的集合,c为当前节点下数据样本的均值;对于新来图像数据,将其放入决策树进行预测,根据划分标准依次从根节点递归向下,并计算其与节点聚类簇中心的距离;若大于球形半径,记录当前节点与决策树根节点的距离;若大于平均距离l0,则该新来图像与现有历史数据相差较远,预测为新类,否则预测为已知类别;从鲁棒性的角度出发,综合多棵决策树的预测结果加以投票,得到最终结果。3.根据权利要求1所述的应对增量式新类图像数据的鲁棒弱监督分类方法,其特征在于;已知类别图像的标注单元工作过程为:通过采用弱监督学习的标记传播算法,图像标注单元自动利用有限的标注数据和大量的无标注数据,得到标注结果;标注单元通过采样多组历史数据来构建模型提高鲁棒性和效率。4.根据权利要求1所述的应对增量式新类图像数据的鲁棒弱监督分类方法,其特征在于,模型更新单元工作流程为:当数据缓存器收集设定数量的新类图像,则将其作为已知类别的图像数据加入标注单元,清空数据缓存器;标注单元加入新类图像,则依照已有类别的标准对新类图像进行处理,用于发现更多未标记图像的标记;新类图像数据的发现单元,合并新类图像和已知类别图像,重新构建完全随机森林以持续发现新类图像。5.根据权利要求1所述的应对增量式新类图像数据的鲁棒弱监督分类方法,其特征在于,图像数据的弱监督分类方法实现步骤如下:步骤(1)新增一张图像,判断是否具有标注;如有,则将其加入已知类别的图像数据集合,转步骤(2),否则转步骤(3);步骤(2)根据新数据集更新已知类别图像标注单元,得到预测标注;步骤(3)采用新类发现单元判别图像是否属于新类,如是,转步骤(4),否则将其加入已知类别的图像数据集合,转步骤(2);步骤(4)如新类数据数目小于设定阈值,结束本次输入图像的处理,否则将收集到的新类数据加入已知类别的图像数据集合,转步骤(2);
重复以上步骤直至所有新增图像分类完毕。6.根据权利要求2所述的应对增量式新类图像数据的鲁棒弱监督分类方法,其特征在于,新类图像数据的发现单元中,从历史数据中随机采样出S个大小为M的子集,构建S棵新类检测树,每棵树由M个图像数据构成;新类检测推断由S棵新类检测树的集成结果构成;新类检测树的构建采用递归二叉决策树,设当前输入的图像数据集为O,当前递归层数为h,计算O中所有样本的中心,记为特征...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。