一种基于增量学习的目标检测方法和增量检测模型技术

技术编号:39585190 阅读:15 留言:0更新日期:2023-12-03 19:36
本发明专利技术涉及一种基于增量目标检测模型

【技术实现步骤摘要】
一种基于增量学习的目标检测方法和增量检测模型IODC


[0001]本专利技术涉及图像识别领域
,具体涉及一种基于增量学习的目标检测方法和增量检测模型
IODC。

技术介绍

[0002]真实世界的视觉系统本质上是递增的,人们需要通过观察来学习新的知识,并整合到旧的视觉知识体系中去

虽然深度学习在目标检测任务上已经取得了辉煌的成就,但在增量学习场景下,它们会变得十分健忘,并遭受灾难性遗忘的影响,使得模型对于旧任务的性能急剧下降

[0003]现阶段,需要解决的增量目标检测模型的两个技术难题包括:
(1)
增量检测模型识别不到图片中潜在的未知类别对象,在增量学习阶段,增量分类任务中的训练图像一定是不重叠的,如图1所示,但是增量检测任务中可能出现同一张图像带有截然不同的标注信息,与增量分类的数据集设置存在较大出入,而传统的检测模型识别不到当前任务以外的类别;
(2)
传统检测器基于
Faster RCNN
等的卷积神经网络框架,其分类层只能输出当前类别集合中所涵盖的类别

对于从未明确出现过的一个类别,其分类预测将一直是
0。
即使给出了未知
(Unknown)
类对象的标记,仍然无法在一个类别中再区分细类,对增量目标新类任务细化产生阻碍

[0004]目前,中国专利
CN113822368A
一种基于无锚的增量式目标检测方法,在大量含丰富标签的基类数据
(
图像
)
和少量含标签的小样本
(few

shot)
新类的训练下,提升了对新类测试图片的检测效果;中国专利
CN115546581A
一种解耦的增量目标检测方法,通过在
RCNN

RPN
前面分别增加一个通道级的解耦模块
,
使骨干网络能够学习到更多可泛化和可转移的特征,解耦模块提供的额外参数又让模型具有更大的学习能力,从而改善可塑性和维持稳定性之间的权衡;
Wang
等人提出了以
Faster

RCNN
为框架,分两阶段训练,在第二阶段只微调分类和回归子网络,通过重新调整特征的组合权重以适应
novel
类;
Juan

Manuel
等人提出了借鉴
CenterNet
框架,引入图像特征提取的特征提取器和用于目标定位的目标定位器以及一个
Resnet

50
网络来提取每个类别的图像输出对应的权重并利用该权重完成对新类的检测

[0005]由此可见,现有技术中都在倾向于提升增量检测模型的增量特性,进一步检测出图像中的困难目标,同时控制训练的时间成本和资源成本

大多数技术在增量学习任务中忽略了模型的前向兼容性,没有让模型提前适应增量学习任务场景

在现有技术中的增量检测任务中存在着严重的标签丢失的问题

[0006]随着互联网时代的迅速发展,互联网应用活跃在人们生活中的各个方面,社会中的各个部门都积累了大量的数据,这些数据也在极速增长

如何快速地从未标注或少标注的数据中获取有用的信息,并对已有的模型进行快速适配是非常棘手的问题

在识别训练的图片中更容易出现不能识别的新类对象,现阶段提升增量检测模型的前向兼容性是十分关键的


技术实现思路

[0007]鉴于上述问题,本专利技术提供了一种基于增量学习的目标检测方法和增量检测模型
IODC
,基于
CLIP
模型融合全局感知类别文本模型和视觉模型获得增量目标检测模型
IODC
,用于对图片的增量学习,可以识别图片中未知类别的对象,提高模型对图片的识别率,解决了现有技术中增量检测中出现的标签丢失

检测不到目标中的潜在对象和检测实验的训练周期长的问题

[0008]本专利技术提供了一种基于增量学习的目标检测方法和增量检测模型
IODC
,包括:
[0009]步骤
1、
识别训练图片中多个对象的类别名称,依据所述对象的类别名称建立文本特征,收集多个文本特征构建文本特征集,基于图文检测模型获取所述图片的视觉特征,依据所述文本特征集和视觉特征建立图片的全局感知类别文本特征模型;
[0010]步骤
2、
依据步骤1所述类别文本特征模型构建可以识别图片中未知类别对象的视觉模型;
[0011]步骤
3、
融合步骤1所述全局感知类别文本特征模型和步骤2所述视觉模型建立增量目标检测模型
IODC
,基于所述增量目标检测模型
IODC
识别当前任务中的潜在对象

[0012]优选的,步骤1所述图文检测模型为
CLIP
模型;所述视觉特征包括:颜色特征

形状特征

纹理特征

线条特征

[0013]优选的,步骤1所述建立具有全局感知类别文本特征模型具体包括:
[0014]步骤
11、
分别识别多个训练图片中所涵盖所有对象的类别名称,将识别的每个类别名称构造一个类别文本句子,基于所有类别文本句子融合语言模态建立文本特征集;
[0015]步骤
12、
将步骤
11
所述训练图片输入
CLIP
模型,将所述
CLIP
模型分类层的输出修改为视觉特征,获取所述图片的视觉特征,将每个视觉特征与每个文本特征进行遍历计算获得相似度,将对应的相似度最高的视觉特征与文本特征进行匹配构成类别元素,所有类别元素构成类别集合;
[0016]步骤
13、
在步骤
12
所述类别集合的基础上添加广义类别,定义为广义类别集合,基于所述广义类别集合对增量目标检测模型进行增量训练,获得更新增量目标检测模型;
[0017]步骤
14、
使用所述更新增量目标检测模型检测训练图片中包含的新类别,建立广义类别和新类别之间的类别映射关系,依据所述类别映射关系和广义类别集合建立全局感知文本模型;所述新类别为在使用更新增量目标检测模型检测训练图片中的对象类别时,当识别到的类别是广义类别中没有的类别则被定义为新类别,即广义类别中检测任务中未能识别的类别

进一步的,步骤
11
所述类别文本特征句子包括:句子模板

类别名称

[0018]进一步的,步骤
11
所述构造类别文本特征句子,基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于增量学习的目标检测方法和增量检测模型
IODC
,其特征在于,包括以下步骤:步骤
1、
识别训练图片,构建所述训练图片的文本特征集,获取所述图片的视觉特征,依据所述文本特征集和视觉特征建立图片的全局感知类别文本特征模型;步骤
2、
基于全局感知类别文本特征模型构建用于识别图片中未知类别对象的视觉模型;步骤
3、
融合全局感知类别文本特征模型和视觉模型建立增量目标检测模型
IODC
,基于所述增量目标检测模型
IODC
识别当前任务图片中的潜在对象
。2.
根据权利要求1所述一种基于增量学习的目标检测方法和增量检测模型
IODC
,其特征在于,步骤1所述建立图片的全局感知类别文本特征模型具体包括:步骤
11、
分别识别多个训练图片中所涵盖所有对象的类别名称,将识别的每个类别名称构造类别文本句子,基于所有类别文本句子融合语言模态建立文本特征集;步骤
12、
将步骤
11
所述图片输入增量检测模型,获取所述图片的视觉特征,将每个视觉特征与每个文本特征进行遍历计算获得相似度,将对应的相似度最高的视觉特征与文本特征进行匹配构成类别元素,所有类别元素构成类别集合;步骤
13、
在步骤
12
所述类别集合的基础上添加广义类别,定义为广义类别集合,基于所述广义类别集合对增量目标检测模型进行增量训练,获得更新增量目标检测模型;步骤
14、
使用所述更新增量目标检测模型检测新任务类别,建立广义类别和新任务类别之间的类别映射关系,依据所述类别映射关系和广义类别集合建立全局感知文本模型
。3.
根据权利要求2所述一种基于增量学习的目标检测方法和增量检测模型
IODC
,其特征在于,步骤
11
所述构造类别文本特征句子,基于所有类别文本句子建立文本特征集具体包括:识别多个训练图片中所涵盖所有对象的类别名称;基于语言模态的信息训练语言模型,获得更新语言模型,基于所述更新语言模型构造句子模板;将每个类别名称放入句子模板获得表示类别名称的文本句子;将所有文本句子送入
CLIP
模型的文本编码器生成多个文本特征,建立文本特征集
。4.
根据权利要求3所述一种基于增量学习的目标检测方法和增量检测模型
IODC
,其特征在于,所述句子模板为“there is a{classname}in the scene”。5.
根据权利要求2所述一种基于增量学习的目标检测方法和增量检测模型
IODC
,其特征在于,步骤
12
所述图片的视觉特征与所述类别文本特征都具有相同的维度
。6.
根据权利要求2所述一种基于增量学习的目标检测方法和增量检测模型
IODC
,其特征在于,步骤
12
所述相似度计算具体包括:在目标检测模型中输入一张图片,使用检测网络获得图片中所涵盖对象的视觉特征;将视觉特征和步骤
11
所述文本特征进行特征归一化,再使用余弦相似度法遍历计算特征归一化后的视觉特征和文本特征的相似程度;获得该图片中多个对象的预测类别概率逻辑值;在预测类别概率逻辑值中接入交叉熵损失函数获得分类损失;基于所述分类损失对上述相似度进行修正,获得更优的相似度

7.
根据权利要求2所述一种基于增量学习的目标检测方法和增量检测模型
I...

【专利技术属性】
技术研发人员:刘庆杰何宇鹏黄子粤
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1