【技术实现步骤摘要】
一种基于RS loss的目标检测模型的训练方法及装置
[0001]本专利技术实施例涉及数据处理
,尤其涉及一种基于RS loss的目标检测模型的训练方法及装置。
技术介绍
[0002]人类认识世界是多维的,如用眼睛去观察,是双耳去聆听,用触觉与嗅觉去感知等,大脑基于这些信息分析并理解世界。人工智能核心目标是赋予计算机以智能,让机器像人一样去认识世界。通常的视觉语言系统由两个模块构成:图像编码模块和视觉语言融合模块。其中,图像编码模块,称为视觉特征提取器,即通过相关的卷积神经网络模型,生成针对输入图像的特征图谱。视觉语言融合模块,即将图像的特征图谱以及文本经token处理之后映射到统一语义空间中,使其具有相同语义信息在语义空间中更近,而不同语义更远。
[0003]当前视觉语言任务中视觉特征的提取绝大部分仍基于VQA(Visual Question Answering,视觉问答)数据集,即选择骨干网络为ResNet(Residual Network,深度残差网络)
‑
101C4的Faster />‑
RC本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于RS loss的目标检测模型的训练方法,其特征在于,包括:获取多个目标检测训练数据集;对所述多个目标检测训练数据集中的训练数据进行预处理,得到预处理数据;根据所述预处理数据,训练基于RS loss的Faster
‑
RCNN模型,得到所述目标检测模型;在所述目标检测模型基础上增加属性分支,并依据VG数据进行微调。2.如权利要求1所述的方法,其特征在于,所述多个目标检测训练数据集包括第一数据集、第二数据集、第三数据集和第四数据集;所述对所述多个目标检测训练数据集中的训练数据进行预处理,得到预处理数据,包括:从所述第一数据集和所述第二数据集中每个类别中选择第一预设数量的样本,得到第一候选数据集和第二候选数据集;使用平衡策略对所述第一候选数据集、所述第二候选数据集、所述第三数据集和所述第四数据集进行倍增;以倍增后的第三数据集为基础,将倍增后的第一候选数据集、第二候选数据集和第四数据集中与所述倍增后的第三数据集具有相同类别的数据合并到所述倍增后的第三数据集中、将不同类别的数据作为新类别添加到所述倍增后的第三数据集中;剔除合并后的第三数据集中的小于第二预设数量的样本的类别,得到所述预处理数据。3.如权利要求1所述的方法,其特征在于,所述根据所述预处理数据,训练基于RS loss的Faster
‑
RCNN模型,得到所述目标检测模型,包括:构建基于RS loss的Faster
‑
RCNN模型的损失函数;使用基于RS loss构建的Faster
‑
RCNN模型的损失函数,对所述预处理数据进行训练,得到所述目标检测模型。4.如权利要求3所述的方法,其特征在于,所述构建基于RS loss的Faster
‑
RCNN模型的损失函数,包括:定义RS损失函数;对所述RS损失函数进行计算;优化所述RS损失函数;将优化后的所述RS损失函数作为所述Faster
‑
RCNN模型的损失函数。5.如权利要求1至4任一项所述的方法,其特征在于,所述在所述目标检测模型基础上增加属性分支,并依据VG数据进行微调,包括:在所述目...
【专利技术属性】
技术研发人员:金良,李仁刚,赵雅倩,郭振华,范宝余,徐哲,胡克坤,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。