细粒度视觉内容搜索平台制造技术

技术编号:39842743 阅读:5 留言:0更新日期:2023-12-29 16:33
一种视觉内容搜索和检索平台,包括物体检测模型

【技术实现步骤摘要】
【国外来华专利技术】细粒度视觉内容搜索平台
与相关申请的交叉引用:
[0001]本申请要求
2022
年4月
12
日提交的第
63/330,311
号美国临时专利申请的优先权以及要求
2023
年2月
22
日提交的第
18/172,356
号美国专利申请的优先权;其公开内容通过引用全部并入本文



[0002]本专利技术涉及影像目标识别

影像搜索和检索中的机器学习技术


技术介绍

[0003]机器深度学习技术已广泛应用于视觉相关的应用中

在影像分类或识别研究中,大多数研究都集中在元类别
(meta

category)
分类
(
即粗粒度影像分类
)


例如,对包括狗



花等元类别进行分类

较少的文献对子类别
(sub

category)
分类
(
即细粒度影像分类
)
进行了研究,以识别同一元类别的具体物种

例如,对狗元类别的犬种子类别进行分类,包括拉布拉多

金毛

贵宾等;在另一种可能应用中,亦包括识别汽车的品牌和型号

细粒度影像分类的人工智能
(artificial intelligence,AI)
应用潜力广泛,如时尚服装匹配

野生动物识别

医学诊断

车辆品牌和型号识别等

[0004]然而,细粒度影像分析目前是一个重要的挑战

它需要训练一个分类模型
(classification model)
,通过分析物体的局部细节
(
即局部部分

形状

纹理

颜色等
)
来对视觉上相似的物种进行分类

一些现有的细粒度影像分类方法在模型训练期间利用训练数据中物种之间的局部差异进行手动注释
(annotation)
或标记
(labelling)。
这些手动过程对于每一个元类别都是必需的

这是一项劳动密集

昂贵且难以实现大规模场景应用的工作

[0005]因此,在本领域中,基于智能视觉内容搜索平台对于细粒度影像识别的需求未得到满足

对此,还需要一种细粒度影像检索方法,其可实现自动定位和分析物种间局部差异的特征,以应对出更大规模和更广泛的应用场景


技术实现思路

[0006]为了满足基于智能视觉内容搜索平台对于细粒度影像识别的需求,本专利技术就此目标提出了一个细粒度影像检索方法,该方法可自动定位和分析物种间局部差异的特征,以应对出更大规模和更广泛的应用场景

此外,为了进一步提高模型在大量元类别和子类别场景上的检索效率,本文提出的智能视觉内容搜索平台采用分层架构
(hierarchical architecture)
设计

同时,其亦支持自定义模型在基准模型上进行重训练
(re

training)
以获得更高质量的效果

最后,本专利技术所提出的平台可显着减少数据标记的工作量以降低人力成本,为大规模推广与应用带来巨大的可能性

[0007]本专利技术的目的是提供一种视觉内容搜索和检索平台,以解决现有技术中的上述缺点和未满足的需求

根据本专利技术的第一方面,提供了一种从影像数据库执行视觉内容搜索
与检索的方法,其使用视觉内容搜索和检索平台

视觉内容搜索和检索平台具有分层结构,并且包括物体检测模型

粗粒度影像分类模型和一个或多个细粒度影像分类模型的选择组合

[0008]在推断过程中,此方法包括:从电子设备
(
即,
IP
摄像机

移动通信设备

电子机台
(electronic kiosk)、
个人计算机等
)
接收包括一个或多个物体的查询影像;通过物体检测模型在查询影像中的物体中定位并提取查询物体;通过粗粒度影像分类模型对查询物体的元类别进行分类;从细粒度影像分类模型的选择组合中选择出针对查询物体的元类别所训练与优化的一个细粒度影像分类模型;以及通过所选择的细粒度影像分类模型从影像数据库中搜索和检索出多个图库影像,这些图库影像属于所述查询物体的元类别

[0009]根据本专利技术的第二方面,视觉内容搜索和检索平台还包括半自动标记模块

半自动标记模块包括无监督
(unsupervised)
或半监督
(semi

supervised)
预测模型,此模型被训练为通过检测边缘
(edges)、
纹理变化
(texture changes)、
颜色偏差
(color deviations)
等来预估训练数据影像中多个样本物体的多个位置,并在预估的位置周围放置边界框

在训练期间,包括样本物体的影像的训练数据由半自动标记模块处理,以产生和显示半标记影像,供用户微调边界框,以便更准确地标记其中的样本物体

这样,无需从头开始手动标记即可产生完全注释的训练数据,显着提高了训练数据标记效率

[0010]根据本专利技术的第三方面,每一个细粒度影像分类模型由用于多焦点细粒度
(multi

focus fine

grained,MFFG)
影像搜索和检索的设备
200
实现

用于
MFFG
影像搜索和检索的设备
200
包括:特征提取网络
(feature extraction network)
,其被配置为从查询影像中提取查询物体的一个或多个基本查询特征
(basic query feature)
;分类学习模块
(class learning module,CLM)
,其被配置为从这些基本特征产生一个或多个第一特定查询特征,其中第一查询特定特征表示查询物体的整体外观;局部关键区域描述模块
(local description module,LDM)
,其被配置为从这些基本特征产生一个或多个第二特定查询特征,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.
一种用于多焦点细粒度
(MFFG)
影像搜索和检索的设备,其特征在于,包括:特征提取网络,由至少一个处理器所执行,其被配置为从查询影像中提取查询物体的一个或多个基本查询特征;分类学习模块,由至少一个处理器所执行,其被配置为从所述基本特征产生一个或多个第一特定查询特征,其中所述第一查询特定特征表示所述查询物体的整体外观;局部关键区域描述模块,由至少一个处理器所执行,其被配置为从所述基本特征产生一个或多个第二特定查询特征,其中所述第二查询特定特征表示所述查询物体的局部区域细节;和影像搜索引擎,由至少一个处理器所执行,其被配置为:结合所述第一特定查询特征和所述第二特定查询特征以形成一个或多个查询图像的联合特征;获得属于所述查询物体的元类别的多个图库影像物体中的每一个的一个或多个特征;决定所述多个查询图像的联合特征与所述图库影像物体中的每一个的多个特征之间的余弦距离;依据从最相似于所述查询物体到最不相似于所述查询物体的所述多个余弦距离对所述多个图库影像物体进行排序,其中在所述多个查询图像的联合特征和所述图库影像物体的所述多个特征之间具有所述最短余弦距离的所述图库影像物体与所述查询物体最相似,并且在所述多个查询图像的联合特征和所述图库影像物体的所述多个特征之间具有所述最大余弦距离的所述图库影像物体与所述查询物体最不相似;和输出
N
个与所述查询物体最相似的所述已排序的多个图库影像物体的多个图库影像
。2.
根据权利要求1所述的设备,其特征在于,进一步包括:轮廓描述模块,由至少一个处理器所执行,其被配置为从所述多个基本查询特征产生一个或多个第三特定查询特征,其中所述第三特定查询特征表示所述查询物体的轮廓;其中,所述影像搜索引擎还被配置为组合所述第一特定查询特征

所述第二特定查询特征和所述第三特定查询特征以形成所述查询物体的一个或多个查询图像的联合特征
。3.
根据权利要求1所述的设备,其特征在于,其中所述特征提取网络由包括一个或多个卷积层和一个或多个全连接层的卷积神经网络
(Convolutional neural network,CNN)
实现;其中所述分类学习模块由
CNN
实现,且其包括一个或多个卷积层和一个或多个全连接层以及第一基于样本对的损失函数;和其中所述局部关键区域描述模块由
CNN
实现,且其包括一个或多个卷积层和一个或多个全连接层以及第二基于样本对的损失函数
。4.
根据权利要求1所述的设备,其特征在于,其中,所述影像搜索引擎还被配置为通过串联所述第一特定查询特征和所述第二特定查询特征来组合所述第一具体查询特征和所述第二具体查询特征,以形成一个或多个查询图像的联合特征
。5.
根据权利要求1所述的设备,其特征在于,其中,所述影像搜索引擎还被配置为通过对所述第一特定查询特征和所述第二特定查询特征求和来组合所述第一具体查询特征和所述第二具体查询特征,以形成一个或多个查询图像的联合特征
。6.
一种用于训练权利要求2的设备的方法,其特征在于,包括:
获得包括多个原始影像的训练数据集,每一个所述原始影像包括属于单个元类别的多个子类别之一的多个样本物体中的一个样本物体;通过增强模块为每一个所述原始影像产生区域混淆机制
(RCM)
影像,其中所述
RCM
影像是通过将对应的原始影像分离成多个区块,然后随机重新排列所述多个区块的多个位置以及一个或多个所述区块的垂直翻转和水平翻转来产生所述
RCM
影像;通过所述特征提取网络从每一个所述原始影像和每一个所述
RCM
影像中提取所述样本物体的一个或多个样本特征;用所述多个样本特征迭代地训练所述分类学习模块

所述局部关键区域描述模块和所述轮廓描述模块,直到所有所述模块的分类模型收敛,包括:最小化所述分类学习模块的第一成对损失;最小化所述局部关键区域描述模块的第二成对损失;和最小化所述轮廓描述模块的第三成对损失
。7.
根据权利要求6所述的用于训练的方法,其特征在于,其中最小化所述分类学习模块的所述第一成对损失包括:构建具有第一锚定原始影像以及所述多个原始影像的另一个的第一正样本对,其中所述第一锚定原始影像作为所述多个原始影像中的一个且包括属于所述多个子类别中的一个的样本物体,且所述多个原始影像的所述另一个包括属于同一子类别的样本物体;构建具有所述第一锚定原始影像以及所述多个原始影像的另一个的第一负样本对,其中所述多个原始影像的所述另一个包括样本物体,且所述样本物体的子类别不同于在所述第一锚定原始影像中的所述样本物体的所述子类别;从具有所述多个原始影像的所有第一正样本对中,最小化所述所有第一正样本对的平均特征距离,以及从具有所述多个原始影像的所有第一负样本对中,最大化所述所有第一负样本对的平均特征距离;和更新所述分类模块神经网络;其中最小化所述局部关键区域描述模块的所述第二成对损失包括:构建具有第二锚定
RCM
影像以及所述多个
RCM
影像的另一个的第二正样本对,其中所述第二锚定
RCM
影像作为所述多个
RCM
影像的一者且包括属于所述多个子类别中的一个的样本物体,且所述多个
RCM
影像的所述另一个包括属于所述同样子类别的样本物体;构建具有第二锚定原始影像以及所述多个原始影像的另一个的第二负样本对,其中所述第二锚定原始影像作为对应于所述第二锚定
RCM
影像的所述多个原始影像中的一个,且所述多个原始影像的所述另一个包括的样本物体其所属的子类别不同于所述第二锚定原始影像中的所述样本物体的所述子类别;从具有所述多个
RCM
影像的所有第二正样本对中,最小化所述所有第二正样本对的平均特征距离,以及从具有所述多个原始影像的所有第二负样本对中,最大化所述所有第二负样本对的平均特征距离;和更新所述局部关键区域描述模块神经网络;和其中最小化所述轮廓描述模块的所述第三成对损失包括:构建具有第三锚定原始影像以及所述多个原始影像的另一个的第三正样本对,其中所
述第三锚定原始影像作为所述多个原始影像中的一个且包括属于所述多个子类别中的一个的样本物体,且所述多个原始影像的所述另一个包括属于同一子类别的样本物体;构建具有第三锚定
RCM
影像以及所述多个
RCM
...

【专利技术属性】
技术研发人员:陈俊明李政龙谢谊乒张崇浩
申请(专利权)人:香港应用科技研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1