细粒度视觉内容搜索平台制造技术

技术编号：39842743 阅读：5 留言：0更新日期：2023-12-29 16:33

一种视觉内容搜索和检索平台，包括物体检测模型

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】细粒度视觉内容搜索平台
与相关申请的交叉引用：
[0001]本申请要求
2022
年4月
12
日提交的第
63/330,311
号美国临时专利申请的优先权以及要求
2023
年2月
22
日提交的第
18/172,356
号美国专利申请的优先权；其公开内容通过引用全部并入本文
。

[0002]本专利技术涉及影像目标识别
、
影像搜索和检索中的机器学习技术
。

技术介绍

[0003]机器深度学习技术已广泛应用于视觉相关的应用中
。
在影像分类或识别研究中，大多数研究都集中在元类别
(meta
‑
category)
分类
(
即粗粒度影像分类
)
上
。
例如，对包括狗
、
猫
、
花等元类别进行分类
。
较少的文献对子类别
(sub
‑
category)
分类
(
即细粒度影像分类
)
进行了研究，以识别同一元类别的具体物种
。
例如，对狗元类别的犬种子类别进行分类，包括拉布拉多
、
金毛
、
贵宾等；在另一种可能应用中，亦包括识别汽车的品牌和型号
。
细粒度影像分类的人工智能
(artifici...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.
一种用于多焦点细粒度
(MFFG)
影像搜索和检索的设备，其特征在于，包括：特征提取网络，由至少一个处理器所执行，其被配置为从查询影像中提取查询物体的一个或多个基本查询特征；分类学习模块，由至少一个处理器所执行，其被配置为从所述基本特征产生一个或多个第一特定查询特征，其中所述第一查询特定特征表示所述查询物体的整体外观；局部关键区域描述模块，由至少一个处理器所执行，其被配置为从所述基本特征产生一个或多个第二特定查询特征，其中所述第二查询特定特征表示所述查询物体的局部区域细节；和影像搜索引擎，由至少一个处理器所执行，其被配置为：结合所述第一特定查询特征和所述第二特定查询特征以形成一个或多个查询图像的联合特征；获得属于所述查询物体的元类别的多个图库影像物体中的每一个的一个或多个特征；决定所述多个查询图像的联合特征与所述图库影像物体中的每一个的多个特征之间的余弦距离；依据从最相似于所述查询物体到最不相似于所述查询物体的所述多个余弦距离对所述多个图库影像物体进行排序，其中在所述多个查询图像的联合特征和所述图库影像物体的所述多个特征之间具有所述最短余弦距离的所述图库影像物体与所述查询物体最相似，并且在所述多个查询图像的联合特征和所述图库影像物体的所述多个特征之间具有所述最大余弦距离的所述图库影像物体与所述查询物体最不相似；和输出
N
个与所述查询物体最相似的所述已排序的多个图库影像物体的多个图库影像
。2.
根据权利要求1所述的设备，其特征在于，进一步包括：轮廓描述模块，由至少一个处理器所执行，其被配置为从所述多个基本查询特征产生一个或多个第三特定查询特征，其中所述第三特定查询特征表示所述查询物体的轮廓；其中，所述影像搜索引擎还被配置为组合所述第一特定查询特征
、
所述第二特定查询特征和所述第三特定查询特征以形成所述查询物体的一个或多个查询图像的联合特征
。3.
根据权利要求1所述的设备，其特征在于，其中所述特征提取网络由包括一个或多个卷积层和一个或多个全连接层的卷积神经网络
(Convolutional neural network,CNN)
实现；其中所述分类学习模块由
CNN
实现，且其包括一个或多个卷积层和一个或多个全连接层以及第一基于样本对的损失函数；和其中所述局部关键区域描述模块由
CNN
实现，且其包括一个或多个卷积层和一个或多个全连接层以及第二基于样本对的损失函数
。4.
根据权利要求1所述的设备，其特征在于，其中，所述影像搜索引擎还被配置为通过串联所述第一特定查询特征和所述第二特定查询特征来组合所述第一具体查询特征和所述第二具体查询特征，以形成一个或多个查询图像的联合特征
。5.
根据权利要求1所述的设备，其特征在于，其中，所述影像搜索引擎还被配置为通过对所述第一特定查询特征和所述第二特定查询特征求和来组合所述第一具体查询特征和所述第二具体查询特征，以形成一个或多个查询图像的联合特征
。6.
一种用于训练权利要求2的设备的方法，其特征在于，包括：
获得包括多个原始影像的训练数据集，每一个所述原始影像包括属于单个元类别的多个子类别之一的多个样本物体中的一个样本物体；通过增强模块为每一个所述原始影像产生区域混淆机制
(RCM)
影像，其中所述
RCM
影像是通过将对应的原始影像分离成多个区块，然后随机重新排列所述多个区块的多个位置以及一个或多个所述区块的垂直翻转和水平翻转来产生所述
RCM
影像；通过所述特征提取网络从每一个所述原始影像和每一个所述
RCM
影像中提取所述样本物体的一个或多个样本特征；用所述多个样本特征迭代地训练所述分类学习模块
、
所述局部关键区域描述模块和所述轮廓描述模块，直到所有所述模块的分类模型收敛，包括：最小化所述分类学习模块的第一成对损失；最小化所述局部关键区域描述模块的第二成对损失；和最小化所述轮廓描述模块的第三成对损失
。7.
根据权利要求6所述的用于训练的方法，其特征在于，其中最小化所述分类学习模块的所述第一成对损失包括：构建具有第一锚定原始影像以及所述多个原始影像的另一个的第一正样本对，其中所述第一锚定原始影像作为所述多个原始影像中的一个且包括属于所述多个子类别中的一个的样本物体，且所述多个原始影像的所述另一个包括属于同一子类别的样本物体；构建具有所述第一锚定原始影像以及所述多个原始影像的另一个的第一负样本对，其中所述多个原始影像的所述另一个包括样本物体，且所述样本物体的子类别不同于在所述第一锚定原始影像中的所述样本物体的所述子类别；从具有所述多个原始影像的所有第一正样本对中，最小化所述所有第一正样本对的平均特征距离，以及从具有所述多个原始影像的所有第一负样本对中，最大化所述所有第一负样本对的平均特征距离；和更新所述分类模块神经网络；其中最小化所述局部关键区域描述模块的所述第二成对损失包括：构建具有第二锚定
RCM
影像以及所述多个
RCM
影像的另一个的第二正样本对，其中所述第二锚定
RCM
影像作为所述多个
RCM
影像的一者且包括属于所述多个子类别中的一个的样本物体，且所述多个
RCM
影像的所述另一个包括属于所述同样子类别的样本物体；构建具有第二锚定原始影像以及所述多个原始影像的另一个的第二负样本对，其中所述第二锚定原始影像作为对应于所述第二锚定
RCM
影像的所述多个原始影像中的一个，且所述多个原始影像的所述另一个包括的样本物体其所属的子类别不同于所述第二锚定原始影像中的所述样本物体的所述子类别；从具有所述多个
RCM
影像的所有第二正样本对中，最小化所述所有第二正样本对的平均特征距离，以及从具有所述多个原始影像的所有第二负样本对中，最大化所述所有第二负样本对的平均特征距离；和更新所述局部关键区域描述模块神经网络；和其中最小化所述轮廓描述模块的所述第三成对损失包括：构建具有第三锚定原始影像以及所述多个原始影像的另一个的第三正样本对，其中所
述第三锚定原始影像作为所述多个原始影像中的一个且包括属于所述多个子类别中的一个的样本物体，且所述多个原始影像的所述另一个包括属于同一子类别的样本物体；构建具有第三锚定
RCM
影像以及所述多个
RCM
...

【专利技术属性】
技术研发人员：陈俊明，李政龙，谢谊乒，张崇浩，
申请(专利权)人：香港应用科技研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人