一种图像识别方法、装置、设备、存储介质及产品制造方法及图纸

技术编号：41357320 阅读：40 留言：0更新日期：2024-05-20 10:08

本申请实施例提供了一种图像识别方法、装置、设备、存储介质及产品。本申请实施例提供的技术方案通过将待识别图像、问题文本以及描述规则文本输入至训练完成的多模态对齐网络中，通过多模态对齐网络利用视觉处理模型获取待识别图像的图像特征向量，以及利用语言处理模型获取问题文本和描述规则文本的文本特征向量，并利用语言处理模型根据图像特征向量和文本特征向量确定待识别图像在设定查询类别对应的目标标签，不需要重新收集样本数据训练新的识别模型，基于设定查询类别配置问题文本和描述规则文本即可得到待识别图像在设定查询类别对应的目标标签，有效提高图像识别的通用性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及图像处理，尤其涉及一种图像识别方法、装置、设备、存储介质及产品。

技术介绍

1、目前，对图像的审核一般是通过图像识别模型的识别结果进行的，即通过基于大量样本和标注标签的监督学习的方式进行训练得到的图像识别模型进行图像识别。

2、图像识别模型需要积累较大的训练数据才可保证具备较好的泛化能力和实际应用价值，需要从大量的数据中获取所关注的正样本，此类正样本在应用到大规模的审核数据上时往往需要数十万或者数万的累积量。然而在一些训练数据中未曾明确定义的类别识别上，目前通用的解决案是通过人工收集更多所关注类别的数据以缓解数据不足的问题，同时进一步训练一个单独的图像识别模实现对新类别的有效识别。但是重新训练一个图像识别模型需要投入极大的时间成本，并且由于审核的规则随着业务和尺度的变更，往往要求重新收集数据并进行标注，图像识别的通用性较低。

技术实现思路

1、本申请实施例提供一种图像识别方法、装置、设备、存储介质及产品，以解决现有图像识别方案的通用性较低的技术问题，有效提高图像

【技术保护点】

1.一种图像识别方法，其特征在于，包括：

2.根据权利要求1所述的图像识别方法，其特征在于，所述多模态对齐网络在利用视觉处理模型获取所述待识别图像的图像特征向量，以及利用语言处理模型获取所述问题文本和所述描述规则文本的文本特征向量，并利用所述语言处理模型根据所述图像特征向量和所述文本特征向量确定所述待识别图像在所述设定查询类别对应的目标标签时，包括：

3.根据权利要求2所述的图像识别方法，其特征在于，所述多模态对齐网络在利用语言处理模型中的文本解码模块获取所述问题文本以及所述描述规则文本的文本特征向量时，包括：

4.根据权利要求1所述的图像识别方法，其...

【技术特征摘要】

1.一种图像识别方法，其特征在于，包括：

4.根据权利要求1所述的图像识别方法，其特征在于，所述多模态对齐网络的训练过程包括：

5.根据权利要求4所述的图像识别方法，其特征在于，所述多模态对齐网络在利用视觉处理模型获取所述样本图像的样本图像向量，以及利用语言处理模型获取所述样本描述文本和所述样本物体坐标信息的样本文本向量，并利用所述语言处理模型根据所述样本图像向量和...

【专利技术属性】
技术研发人员：陈祥，
申请(专利权)人：百果园技术新加坡有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人