图像处理、图像分类和图像检测的方法及设备技术

技术编号：38266379 阅读：8 留言：0更新日期：2023-07-27 10:23

本申请提供一种图像处理、图像分类和图像检测的方法及设备。本申请的方法，通过对待处理的目标图像，将目标图像编码为第一向量表示，并获取与目标图像相关的多个参考图像及参考图像的文本描述，使用多个参考图像及参考图像的文本描述，对目标图像的第一向量表示进行特征增强，得到目标图像的增强向量表示，可提升目标图像的向量表示的特征表达能力，进一步地，根据目标图像的增强向量表示进行图像处理，可以大大提升图像处理的精准度。可以大大提升图像处理的精准度。可以大大提升图像处理的精准度。

全部详细技术资料下载

【技术实现步骤摘要】
图像处理、图像分类和图像检测的方法及设备

[0001]本申请涉及计算机技术，尤其涉及一种图像处理、图像分类和图像检测的方法及设备。

技术介绍

[0002]随着人工智能技术的发展，对图像进行处理的应用场景越来越多，图像处理被广泛应用于计算机视觉领域、以及计算机视觉与自然语言处理等其他技术的交叉领域的各种应用场景。例如，图像分类、目标检测、基于图像和文本的多模态检索等。基于人工智能技术训练合适的图像处理模型，利用图像处理模型对输入图像编码，根据编码得到的输入图像的向量表示进行图像处理，获得图像处理结果。
[0003]通常在模型训练过程中，图像处理模型对数量足够的样本图像进行编码及图像处理，希望图像处理模型能够充分拟合样本图像中特征信息，得到表达能力较强的图像向量表示。但是在实际训练过程中往往存在欠拟合或过拟合的情况，图像处理模型不能很好地拟合样本图像的特征信息，导致编码得到的图像向量表示的表达能力差，从而导致图像处理的精准度低。

技术实现思路

[0004]本申请提供一种图像处理、图像分类和图像检测的方法及设备，用以解决现有的图像处理的精准度低的问题。
[0005]第一方面，本申请提供一种图像处理方法，包括：
[0006]根据待处理的目标图像，将所述目标图像编码为第一向量表示，并获取与所述目标图像相关的多个参考图像及所述参考图像的文本描述；
[0007]使用所述多个参考图像及所述参考图像的文本描述，对所述目标图像的第一向量表示进行特征增强，得到所述目标图像的增强向量表示；r/>[0008]根据所述目标图像的增强向量表示进行图像处理，得到图像处理结果。
[0009]第二方面，本申请提供一种图像分类方法，包括：
[0010]响应于图像分类请求，获取待分类的目标图像和多个类别信息；
[0011]获取各所述类别信息对应的文本描述，将各所述类别信息对应的文本描述编码为第一文本表示，将所述目标图像编码为第一向量表示，并获取与所述目标图像相关的多个参考图像及所述参考图像的文本描述；
[0012]使用所述多个参考图像及所述参考图像的文本描述，对所述目标图像的第一向量表示进行特征增强，得到所述目标图像的增强向量表示；
[0013]根据所述目标图像的增强向量表示与所述第一文本表示，进行图像分类，得到所述目标图像对应的类别信息。
[0014]第三方面，本申请提供一种图像检索方法，包括：
[0015]响应于图像检索请求，所述图像检索请求包含输入文本；
[0016]将所述输入文本编码为第一文本表示；
[0017]根据所述第一文本表示与图像库中目标图像的增强向量表示的相关度，检索与所述输入文本匹配的目标图像，并输出与所述输入文本匹配的目标图像；
[0018]其中，所述图像库中目标图像的增强向量表示通过如下方式确定：
[0019]将所述目标图像编码为第一向量表示，并获取与所述目标图像相关的多个参考图像及所述参考图像的文本描述；
[0020]使用所述多个参考图像及所述参考图像的文本描述，对所述目标图像的第一向量表示进行特征增强，得到所述目标图像的增强向量表示。
[0021]第四方面，本申请提供一种图像处理方法，应用于端侧设备，包括：
[0022]获取待处理的目标图像，向服务器发送包含所述目标图像的图像处理请求；接收所述服务器发送的所述目标图像的图像处理结果，所述图像处理结果通过第一方面所述的方法确定；输出所述目标图像的图像处理结果。
[0023]第五方面，本申请提供一种云服务器，包括：处理器，以及与所述处理器通信连接的存储器；所述存储器存储计算机执行指令；所述处理器执行所述存储器存储的计算机执行指令，以实现第一方面、第二方面或第三方面所述的方法。
[0024]本申请提供的图像处理、图像分类和图像检测的方法及设备，通过对待处理的目标图像，将目标图像编码为第一向量表示，并获取与目标图像相关的多个参考图像及参考图像的文本描述，使用多个参考图像及参考图像的文本描述，对目标图像的第一向量表示进行特征增强，得到目标图像的增强向量表示，可提升目标图像的向量表示的特征表达能力，根据目标图像的增强向量表示进行图像处理，可以大大提升图像处理的精准度。
附图说明
[0025]此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。
[0026]图1为本申请所适用的一种示例性的图像处理系统架构图；
[0027]图2为本申请一示例性实施例提供的图像处理方法流程图；
[0028]图3为本申请一示例性实施例提供的图像处理的架构图；
[0029]图4为本申请另一示例性实施例提供的图像处理方法流程图；
[0030]图5为本申请一示例性实施例提供的基于多模态数据的图像处理的架构图；
[0031]图6为本申请一示例性实施例提供的检索增强模块的一种示例架构图；
[0032]图7为本申请另一示例性实施例提供的检索增强模块的一种示例架构图；
[0033]图8为本申请一示例性实施例提供的图像处理的交互流程图；
[0034]图9为本申请一示例性实施例提供的图像分类方法流程图；
[0035]图10为本申请一示例性实施例提供的基于多模态表征模型的图像分类的架构图；
[0036]图11为本申请一示例性实施例提供的图像检索方法流程图；
[0037]图12为本申请一示例性实施例提供的图像处理装置的结构示意图；
[0038]图13为本申请一示例实施例提供的一种云服务器的结构示意图。
[0039]通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为
本领域技术人员说明本申请的概念。
具体实施方式
[0040]这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
[0041]首先对本申请所涉及的名词进行解释：
[0042]多模态表征模型：一种深度学习模型，能够同时对多种模态的数据(如图像、文本等)进行特征表示。
[0043]CLIP：一个经典的多模态表征模型。
[0044]针对在实际训练过程中图像处理模型不能很好地拟合样本图像的特征信息，导致编码得到的图像向量表示的表达能力差，从而导致图像处理的精准度低的问题，本申请提供一种新的图像处理方法，根据待处理的目标图像，将目标图像编码为第一向量表示；并且，获取与目标图像相关的多个参考图像及参考图像的文本描述，使用多个参考图像及参考图像的文本描述，对目标图像的第一向本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种图像处理方法，其特征在于，包括：根据待处理的目标图像，将所述目标图像编码为第一向量表示，并获取与所述目标图像相关的多个参考图像及所述参考图像的文本描述；使用所述多个参考图像及所述参考图像的文本描述，对所述目标图像的第一向量表示进行特征增强，得到所述目标图像的增强向量表示；根据所述目标图像的增强向量表示进行图像处理，得到图像处理结果。2.根据权利要求1所述的方法，其特征在于，还包括：获取输入文本，将所述输入文本编码为第一文本表示；所述根据所述目标图像的增强向量表示进行图像处理，得到所述目标图像的图像处理结果，包括：根据所述目标图像的增强向量表示和所述第一文本表示进行图像处理，得到所述目标图像的图像处理结果。3.根据权利要求1或2所述的方法，其特征在于，所述获取与所述目标图像相关的多个参考图像及所述参考图像的文本描述，包括：获取预先构建的参考集，所述参考集包含参考图像及参考图像的文本描述；基于图像间的相关度，在所述参考集中检索到与所述目标图像相关的多个参考图像，以及所述多个参考图像的文本描述。4.根据权利要求1或2所述的方法，其特征在于，所述使用所述多个参考图像及所述参考图像的文本描述，对所述目标图像的第一向量表示进行特征增强，得到所述目标图像的增强向量表示，包括：将所述多个参考图像分别编码为第二向量表示，并将所述多个参考图像的文本描述分别编码为第二文本表示；对所述目标图像的第一向量表示、所述多个参考图像的第二向量表示、以及所述多个参考图像的文本描述的第二文本表示，进行交叉注意力计算，得到增强特征；将所述目标图像的第一向量表示和所述增强特征融合，得到所述目标图像的增强向量表示。5.根据权利要求4所述的方法，其特征在于，所述对所述目标图像的第一向量表示、所述多个参考图像的第二向量表示、以及所述多个参考图像的文本描述的第二文本表示，进行交叉注意力计算，得到增强特征，包括：将所述第一向量表示作为查询特征、将所述多个参考图像的第二向量表示作为键特征、将所述多个参考图像的文本描述的第二文本表示作为值特征，对所述查询特征、键特征和值特征进行交叉注意力计算，得到所述增强特征。6.根据权利要求4所述的方法，其特征在于，所述对所述目标图像的第一向量表示、所述多个参考图像的第二向量表示、以及所述多个参考图像的文本描述的第二文本表示，进行交叉注意力计算，得到增强特征，包括：将所述第一向量表示作为查询特征、将所述多个参考图像的第二向量表示作为键特征、将所述多个参考图像的文本描述的第二文本表示作为值特征，进行交叉注意力计算，得到第一特征；将所述第一向量表示作为查询特征、将所述多个参考图像的文本描述的第二文本表示
作为键特征、将所述多个参考图像的第二向量表示作为值特征，进行交叉注意力计算，得到第二特征；所述增强特征包括所述第一特征和所述第二特征。7.根据权利要求1所述的方法，其特征在于，所述根据所述目标图像的增强向量表示进行图像处理，得到所述目标图像的图像处理结果，包括：根据所述目标图像的增强向量表示进行图像分类，确定所述目标图像对应的类别信息，得到图像分类结果；或者，所述待处理的目标图像为给定的输入图像中候选区域对应的图像，根据所述目标图像的增强向量表示，确定所述目标图像是否包含目标对象、以及所包含的目标对象的类别，并确定包含目标对象的候选区域，以及候选区域内所包含的目标对象的类别，得到目...

【专利技术属性】
技术研发人员：谢晨伟，孙思洋，熊雄，郑赟，赵德丽，周靖人，
申请(专利权)人：阿里巴巴中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人