一种图像的召回方法、装置及设备制造方法及图纸

技术编号：41741106 阅读：16 留言：0更新日期：2024-06-19 13:01

本说明书实施例公开了一种图像的召回方法、装置及设备，该方法包括：对待检测的目标图像进行开集目标检测，以检测目标图像中包含的第一类目标和第二类目标，得到目标图像中包含的每个图像目标所在的目标区域，第一类目标为属于预设类别的目标，第二类目标为不属于预设类别的目标，分别对每个图像目标所在的目标区域中包含的图像内容进行语义识别处理，得到每个目标区域对应的语义识别文本，基于每个图像目标在目标图像中的位置的信息、目标区域对应的语义识别文本和预设的图像召回条件，通过预设的大语言模型判断目标图像是否满足图像召回条件，从而可以通过召回目标图像来达到召回其包含的某指定图像目标(具体如某指定商品等)的目的。

全部详细技术资料下载

【技术实现步骤摘要】

本文件涉及计算机，尤其涉及一种图像的召回方法、装置及设备。

技术介绍

1、基于对保护用户的隐私数据和某机构的内部隐私数据及相应合规和舆情的安全等因素的考虑，对图像中的图像目标进行识别变得越发重要。在如商品等目标识别领域，通常，通过一个目标检测模型来对图像中的商品进行定位和识别，但是，当该商品的召回条件发生变化时，需要对图像中包含的商品元素进行大量的人工标注，并基于标注后的图像对模型进行重新训练，进而带来大量的人力资源的消耗。

2、此外，还可以通过一个图像理解算法来对图像中的商品内容进行描述，该方式可以较好的面对动态变化的图像的召回条件，但是，当图像具有复杂背景时，上述方式无法准确的得到图像中包含的每个商品，从而导致对商品的召回不足。为此，需要提供一种更优的能够对指定商品的图像的细粒度识别和召回，并可以在图像召回条件发生变化时，无需对相应的模型进行重新训练即可根据新的图像召回条件来召回包含指定商品的图像，并且依旧保持对图像的高召回率，降低人力资源的消耗的技术方案。

技术实现思路

1、本说明书实施例的目的是提供一种更优的能够对指定商品的图像的细粒度识别和召回，并可以在图像召回条件发生变化时，无需对相应的模型进行重新训练即可根据新的图像召回条件来召回包含指定商品的图像，并且依旧保持对图像的高召回率，降低人力资源的消耗的技术方案。

2、为了实现上述技术方案，本说明书实施例是这样实现的：

3、本说明书实施例提供的一种图像的召回方法，所述方法包括：获取待检测

4、本说明书实施例提供的一种图像的召回装置，所述装置包括：图像获取模块，获取待检测的目标图像。开集检测模块，对所述目标图像进行开集目标检测，以检测所述目标图像中包含的第一类目标和第二类目标，得到所述目标图像中包含的一个或多个不同的图像目标中每个图像目标所在的目标区域，所述图像目标包括所述第一类目标和/或第二类目标，所述第一类目标为属于预设类别的目标，所述第二类目标为不属于所述预设类别的目标。图像理解模块，分别对每个图像目标所在的目标区域中包含的图像内容进行语义识别处理，得到每个目标区域对应的语义识别文本。图像召回模块，基于每个所述图像目标在所述目标图像中的位置的信息、所述目标图像中包含的所述目标区域对应的语义识别文本和预设的图像召回条件，通过预设的大语言模型判断所述目标图像是否满足所述图像召回条件。

5、本说明书实施例提供的一种图像的召回设备，所述图像的召回设备包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器：获取待检测的目标图像。对所述目标图像进行开集目标检测，以检测所述目标图像中包含的第一类目标和第二类目标，得到所述目标图像中包含的一个或多个不同的图像目标中每个图像目标所在的目标区域，所述图像目标包括所述第一类目标和/或第二类目标，所述第一类目标为属于预设类别的目标，所述第二类目标为不属于所述预设类别的目标。分别对每个图像目标所在的目标区域中包含的图像内容进行语义识别处理，得到每个目标区域对应的语义识别文本。基于每个所述图像目标在所述目标图像中的位置的信息、所述目标图像中包含的所述目标区域对应的语义识别文本和预设的图像召回条件，通过预设的大语言模型判断所述目标图像是否满足所述图像召回条件。

6、本说明书实施例还提供了一种存储介质，所述存储介质用于存储计算机可执行指令，所述可执行指令在被处理器执行时实现以下流程：获取待检测的目标图像。对所述目标图像进行开集目标检测，以检测所述目标图像中包含的第一类目标和第二类目标，得到所述目标图像中包含的一个或多个不同的图像目标中每个图像目标所在的目标区域，所述图像目标包括所述第一类目标和/或第二类目标，所述第一类目标为属于预设类别的目标，所述第二类目标为不属于所述预设类别的目标。分别对每个图像目标所在的目标区域中包含的图像内容进行语义识别处理，得到每个目标区域对应的语义识别文本。基于每个所述图像目标在所述目标图像中的位置的信息、所述目标图像中包含的所述目标区域对应的语义识别文本和预设的图像召回条件，通过预设的大语言模型判断所述目标图像是否满足所述图像召回条件。

本文档来自技高网...

【技术保护点】

1.一种图像的召回方法，所述方法包括：

2.根据权利要求1所述的方法，所述基于每个所述图像目标在所述目标图像中的位置的信息、所述目标图像中包含的所述目标区域对应的语义识别文本和预设的图像召回条件，通过预设的大语言模型判断所述目标图像是否满足所述图像召回条件，包括：

3.根据权利要求2所述的方法，所述方法还包括：

4.根据权利要求3所述的方法，所述方法还包括：

5.根据权利要求1所述的方法，所述对所述目标图像进行开集目标检测，以检测所述目标图像中包含的第一类目标和第二类目标，得到所述目标图像中包含的一个或多个不同的图像目标中每个图像目标所在的目标区域，包括：

6.根据权利要求5所述的方法，所述方法还包括：

7.根据权利要求6所述的方法，所述分别对每个图像目标所在的目标区域中包含的图像内容进行语义识别处理，得到每个目标区域对应的语义识别文本，包括：

8.根据权利要求7所述的方法，所述方法还包括：

9.一种图像的召回装置，所述装置包括：

10.一种图像的召回设备，所述图像的召回设备包括：

...

【技术特征摘要】

1.一种图像的召回方法，所述方法包括：

3.根据权利要求2所述的方法，所述方法还包括：

4.根据权利要求3所述的方法，所述方法还包括：

5.根据权利要求1所述的方法，所述对所述目标图像进行开集目标检测，以检测所述目标图像中包含的...

【专利技术属性】
技术研发人员：高超，祝慧佳，赵智源，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人