图像数据处理方法、装置、设备及计算机介质制造方法及图纸

技术编号：41004590 阅读：10 留言：0更新日期：2024-04-18 21:41

本公开公开了一种图像数据处理方法、装置、设备及计算机介质，本公开各实施例提供的技术方案，通过对样本图像进行处理得到样本对象信息和样本背景信息，基于初始视觉转换单元对样本对象信息、样本背景信息、预设对象向量信息和预设背景向量信息进行处理，得到第一子图像特征信息、第二子图像特征信息、对象特征信息和背景特征信息，对第一子图像特征信息、第二子图像特征信息、对象特征信息和背景特征信息进行编码后并计算得到第一损失信息；获取与样本对象对应的预设数量个第一得分，与样本背景对应的预设数量个第二得分及第一损失信息对初始模型进行训练，得到目标模型。从而实现识别零样本的对象属性和背景属性，提高了零样本的识别能力。

全部详细技术资料下载

【技术实现步骤摘要】

本公开属于图像识别，尤其涉及一种图像数据处理方法、装置、设备及计算机介质。

技术介绍

1、现有技术，通过对比学习来获得视觉语言预训练模型的范式，其包含文本编码器和图像编码器两部分，可学习图像和文本之间的语义联系，被广泛用于多模态相关的下游任务，如图像零样本识别、图像生成和图像检索等。clip是用于匹配图像和文本的预训练神经网络模型，在用于零样本分类时，将若干待识别类别转为一句prompt(提示语句)，输入到文本编码器，将其结果与图像输入到图像编码器得到的结果计算相似度，从而获得图像类别。而clip没有解决跨域问题，如果待识别图像与训练集差距较大，clip识别的精度将会很低，使得图像识别准确度降低。并且重新使用对比学习训练clip需要大量图像和文本对，少量数据会破坏clip原有的能力，使得clip无法完成对象和背景属性的零样本识别。

2、目前有一些针对多标签分类的改进方法，例如，引入图卷积神经网络来建模不同标签之间的关系。对于零样本分类，clip模型通过使用对比学习建模图像和文本之间的对应关系，实现了通过文本prompt实现零样本分类的能力，但对于数据域差异较大的场景无能为力。通过知识蒸馏迁移大规模图文预训练模型中的多模态知识，挖掘文本标签中的视觉一致性信息，从而实现多标签零样本分类，多标签分类能力较好，但零样本能力较差，缺乏对象和背景在图像上的区域先验特性。

技术实现思路

1、本公开实施例提供一种与相关技术不同的实现方案，通过分别对样本图像中的对象和背景进行处理，根据处

2、第一方面，本公开提供一种图像数据处理方法，包括：基于初始模型中的图像处理单元对所述样本图像进行处理，得到所述样本图像中的样本对象的第一图像信息、所述样本图像中的样本背景的第二图像信息、与所述样本对象相关的至少一个第一子图像、以及与所述样本背景相关的至少一个第二子图像；通过所述初始模型中的初始视觉转换单元对所述至少一个第一子图像、所述至少一个第二子图像、所述样本对象对应的预设对象向量信息，以及所述样本背景对应的预设背景向量信息进行处理，得到所述至少一个第一子图像对应的至少一个第一子图像特征信息、所述至少一个第二子图像对应的至少一个第二子图像特征信息、所述预设对象向量信息对应的对象特征信息，以及所述预设背景向量信息对应的背景特征信息；通过所述初始模型中的初始编码单元对所述至少一个第一子图像特征信息、所述至少一个第二子图像特征信息，所述对象特征信息，以及所述背景特征信息进行编码，得到所述至少一个第一子图像特征信息对应的至少一个第一子编码特征、所述至少一个第二子图像特征信息对应的至少一个第二子编码特征、所述对象特征信息对应的对象编码特征，以及所述背景特征信息对应的背景编码特征；基于第一预设损失计算算法对所述第一图像信息对应的第一编码结果、所述第二图像信息对应的第二编码结果、所述对象特征信息，以及所述背景特征信息进行处理，得到第一损失信息；通过初始模型中的文本编码单元，基于用于描述对象的第一标签集、用于描述背景的第二标签集、所述至少一个第一子编码特征、所述至少一个第二子编码特征、所述对象编码特征，以及所述背景编码特征确定所述样本对象对应的预设数量个第一得分与所述样本背景对应的所述预设数量个第二得分，所述第一标签集包括至少包括用于描述所述样本对象的样本对象标签词，所述第二标签集至少包括用于描述所述样本背景的样本背景标签词；基于所述预设数量个第一得分、所述预设数量个第二得分，以及所述第一损失信息对所述初始模型进行训练，得到所述初始模型对应的目标模型。

3、第二方面，本公开提供一种图像数据处理装置，包括：第一处理单元，用于基于初始模型中的图像处理单元对所述样本图像进行处理，得到所述样本图像中的样本对象的第一图像信息、所述样本图像中的样本背景的第二图像信息、与所述样本对象相关的至少一个第一子图像、以及与所述样本背景相关的至少一个第二子图像；第二处理单元，用于通过所述初始模型中的初始视觉转换单元对所述至少一个第一子图像、所述至少一个第二子图像、所述样本对象对应的预设对象向量信息，以及所述样本背景对应的预设背景向量信息进行处理，得到所述至少一个第一子图像对应的至少一个第一子图像特征信息、所述至少一个第二子图像对应的至少一个第二子图像特征信息、所述预设对象向量信息对应的对象特征信息，以及所述预设背景向量信息对应的背景特征信息；编码单元，用于通过所述初始模型中的初始编码单元对所述至少一个第一子图像特征信息、所述至少一个第二子图像特征信息，所述对象特征信息，以及所述背景特征信息进行编码，得到所述至少一个第一子图像特征信息对应的至少一个第一子编码特征、所述至少一个第二子图像特征信息对应的至少一个第二子编码特征、所述对象特征信息对应的对象编码特征，以及所述背景特征信息对应的背景编码特征；第三处理单元，用于基于第一预设损失计算算法对所述第一图像信息对应的第一编码结果、所述第二图像信息对应的第二编码结果、所述对象特征信息，以及所述背景特征信息进行处理，得到第一损失信息；确定单元，用于通过初始模型中的文本编码单元，基于用于描述对象的第一标签集、用于描述背景的第二标签集、所述至少一个第一子编码特征、所述至少一个第二子编码特征、所述对象编码特征，以及所述背景编码特征确定所述样本对象对应的预设数量个第一得分与所述样本背景对应的所述预设数量个第二得分，所述第一标签集包括至少包括用于描述所述样本对象的样本对象标签词，所述第二标签集至少包括用于描述所述样本背景的样本背景标签词；训练单元，用于基于所述预设数量个第一得分、所述预设数量个第二得分，以及所述第一损失信息对所述初始模型进行训练，得到所述初始模型对应的目标模型。

4、第三方面，本公开提供一种电子设备，包括：

5、处理器；以及

6、存储器，用于存储所述处理器的可执行指令；

7、其中，所述处理器配置为经由执行所述可执行指令来执行第一方面、第二方面、第一方面各可能的实施方式，或第二方面各可能的实施方式中的任一方法。

8、第四方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面、或第一方面各可能的实施方式中的任一方法。

9、第五方面，本公开实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面、或第一方面各可能的实施方式中的任一方法。

10、本公开提供的图像数据处理的方案，可利用图像处理单元对样本图像进行处理得到样本对象信息和样本背景信息，基于初始视觉转换单元对样本对象信息、样本背景信息、预设对象向量信息和预设背景向量信息进行处理，得到第一子图像特征信息、第二子图像特征信息、对象特征信息和背景特征信息，通过初始编码单元对第一子图像特征信息、第二子图像特征信息、对象特征信息和背景特征信息进行编码得到第一子编码特征、第二子编码特征、对象编码特征，以及背景编本文档来自技高网...

【技术保护点】

1.一种图像数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述第一标签集中包括多个对象标签词，所述第二标签集中包括多个背景标签词，所述样本对象标签词为所述多个对象标签词中的其中一个词，所述样本背景标签词为所述多个背景标签词中的其中一个词。

3.根据权利要求1所述的方法，其特征在于，所述图像处理单元包括图像检测单元，基于初始模型中的图像处理单元对所述样本图像进行处理，得到所述样本图像中的样本对象的第一图像信息、所述样本图像中的样本背景的第二图像信息、与所述样本对象相关的至少一个第一子图像、以及与所述样本背景相关的至少一个第二子图像，包括：

4.根据权利要求1所述的方法，其特征在于，所述初始编码单元包括：对象局部编码单元、背景局部编码单元、对象全局编码单元，以及背景全局编码单元，通过所述初始模型中的初始编码单元对所述至少一个第一子图像特征信息、所述至少一个第二子图像特征信息，所述对象特征信息，以及所述背景特征信息进行编码，得到所述至少一个第一子图像特征信息对应的至少一个第一子编码特征、所述至少一个第二子图像特征信息对应

5.根据权利要求1所述的方法，其特征在于，基于所述预设数量个第一得分、所述预设数量个第二得分，以及所述第一损失信息对所述初始模型进行训练，得到所述初始模型对应的目标模型，包括：

6.根据权利要求1所述的方法，其特征在于，通过初始模型中的文本编码单元，基于用于描述对象的第一标签集、用于描述背景的第二标签集、所述至少一个第一子编码特征、所述至少一个第二子编码特征、所述对象编码特征，以及所述背景编码特征确定所述样本对象对应的预设数量个第一得分与所述样本背景对应的所述预设数量个第二得分，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种图像数据处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法。

...

【技术特征摘要】

1.一种图像数据处理方法，其特征在于，包括：

【专利技术属性】
技术研发人员：刘嘉炜，万阳春，杨青，
申请(专利权)人：度小满科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人