图像识别模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号：40310281 阅读：5 留言：0更新日期：2024-02-07 20:53

本申请实施例提供一种图像识别模型训练方法、装置、设备及存储介质，该方法包括：获取多个样本数据，多个样本数据包括多个第一样本数据和多个第二样本数据，第一样本数据包括第一样本图像和描述文本，第二样本数据包括第二样本图像、第二文本和第三文本，描述文本不包括第一样本图像中的对象数量、第二文本包括第二样本图像中正确的对象数量，第三文本包括第二样本图像中错误的对象数量，确定多个样本数据的图像特征和文本特征，根据多个样本数据的图像特征和文本特征，对预设模型进行训练处理得到图像识别模型。本申请的方法，提高了图像识别模型的计数能力，可准确识别出图像中对象的数量。

全部详细技术资料下载

【技术实现步骤摘要】

本申请属于学习模型领域，具体涉及图像识别模型训练方法、装置、设备及存储介质。

技术介绍

1、目前，大型视觉语言模型(large vision-language models，vlms)是一种结合了视觉和自然语言处理技术的深度学习模型，可以使用大量的图像和文本数据进行训练，以识别和理解图像中的信息。

2、然而，现有的大型视觉语言模型在理解图像中的数量信息时，无法准确识别图像中各个对象的数量，导致大型视觉语言模型的计数能力较差。

技术实现思路

1、本申请实施例涉及一种图像识别模型训练方法、装置、设备及存储介质，用以解决现有技术中大型视觉语言模型的计数能力较差的缺陷。

2、第一方面，本申请实施例提供一种图像识别模型训练方法，所述方法包括：

3、获取多个样本数据，所述多个样本数据包括多个第一样本数据和多个第二样本数据，第一样本数据包括第一样本图像和描述文本，第二样本数据包括第二样本图像和计数文本；

4、确定所述多个样本数据的图像特征和文本特征，所述图像特征包括所述第一样本图像对应的第一图像特征、以及所述第二样本图像对应的第二图像特征，所述文本特征包括所述描述文本对应的描述文本特征、以及所述计数文本对应的计数文本特征；

5、根据所述多个样本数据的图像特征和文本特征，对预设模型进行训练处理得到图像识别模型，所述图像识别模型用于确定目标图像的目标描述信息，所述目标描述信息中包括所述目标图像中的对象计数。

6、在一种可能的实施

7、根据所述第一图像特征、所述第二图像特征、所述描述文本特征和所述第一计数文本特征，确定目标描述损失；

8、根据所述第二图像特征、所述第一计数文本特征和所述第二计数文本特征，确定目标计数损失；

9、根据所述目标描述损失和所述目标计数损失，更新所述预设模型的模型参数，直至得到所述图像识别模型。

10、在一种可能的实施方式中，根据所述第一图像特征、所述第二图像特征、所述描述文本特征和所述第一计数文本特征，确定目标描述损失，包括：

11、确定所述第一图像特征和所述描述文本特征之间的第一描述损失；

12、确定所述第二图像特征和所述第一计数文本特征之间的第二描述损失；

13、将所述第一描述损失和所述第二描述损失之和，确定为所述目标描述损失。

14、在一种可能的实施方式中，根据所述第二图像特征、所述第一计数文本特征和所述第二计数文本特征，确定目标计数损失，包括：

15、确定所述第二图像特征和所述第一计数文本特征之间的第一计数损失；

16、确定所述第二图像特征和所述第二计数文本特征之间的第二计数损失；

17、确定所述目标计数损失包括所述第一计数损失和所述第二计数损失。

18、在一种可能的实施方式中，根据所述目标描述损失和所述目标计数损失，更新所述预设模型的模型参数，直至得到所述图像识别模型，包括：

19、根据所述目标描述损失和所述目标计数损失，更新所述预设模型的模型参数，直至所述描述损失小于或等于第一阈值、所述第一计数损失小于或等于第二阈值、以及所述第二计数损失大于或等于第三阈值时，得到所述图像识别模型。

20、在一种可能的实施方式中，所述预设模型包括图像编码器和文本编码器；确定所述多个样本数据的图像特征和文本特征，包括：

21、通过所述图像编码器对所述第一样本图像进行编码处理，得到所述第一图像特征；

22、通过所述图像编码器对所述第二样本图像进行编码处理，得到所述第二图像特征；

23、通过所述文本编码器对所述描述文本进行编码处理，得到所述描述文本特征；

24、通过所述文本编码器对所述第一计数文本进行编码处理，得到所述第一计数文本特征；

25、通过所述文本编码器对所述第二计数文本进行编码处理，得到所述第二计数文本特征。

26、第二方面，本申请实施例提供图像处理方法，所述方法包括：

27、获取待处理的目标图像；

28、通过图像识别模型对所述目标图像进行处理，得到目标描述信息，所述图像识别模型为根据第一方面任一项所述的方法训练得到的，目标描述信息中包括所述目标图像中的对象计数。

29、第三方面，本申请实施例提供一种图像识别模型训练装置，应用于控制设备，所述装置包括：

30、获取模块，用于获取多个样本数据，所述样本数据包括第一样本数据和第二样本数据，第一样本数据包括第一样本图像和描述文本，第二样本数据包括第二样本图像和计数文本；

31、确定模块，用于确定每个样本数据的图像特征和文本特征，所述图像特征包括所述第一样本图像对应的第一图像特征、以及所述第二样本图像对应的第二图像特征，所述文本特征包括所述描述文本对应的描述文本特征、以及所述计数文本对应的计数文本特征；

32、训练模块，用于根据每个样本数据的图像特征和文本特征，对预设模型进行训练处理得到图像识别模型，所述图像识别模型用于确定目标图像的目标描述信息，所述目标描述信息中包括所述目标图像中的对象计数。

33、在一种可能的实施方式中，所述计数文本包括第一计数文本和第二计数文本，所述第一计数文本包括所述第二样本图像中正确的对象数量，所述第二计数文本包括所述第二样本图像中错误的对象数量，所述计数文本特征包括所述第一计数文本对应的第一计数文本特征、以及所述第二计数文本对应的第二计数文本特征；训练模块具体用于：

34、根据所述第一图像特征、所述第二图像特征、所述描述文本特征和所述第一计数文本特征，确定目标描述损失；

35、根据所述第二图像特征、所述第一计数文本特征和所述第二计数文本特征，确定目标计数损失；

36、根据所述目标描述损失和所述目标计数损失，更新所述预设模型的模型参数，直至得到所述图像识别模型。

37、在一种可能的实施方式中，训练模块具体用于：

38、确定所述第一图像特征和所述描述文本特征之间的第一描述损失；

39、确定所述第二图像特征和所述第一计数文本特征之间的第二描述损失；

40、将所述第一描述损失和所述第二描述损失之和，确定为所述目标描述损失。

41、在一种可能的实施方式中，训练模块具体用于：

42、确定所述第二图像特征和所述第一计数文本特征之间的第一计数损失；

43、确定所述第二图像特征和所述第二计数文本特征之本文档来自技高网...

【技术保护点】

1.一种图像识别模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述计数文本包括第一计数文本和第二计数文本，所述第一计数文本包括所述第二样本图像中正确的对象数量，所述第二计数文本包括所述第二样本图像中错误的对象数量，所述计数文本特征包括所述第一计数文本对应的第一计数文本特征、以及所述第二计数文本对应的第二计数文本特征；所述根据所述多个样本数据的图像特征和文本特征，对预设模型进行训练处理得到图像识别模型，包括：

3.根据权利要求2所述的方法，其特征在于，根据所述第一图像特征、所述第二图像特征、所述描述文本特征和所述第一计数文本特征，确定目标描述损失，包括：

4.根据权利要求2或3所述的方法，其特征在于，根据所述第二图像特征、所述第一计数文本特征和所述第二计数文本特征，确定目标计数损失，包括：

5.根据权利要求3或4所述的方法，其特征在于，根据所述目标描述损失和所述目标计数损失，更新所述预设模型的模型参数，直至得到所述图像识别模型，包括：

6.根据权利要求2-5任一项所述的方法，其特征在于

7.一种图像处理方法，其特征在于，包括：

8.一种图像识别模型训练装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：存储器、处理器和收发器；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当所述计算机执行指令被处理器执行时用于实现如权利要求1-6中任一项或者如权利要求7所述的方法。

...

【技术特征摘要】

1.一种图像识别模型训练方法，其特征在于，所述方法包括：

4.根据权利要求2或3所述的方法，其特征在于，根据所述第二图像特征、所述第一计数文本特征和所述第二计数文本...

【专利技术属性】
技术研发人员：周叶江，康操，庄光庭，
申请(专利权)人：阿维塔新能源汽车科技上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人