一种零样本学习模型优化方法、装置、设备及存储介质制造方法及图纸

技术编号：40971492 阅读：3 留言：0更新日期：2024-04-18 21:21

本申请公开了一种零样本学习模型优化方法、装置、设备及存储介质，该方法包括：获取视觉编码器从样本图像中学习到的视觉特征；获取文本数据，将文本数据输入到文本编码器中，获取文本编码器从文本数据中学习到的语义属性特征；通过多模态交互模块使用视觉特征查询语义属性特征，得到第一交互结果，使用语义属性特征查询视觉特征，得到第二交互结果，根据第一交互结果和第二交互结果，将视觉特征和语义属性特征对齐；在零样本学习模型执行优化任务时，采用预设的综合损失函数生成模型，生成优化任务的综合损失函数；基于优化任务的综合损失函数优化零样本学习模型，得到优化后的零样本学习模型。本申请有利于提高零样本学习模型的优化效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及互联网，尤其涉及一种零样本学习模型优化方法、装置、设备及存储介质。

技术介绍

1、零样本学习成为一种引人注目的方法，其核心理念是通过有限的标注数据对已知类别进行学习，然后将这些学到的知识迁移到未知类别并进行识别。零样本学习的模型简称为零样本学习模型。

2、然而，现有的服务端设备无法根据综合损失函数优化零样本学习模型，不利于提高零样本学习模型的优化效率。其原因在于，现有的服务端设备只能采用单方面的损失函数优化零样本学习模型，而零样本学习模型的损失来自多方面，因此，当采用单方面的损失函数优化零样本学习模型时，优化的时间会很长，且优化的效果会不理想，因此，会耗费大量的时间资源和设备资源，因此，现有的服务端设备无法根据综合损失函数优化零样本学习模型，不利于提高零样本学习模型的优化效率。

技术实现思路

1、本申请实施例提供一种零样本学习模型优化方法、装置、设备及存储介质，以解决上述现有的服务端设备无法根据综合损失函数优化零样本学习模型，不利于提高零样本学习模型的优化效率的技术问题。

2、第一方面，本申请实施例提供了一种零样本学习模型优化方法，应用于服务端设备，所述服务端设备存储有零样本学习模型，所述零样本学习模型包括视觉编码器、文本编码器和多模态交互模块，所述零样本学习模型优化方法包括：

3、获取样本图像，将所述样本图像输入到所述视觉编码器中，获取所述视觉编码器从所述样本图像中学习到的视觉特征；

4、获取文本数据，将所述文本数据输入到

5、通过所述多模态交互模块使用所述视觉特征查询所述语义属性特征，得到第一交互结果，使用语义属性特征查询所述视觉特征，得到第二交互结果，根据所述第一交互结果和所述第二交互结果，将所述视觉特征和所述语义属性特征对齐；

6、获取优化任务，在所述零样本学习模型执行优化任务时，采用预设的综合损失函数生成模型，生成所述优化任务的综合损失函数；

7、基于所述优化任务的综合损失函数优化所述零样本学习模型，得到优化后的所述零样本学习模型。

8、示例性地，所述综合损失函数生成模型，包括：

9、l＝lcls+λ1ldeb+λ2lregt；

10、其中，l为综合损失函数，λ1和λ2为预设的常量，lcls为交叉熵损失，ldeb为去偏损失，lregt为各个所述多模态交互模块计算的属性回归损失的总和。

11、示例性地，所述通过所述多模态交互模块使用所述视觉特征查询所述语义属性特征，得到第一交互结果，使用语义属性特征查询所述视觉特征，得到第二交互结果，根据所述第一交互结果和所述第二交互结果，将所述视觉特征和所述语义属性特征对齐，包括：

12、通过所述多模态交互模块与所述视觉编码器建立第一交互通道，通过所述第一交互通道获取所述视觉编码器所述视觉特征，使用所述视觉特征查询所述语义属性特征，得到第一交互结果；

13、通过所述多模态交互模块将所述第一交互结果输入至所述视觉编码器，以使所述视觉编码器基于所述第一交互结果获取所述语义属性特征对应的第一语义信息；

14、通过所述多模态交互模块与所述文本编码器建立第二交互通道，通过所述第二交互通道获取所述文本编码器所述视觉特征，通过所述多模态交互模块使用所述视觉特征查询所述语义属性特征，得到第二交互结果；

15、通过所述多模态交互模块将所述第二交互结果输入至所述文本编码器，以使所述文本编码器基于所述第二交互结果获取所述视觉特征对应的第二语义信息。

16、示例性地，所述视觉编码器包括vit模型、deit模型、swin transformer模型中的其中一种或其组合，所述文本编码器包括glove模型、word2vec模型、bert模型中的其中一种或其组合。

17、在第一方面的一种可能的实现方式中，所述视觉编码器的第n个网络层和第n个网络层的下一个网络层之间存在一个所述多模态交互模块；

18、所述获取优化任务，在所述零样本学习模型执行优化任务时，采用预设的综合损失函数生成模型，生成所述优化任务的综合损失函数，包括：

19、获取所述优化任务，将所述优化任务的数据集输入所述视觉编码器的第n个网络层；

20、利用所述第n个网络层对应的所述多模态交互模块对所述第n个网络层输出的第n个数据特征进行矩阵处理，将所述矩阵处理后的第n个数据特征输出到第n个网络层的下一个网络层，判断所述下一个网络层是否为最后一个网络层；

21、如果所述下一个网络层为最后一个网络层，就采用预设的综合损失函数生成模型，生成所述优化任务的综合损失函数。

22、在第一方面的一种可能的实现方式中，在所述获取样本图像，将所述样本图像输入到所述视觉编码器中，获取所述视觉编码器从所述样本图像中学习到的视觉特征之前，所述零样本学习模型优化方法，包括：

23、读入视觉编码器，获取视觉编码器的网络架构；

24、在所述网络架构中移除指定的所述网络层，获取移除指定的所述网络层的所述视觉编码器。

25、在第一方面的一种可能的实现方式中，在所述获取样本图像，将所述样本图像输入到所述视觉编码器中，获取所述视觉编码器从所述样本图像中学习到的视觉特征之前，所述零样本学习模型优化方法，包括：

26、获取预设的训练方式，采用所述训练方式对所述视觉编码器进行训练，获取训练后的所述视觉编码器。

27、在第一方面的一种可能的实现方式中，在所述获取样本图像，将所述样本图像输入到所述视觉编码器中，获取所述视觉编码器从所述样本图像中学习到的视觉特征之前，所述零样本学习模型优化方法，包括：

28、采用预设的优化器更新所述视觉编码器的权重参数。

29、在第一方面的一种可能的实现方式中，在所述基于所述优化任务的综合损失函数优化所述零样本学习模型，得到优化后的所述零样本学习模型之后，所述方法还包括：

30、提供所述零样本学习模型的调用接口。

31、在第一方面的一种可能的实现方式中，所述多模态交互模块由两个transformer模型的编码器组成。

32、第二方面，本申请实施例提供了一种零样本学习模型优化装置，应用于服务端设备，所述服务端设备存储有零样本学习模型，所述零样本学习模型包括视觉编码器、文本编码器和多模态交互模块，包括：

33、第一获取模块，用于获取样本图像，将所述样本图像输入到所述视觉编码器中，获取所述视觉编码器从所述样本图像中学习到的视觉特征；

34、第二获取模块，用于获取文本数据，将所述文本数据输入到所述文本编码器中，获取所述文本编码器从所述文本数据中学习到的语义属性特征；

35、交互模块，用于通过所述多模态交互模块使用所述视觉特征查询所述语义属性特征，得到第一交互结果，使用语本文档来自技高网...

【技术保护点】

1.一种零样本学习模型优化方法，其特征在于，应用于服务端设备，所述服务端设备存储有零样本学习模型，所述零样本学习模型包括视觉编码器、文本编码器和多模态交互模块，所述零样本学习模型优化方法包括：

2.根据权利要求1所述的零样本学习模型优化方法，其特征在于，所述视觉编码器的第N个网络层和第N个网络层的下一个网络层之间存在一个所述多模态交互模块；

3.根据权利要求1所述的零样本学习模型优化方法，其特征在于，在所述获取样本图像，将所述样本图像输入到所述视觉编码器中，获取所述视觉编码器从所述样本图像中学习到的视觉特征之前，所述零样本学习模型优化方法，包括：

4.根据权利要求1所述的零样本学习模型优化方法，其特征在于，在所述获取样本图像，将所述样本图像输入到所述视觉编码器中，获取所述视觉编码器从所述样本图像中学习到的视觉特征之前，所述零样本学习模型优化方法，包括：

5.根据权利要求1所述的零样本学习模型优化方法，其特征在于，在所述获取样本图像，将所述样本图像输入到所述视觉编码器中，获取所述视觉编码器从所述样本图像中学习到的视觉特征之前，所述零样本学习模型优化方法，包括：

6.根据权利要求1所述的零样本学习模型优化方法，其特征在于，在所述基于所述优化任务的综合损失函数优化所述零样本学习模型，得到优化后的所述零样本学习模型之后，所述方法还包括：

7.根据权利要求1所述的零样本学习模型优化方法，其特征在于，所述多模态交互模块由两个Transformer模型的编码器组成。

8.一种零样本学习模型优化装置，其特征在于，应用于服务端设备，所述服务端设备存储有零样本学习模型，所述零样本学习模型包括视觉编码器、文本编码器和多模态交互模块，包括：

9.一种服务端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的零样本学习模型优化方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的零样本学习模型优化方法。

...

【技术特征摘要】

2.根据权利要求1所述的零样本学习模型优化方法，其特征在于，所述视觉编码器的第n个网络层和第n个网络层的下一个网络层之间存在一个所述多模态交互模块；

5.根据权利要求1所述的零样本学习模型优化方法，其特征在于，在所述获取样本图像，将所述样本图像输入到所述视觉编码器中，获取所述视觉编码器从所述样...

【专利技术属性】
技术研发人员：曹伟朋，姚旭洋，明仲，许智武，顾炯炯，郑亮，曹雏清，
申请(专利权)人：人工智能与数字经济广东省实验室深圳，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人