System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 图像分类方法、模型的训练方法、装置、设备及介质制造方法及图纸_技高网

图像分类方法、模型的训练方法、装置、设备及介质制造方法及图纸

技术编号:39962250 阅读:6 留言:0更新日期:2024-01-09 00:08
本公开提供了图像分类方法、深度学习模型的训练方法、装置、电子设备、存储介质以及程序产品,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于图像处理等场景。具体实现方案为:对待处理图像进行特征提取,得到图像特征;对图像特征进行聚类,得到图像聚类标记特征;基于图像聚类标记特征和任务提示标记特征,得到文本提示特征,任务提示标记特征用于表征与图像分类任务相关的知识;以及基于文本提示特征和待处理图像,得到待处理图像的图像分类结果。

【技术实现步骤摘要】

本公开涉及人工智能,尤其涉及计算机视觉、深度学习、大模型等,可应用于图像处理等场景。具体涉及图像分类方法、深度学习模型的训练方法、装置、电子设备、存储介质以及程序产品。


技术介绍

1、随着图像数据量爆炸式增长,海量的数据源以及丰富的数据层次,使得依靠人工来分析和处理这些图像变得越来越困难。计算机视觉技术为解放人力提供巨大潜力。计算机视觉是一门研究如何使用电子设备“看”的科学,即,利用摄影机和电脑代替人眼对图像中的目标对象进行分类、搜索等的科学技术。实现人与机器之间的视觉问答、视觉对话等的智能交互。


技术实现思路

1、本公开提供了一种图像分类方法、深度学习模型的训练方法、装置、电子设备、存储介质以及程序产品。

2、根据本公开的一方面,提供了一种图像分类方法,包括:对待处理图像进行特征提取,得到图像特征;对上述图像特征进行聚类,得到图像聚类标记特征;基于上述图像聚类标记特征和任务提示标记特征,得到文本提示特征,其中,上述任务提示标记特征用于表征与图像分类任务相关的知识;以及基于上述文本提示特征和上述待处理图像,得到上述待处理图像的图像分类结果。

3、根据本公开的另一方面,提供了一种深度学习模型的训练方法,其中,上述深度学习模型包括任务提示模块,上述任务提示模块包括可调参数,上述方法包括:对样本图像进行特征提取,得到样本图像特征;对上述样本图像特征进行聚类,得到样本图像聚类标记特征;基于上述任务提示模块,得到样本任务提示标记特征;基于上述样本图像聚类标记特征和上述样本任务提示标记特征,得到样本文本提示特征;以及基于上述样本文本提示特征、上述样本图像特征和标签,调整上述任务提示模块中的上述可调参数,得到经训练的深度学习模型,其中,上述标签用于表征样本图像的真实图像分类结果。

4、根据本公开的另一方面,提供了一种图像分类装置,包括:特征提取模块,用于对待处理图像进行特征提取,得到图像特征;聚类模块,用于对上述图像特征进行聚类,得到图像聚类标记特征;文本提示生成模块,用于基于上述图像聚类标记特征和任务提示标记特征,得到文本提示特征,其中,上述任务提示标记特征用于表征与图像分类任务相关的知识;以及分类模块,用于基于上述文本提示特征和上述待处理图像,得到上述待处理图像的图像分类结果。

5、根据本公开的另一方面,提供了一种深度学习模型的训练装置,其中,上述深度学习模型包括任务提示模块,上述任务提示模块包括可调参数,上述装置包括:样本特征提取模块,用于对样本图像进行特征提取,得到样本图像特征;样本聚类模块,用于对上述样本图像特征进行聚类,得到样本图像聚类标记特征;样本任务提示生成模块,用于基于上述任务提示模块,得到样本任务提示标记特征;样本文本提示生成模块,用于基于上述样本图像聚类标记特征和上述样本任务提示标记特征,得到样本文本提示特征;以及调参模块,用于基于上述样本文本提示特征、上述样本图像特征和标签,调整上述任务提示模块中的上述可调参数,得到经训练的深度学习模型,其中,上述标签用于表征样本图像的真实图像分类结果。

6、根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器;其中,上述存储器存储有可被上述至少一个处理器执行的指令,上述指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行如本公开的方法。

7、根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,上述计算机指令用于使上述计算机执行如本公开的方法。

8、根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序在被处理器执行时实现如本公开的方法。

9、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种图像分类方法,包括:

2.根据权利要求1所述的方法,其中,所述对所述图像特征进行聚类,得到图像聚类标记特征,包括:

3.根据权利要求2所述的方法,其中,所述对所述多个子图像特征进行聚类,得到多个聚类簇,包括:

4.根据权利要求2或3所述的方法,其中,所述基于所述多个聚类簇,得到所述图像聚类标记特征,包括:

5.根据权利要求1至4中任一项所述的方法,其中,所述基于所述文本提示特征和所述待处理图像,得到所述待处理图像的图像分类结果,包括:

6.根据权利要求5所述的方法,其中,所述基于所述文本提示特征和所述图像特征,得到文本重组的视觉提示特征,包括:

7.根据权利要求6所述的方法,其中,所述基于所述注意力权重矩阵、所述文本提示特征和所述图像特征,得到所述文本重组的视觉提示特征,包括:

8.根据权利要求5至7中任一项所述的方法,其中,所述基于所述文本重组的视觉提示特征和所述待处理图像,得到所述图像分类结果,包括:

9.根据权利要求8所述的方法,其中,所述对所述待处理图像进行切分,得到多个图像块,包括:

10.根据权利要求1至9中任一项所述的方法,其中,所述基于所述图像聚类标记特征和任务提示标记特征,得到文本提示特征,包括:

11.根据权利要求1至10中任一项所述的方法,其中,所述对待处理图像进行特征提取,得到图像特征,包括:

12.一种深度学习模型的训练方法,其中,所述深度学习模型包括任务提示模块,所述任务提示模块包括可调参数,所述方法包括:

13.根据权利要求12所述的方法,其中,所述基于所述样本文本提示特征、所述样本图像特征和标签,调整所述任务提示模块中的所述可调参数,得到经训练的深度学习模型,包括:

14.根据权利要求12或13所述的方法,还包括:

15.根据权利要求13所述的方法,其中,所述基于所述样本文本提示特征和所述样本图像特征,得到所述交叉损失值,包括:

16.根据权利要求13-15中任一项所述的方法,其中,所述基于所述样本文本提示特征和所述样本图像特征,得到所述交叉损失值,包括:

17.一种图像分类装置,包括:

18.根据权利要求17所述的装置,其中,所述聚类模块包括:

19.根据权利要求18所述的装置,其中,所述聚类子模块包括:

20.根据权利要求18或19所述的装置,其中,所述聚类标记生成子模块包括:

21.根据权利要求17至20中任一项所述的装置,其中,所述分类模块包括:

22.根据权利要求21所述的装置,其中,所述重组子模块包括:

23.根据权利要求22所述的装置,其中,所述重组单元包括:

24.根据权利要求21至23中任一项所述的装置,其中,所述分类子模块包括:

25.根据权利要求24所述的装置,其中,所述切分单元包括:

26.根据权利要求17至25中任一项所述的装置,其中,所述文本提示生成模块包括:

27.根据权利要求17至28中任一项所述的装置,其中,所述特征提取模块包括:

28.一种深度学习模型的训练装置,其中,所述深度学习模型包括任务提示模块,所述任务提示模块包括可调参数,所述装置包括:

29.根据权利要求28所述的装置,其中,所述调参模块包括:

30.根据权利要求27或29所述的装置,还包括:

31.根据权利要求29所述的装置,其中,所述损失值生成子模块包括:

32.根据权利要求29-31中任一项所述的装置,其中,所述损失值生成子模块包括:

33.一种电子设备,包括:

34.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至16中任一项所述的方法。

35.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1至16中任一项所述的方法。

...

【技术特征摘要】

1.一种图像分类方法,包括:

2.根据权利要求1所述的方法,其中,所述对所述图像特征进行聚类,得到图像聚类标记特征,包括:

3.根据权利要求2所述的方法,其中,所述对所述多个子图像特征进行聚类,得到多个聚类簇,包括:

4.根据权利要求2或3所述的方法,其中,所述基于所述多个聚类簇,得到所述图像聚类标记特征,包括:

5.根据权利要求1至4中任一项所述的方法,其中,所述基于所述文本提示特征和所述待处理图像,得到所述待处理图像的图像分类结果,包括:

6.根据权利要求5所述的方法,其中,所述基于所述文本提示特征和所述图像特征,得到文本重组的视觉提示特征,包括:

7.根据权利要求6所述的方法,其中,所述基于所述注意力权重矩阵、所述文本提示特征和所述图像特征,得到所述文本重组的视觉提示特征,包括:

8.根据权利要求5至7中任一项所述的方法,其中,所述基于所述文本重组的视觉提示特征和所述待处理图像,得到所述图像分类结果,包括:

9.根据权利要求8所述的方法,其中,所述对所述待处理图像进行切分,得到多个图像块,包括:

10.根据权利要求1至9中任一项所述的方法,其中,所述基于所述图像聚类标记特征和任务提示标记特征,得到文本提示特征,包括:

11.根据权利要求1至10中任一项所述的方法,其中,所述对待处理图像进行特征提取,得到图像特征,包括:

12.一种深度学习模型的训练方法,其中,所述深度学习模型包括任务提示模块,所述任务提示模块包括可调参数,所述方法包括:

13.根据权利要求12所述的方法,其中,所述基于所述样本文本提示特征、所述样本图像特征和标签,调整所述任务提示模块中的所述可调参数,得到经训练的深度学习模型,包括:

14.根据权利要求12或13所述的方法,还包括:

15.根据权利要求13所述的方法,其中,所述基于所述样本文本提示特征和所述样本图像特征,得到所述交叉损失值,包...

【专利技术属性】
技术研发人员:龙思凡谭资昌王井东
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1