类别描述的特征信息的获取方法、图像的处理方法及设备技术

技术编号:34798361 阅读:14 留言:0更新日期:2022-09-03 20:04
本申请实施例公开一种类别描述的特征信息的获取方法、图像的处理方法及设备,该方法可用于人工智能领域的图像处理领域中,方法包括:获取与C个类别中每个第一类别对应的至少两个类别描述的特征信息;根据每个第一类别对应的至少两个类别描述的特征信息和图像的特征信息,生成图像的预测类别信息,图像的预测类别包括于C个类别;根据第一损失函数,对与每个第一类别对应的至少两个类别描述的特征信息进行更新。自动学习每个类别所对应的至少两个类别描述的特征信息,且迭代更新的目标包括提高预测类别信息和正确类别信息之间的相似度,有利于获得与识别任务更为匹配的类别描述,有利于提高与同一类别中的不同图像的适配度。度。度。

【技术实现步骤摘要】
类别描述的特征信息的获取方法、图像的处理方法及设备


[0001]本申请涉及人工智能领域,尤其涉及一种类别描述的特征信息的获取方法、图像的处理方法及设备。

技术介绍

[0002]视觉语言模型(vision

language model)的最新进展指出,同一类别的图像的特征和语言描述的特征相似,因此,若需要从C个类别中确定图像中物体的类别,可以获取与C个类别中每个类别对应的类别描述,由于同一类别的文本形式的类别描述的特征和图像的特征类似,则可以借助每个类别的类别描述的特征来辅助对图像中物体的识别。
[0003]目前采用的方式是人工设计每种类别的类别描述模板,将人工设计的类别描述模板分别和类别名称组合得到类别描述。作为示例,例如人工设计的类别描述模板为“这是一只XXX”,类别名称为“猫咪”,则类别描述为“这是一只猫咪”。
[0004]但由于人工设计的类别描述模板会引入人为偏见,因此人工设计的类别描述模板对该图像识别任务来说不一定是最优的,且为了能够得到合适的类别描述模板,需要人工重复且耗时的对多个类别描述模板进行尝试。

技术实现思路

[0005]本申请实施例提供了一种类别描述的特征信息的获取方法、图像的处理方法以及相关设备,自动学习每个类别所对应的至少两个类别描述的特征信息,且迭代更新的目标包括提高图像识别任务的准确率,有利于获得与识别任务更为匹配的类别描述;还有利于提高与同一类别中的不同图像的适配度,以进一步提高图像识别过程的准确性。
[0006]为解决上述技术问题,本申请实施例提供以下技术方案:
[0007]第一方面,本申请实施例提供一种类别描述的特征信息的获取方法,可用于人工智能领域中图像处理领域中,方法包括:第一网络设备获取与C个类别中每个第一类别对应的K个类别描述的特征信息,C和K均为大于或等于2的整数,第一类别的类别描述包括类别描述模板和第一类别;作为示例,例如C个类别为C个不同品种的猫咪,K的取值为3,则3个不同的类别描述模板可以分别为“这是一只XX”、“这是一只猫咪,具体的品种是XX”和“这是一只品种为XX的猫咪”,第一类别的类别名称为“美短”,则与第一类别对应的3种不同的类别描述分别为“这是一只美短”、“这是一只猫咪,具体的品种是美短”和“这是一只品种为美短的猫咪”。
[0008]第一网络设备根据每个第一类别对应的K个类别描述的特征信息和图像的特征信息,生成图像的预测类别信息,预测类别信息指向的图像的预测类别包括于C个类别;具体的,第一网络设备获取训练图像的特征与目标特征信息集合中的C个类别中每个类别所对应的高层特征之间的相似度,根据第一损失函数,对与每个第一类别对应的K个类别描述的特征信息进行更新,直至满足收敛条件,利用第一损失函数进行迭代更新的目标包括提高预测类别信息和图像的正确类别信息之间的相似度。
[0009]本实现方式中,获取与C个类别中每个第一类别对应的K个类别描述的特征信息,根据每个第一类别对应的K个类别描述的特征信息和图像的特征信息,生成图像的预测类别信息,根据图像的正确类别信息、预测类别信息和第一损失函数,对K个类别描述的特征信息进行自动更新,直至满足收敛条件,利用第一损失函数进行迭代更新的目标包括提高预测类别信息和图像的正确类别信息之间的相似度;通过前述方案,能够自动学习每个类别所对应的K个类别描述的特征信息,且迭代更新的目标包括提高图像识别任务的准确率,有利于获得与识别任务更为匹配的类别描述;由于同一类别的物体在不同的图像中存在各种变化,导致与同一类别的不同图像所对应的最适配的类别描述可能不同,本方案中获取每种类别对应的K个类别描述,有利于提高与同一类别中的不同图像的适配度,以进一步提高图像识别过程的准确性。
[0010]在第一方面的一种可能实现方式中,与第一类别对应的K个类别描述的特征信息包括第一特征信息和第二特征信息,第一类别的特征信息在第一特征信息中的位置和第一类别的特征信息在第二特征信息中的位置不同。
[0011]本实现方式中,由于姿势、形变和光照条件等因素的影响,同一类别的图像中不同的图像存在多样性,而则同一类别中不同的图像所适配的类别描述的特征信息可以不同,本方案中第一类别的特征信息在第一特征信息中的位置和第一类别的特征信息在第二特征信息中的位置不同,有利于提高最终得到的至少两种类别描述的特征信息的多样性,以提高与同一类别中不同的图像的适配度,进而有利于提高图像识别结果的准确度。
[0012]在第一方面的一种可能实现方式中,K个类别描述的特征信息包括K个类别描述的高层特征,类别描述的高层特征为第一神经网络中的隐含层/第一神经网络生成的特征,第一神经网络用于对类别描述进行特征更新。
[0013]第一网络设备根据每个第一类别对应的K个类别描述的特征信息和图像的特征信息,生成图像的预测类别信息,包括:第一网络设备可以根据与第一类别对应的K个类别描述的高层特征,采用目标模型对第一类别所对应的类别描述的高层特征进行建模,以确定与第一类别对应的类别描述的高层特征的分布信息,目标模型可以采用高斯分布模型、混合高斯分布模型、冯米塞斯(von Mises)分布模型或其他类型的模型等。
[0014]第一网络设备根据每个第一类别所对应的类别描述的高层特征的分布信息,执行采样操作,得到特征信息集合,特征信息集合包括与每个第一类别对应的高层特征;示例性的,若采用高斯分布模型对第一类别所对应的类别描述的高层特征进行建模,第一网络设备可以根据与第一类别所对应的K个类别描述的高层特征的均值和方差,执行该采样操作,采样得到的至少一个高层特征服从第一类别所对应的类别描述的高层特征的分布。第一网络设备根据图像的特征信息和特征信息集合,生成图像的预测类别信息。
[0015]本实现方式中,由于技术人员在研究中发现同一类别所对应的多个类别描述的高层特征分布较为集中,因此可以根据每个第一类别所对应的类别描述的高层特征的分布信息,执行采样操作以得到每个第一类别对应的高层特征,并根据采样得到的高层特征和图像的特征信息,生成图像的预测类别信息;由于图像的预测特征用于生成第一损失函数的函数值的,也即基于采样得到的高层特征得到第一损失函数的函数值,迭代更新的目的包括降低第一损失函数的函数值,也即迭代更新的目的包括基于采样的高层特征(也即K个类别描述的高层特征周围的高层特征)也能够得到更加准确的预测类别信息,也即设立了更
高的更新标准,有利于得到更优的类别描述的特征信息,进而有利于提高图像识别的准确率。
[0016]在第一方面的一种可能实现方式中,第一网络设备获取与C个类别中每个第一类别对应的K个类别描述的特征信息,包括:第一网络设备获取与每个第一类别对应的K个类别描述的底层特征,类别描述的底层特征为向量化形式的类别描述;将类别描述的底层特征输入第一神经网络,通过第一神经网络对类别描述的底层特征进行更新,得到类别描述的高层特征。
[0017]第一网络设备对与每个第一类别对应的K个类别描述的特征信息进行更新,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种类别描述的特征信息的获取方法,其特征在于,所述方法包括:获取与C个类别中每个第一类别对应的至少两个类别描述的特征信息,所述C为大于或等于2的整数,所述第一类别的类别描述包括类别描述模板和所述第一类别;根据每个所述第一类别对应的至少两个类别描述的特征信息和图像的特征信息,生成所述图像的预测类别信息,所述预测类别信息指向的所述图像的预测类别包括于所述C个类别;根据第一损失函数,对与每个第一类别对应的所述至少两个类别描述的特征信息进行更新,直至满足收敛条件,利用所述第一损失函数进行迭代更新的目标包括提高所述预测类别信息和所述图像的正确类别信息之间的相似度。2.根据权利要求1所述的方法,其特征在于,与所述第一类别对应的所述至少两个类别描述的特征信息包括第一特征信息和第二特征信息,所述第一类别的特征信息在所述第一特征信息中的位置和所述第一类别的特征信息在所述第二特征信息中的位置不同。3.根据权利要求1或2所述的方法,其特征在于,所述至少两个类别描述的特征信息包括所述至少两个类别描述的高层特征,所述类别描述的高层特征为神经网络中的隐含层/所述神经网络生成的特征,所述神经网络用于对所述类别描述进行特征更新;所述根据每个所述第一类别对应的至少两个类别描述的特征信息和图像的特征信息,生成所述图像的预测类别信息,包括:根据与所述第一类别对应的至少两个类别描述的高层特征,确定与所述第一类别对应的所述类别描述的高层特征的分布信息;根据每个所述第一类别所对应的所述类别描述的高层特征的分布信息,执行采样操作,得到特征信息集合,所述特征信息集合包括与每个所述第一类别对应的所述高层特征;根据图像的特征信息和所述特征信息集合,生成所述图像的预测类别信息。4.根据权利要求3所述的方法,其特征在于,所述获取与C个类别中每个第一类别对应的至少两个类别描述的特征信息,包括:获取与每个所述第一类别对应的至少两个类别描述的底层特征,所述类别描述的底层特征为向量化形式的所述类别描述;将所述类别描述的底层特征输入所述神经网络,通过所述神经网络对所述类别描述的底层特征进行更新,得到所述类别描述的高层特征;所述对与每个第一类别对应的所述至少两个类别描述的特征信息进行更新,包括:在保持所述神经网络的参数不变的前提下,根据所述第一损失函数的函数值对与所述C个类别对应的至少两个所述类别描述模板的底层特征进行梯度更新,以得到与每个第一类别对应的所述至少两个类别描述的更新后的底层特征。5.根据权利要求1或2所述的方法,其特征在于,所述根据第一损失函数,对与每个第一类别对应的所述至少两个类别描述的特征信息进行更新,包括:根据所述第一损失函数和第二损失函数,对与每个第一类别对应的所述至少两个类别描述的特征信息进行更新,采用所述第二损失函数进行迭代更新的目标包括缩小至少两个类别描述模板的特征信息之间的相似度。6.根据权利要求1或2所述的方法,其特征在于,所述第一损失函数的函数值大于或等于目标函数的函数值,所述目标函数为所述预测类别信息和所述图像的正确类别信息之间
的距离,所述迭代更新的目标包括降低所述第一损失函数的函数值。7.一种图像的处理方法,其特征在于,所述方法包括:对图像进行特征提取,得到所述图像的特征信息;根据与C个类别中每个第一类别对应的类别描述的特征信息和图像的特征信息,生成所述图像的预测类别信息,所述预测类别信息指向的所述图像的预测类别包括于所述C个类别,所述C为大于或等于2的整数;其中,所述第一类别的类别描述包括类别描述模板和所述第一类别,与所述C个类别中每个第一类别对应的特征信息基于每个所述第一类别所对应的至少两个类别描述的特征信息得到,每个所述第一类别所对应的至少两个类别描述的特征信息为利用第一损失函数进行迭代更新后得到,利用所述第一损失函数进行迭代更新的目标包括提高所述预测类别信息和所述图像的正确类别信息之间的相似度。8.根据权利要求7所述的方法,其特征在于,与所述第一类别对应的所述至少两个类别描述的特征信息包括第一特征信息和第二特征信息,所述第一类别的特征信息在所述第一特征信息中的位置和所述第一类别的特征信息在所述第二特征信息中的位置不同。9.根据权利要求7或8所述的方法,其特征在于,与所述C个类别对应的所述类别描述的特征信息是利用所述第一损失函数和第二损失函数进行迭代更新后得到,所述第二损失函数指示至少两个所述类别描述模板的特征信息之间的距离。10.一种类别描述的特征信息的获取装置,其特征在于,所述装置包括:获取模块,用于获取与C个类别中每个第一类别对应的至少两个类别描述的特征信息,所述C为大于或等于2的整数,所述第一类别的类别描述包括类别描述模板和所述第一类别;生成模块,用于根据每个所述第一类别对应的至少两个类别描述的特征信息和图像的特征信息,生成所述图像的预测类别信息,所述预测类别信...

【专利技术属性】
技术研发人员:卢禹宁刘健庄田新梅
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1