一种基于跨模态密集注意力的视觉语言对象分类方法技术

技术编号:35751739 阅读:18 留言:0更新日期:2022-11-26 18:57
本发明专利技术公开了一种基于跨模态密集注意力的视觉语言对象分类方法,该方法包括:获取包含至少一个待分类对象的待处理图像和待处理文本信息,其中,待处理图像与所述待处理文本信息相匹配;将待处理图像以及待处理文本信息输入至预先训练完成的目标对象分类模型中,得到各待分类对象的所属类别;其中,目标对象分类模型中包括两个编码器、序列注意力模块、跨模态注意力模块和分类模块。本发明专利技术实施例的技术方案,实现了对待处理图像中所包含的待分类对象进行准确分类的效果,通过采用序列注意力模块,缓解了不同模态数据之间的语义鸿沟问题,进一步提高了多模态分类任务的精度,并且达到了提升模型的鲁棒性的效果。达到了提升模型的鲁棒性的效果。达到了提升模型的鲁棒性的效果。

【技术实现步骤摘要】
一种基于跨模态密集注意力的视觉语言对象分类方法


[0001]本专利技术涉及图像处理
,尤其涉及一种基于跨模态密集注意力的视觉语言对象分类方法。

技术介绍

[0002]目前,利用人工智能技术对图像进行目标分类的相关研究已经展开,通过这种方式,满足了用户对目标对象的分类需求。
[0003]在实际利用相关模型进行目标对象分类时,现有的目标对象分类方法仅基于对象的单一模态数据进行分类,例如包含对象的图像、文本或者语音等,这种分类方法的缺点在于:无法充分利用目标对象在各个模态的数据,并且无法建立不同模态数据之间的联系,从而导致分类准确率低,分类速度慢。

技术实现思路

[0004]本专利技术提供了一种基于跨模态密集注意力的视觉语言对象分类方法,以实现提升多模态细粒度分类精度的效果。
[0005]根据本专利技术的一方面,提供了一种基于跨模态密集注意力的视觉语言对象分类方法,该方法包括:
[0006]获取包含至少一个待分类对象的待处理图像和待处理文本信息,其中,所述待处理图像与所述待处理文本信息相匹配;
[0007]将所述待处理图像以及所述待处理文本信息输入至预先训练完成的目标对象分类模型中,得到各所述待分类对象的所属类别;
[0008]其中,所述目标对象分类模型中包括两个编码器、序列注意力模块、跨模态注意力模块和分类模块。
[0009]本专利技术实施例的技术方案,通过获取包含至少一个待分类对象的待处理图像和待处理文本信息,将待处理图像以及待处理文本信息输入至预先训练完成的目标对象分类模型中,得到各待分类对象的所属类别,解决了现有技术中基于对象的单一模态数据进行分类,无法充分利用对象在各个模态的数据,并且无法建立不同模态数据之间的联系,从而导致分类准确率低,且分类速度慢的问题,实现了可以对待处理图像中所包含的待分类对象进行准确分类的效果,通过采用序列注意力模块,缓解了不同模态数据之间的语义鸿沟问题,进一步提高了多模态分类任务的精度,并且达到了提升模型的鲁棒性的效果。
[0010]应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0011]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于
本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0012]图1是根据本专利技术实施例一提供的一种基于跨模态密集注意力的视觉语言对象分类方法的流程图;
[0013]图2是根据本专利技术实施例一提供的待处理图像的示意图;
[0014]图3是根据本专利技术实施例一提供的一种基于跨模态密集注意力的视觉语言对象分类方法的流程图;
[0015]图4是根据本专利技术实施例二提供的一种基于跨模态密集注意力的视觉语言对象分类方法的流程图;
[0016]图5是根据本专利技术实施例二提供的一种基于跨模态密集注意力的视觉语言对象分类方法的流程图;
[0017]图6是根据本专利技术实施例三提供的一种基于跨模态密集注意力的视觉语言对象分类方法的流程图;
[0018]图7是根据本专利技术实施例三提供的一种待训练对象分类模型训练方法的流程图。
具体实施方式
[0019]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0020]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0021]实施例一
[0022]图1是本专利技术实施例一提供的一种基于跨模态密集注意力的视觉语言对象分类方法的流程图,本实施例可适用于对待处理图像以及待处理文本信息中所包含的待分类对象进行分类的情况,该方法可以由基于跨模态密集注意力的视觉语言对象分类装置来执行,该基于跨模态密集注意力的视觉语言对象分类装置可以采用硬件和/或软件的形式实现,该基于跨模态密集注意力的视觉语言对象分类装置可配置于终端和/或服务器中。如图1所示,该方法包括:
[0023]S110、获取包含至少一个待分类对象的待处理图像和待处理文本信息。
[0024]在本实施例中,待处理图像可以是服务端或客户端接收到的、由用户通过摄像装置实时拍摄到的图像,也可以是服务端或客户端从相关数据库中调取的已存储的图像,同时,在图像中可以包括一个或多个对象,可以理解,图像中的对象即为待分类对象。当然,在
实际应用中,待分类对象可以是任意物体,也可以是动物或者人物等,同时,待处理图像中待分类对象的个数可以是一个或多个,本实施例对此不作具体限定。待处理文本信息可以为对待分类对象的文本描述信息。其中,待处理图像与待处理文本信息相匹配,即,包含相同待分类对象的待处理图像以及待处理文本信息可以是成对获取的。示例性的,如图2所示,当待处理图像为图2所示的图像时,其对应的待处理文本信息可以为“Banana Bread Pancakes with Cinnamon Cream Cheese Syrup Cooking Classy”。
[0025]需要说明的是,在具体的应用场景中,可以实时或者周期性地获取待处理图像以及待处理文本信息,或者,当检测到用户上传图像或者文本信息时,即可获取该图像以及文本信息,并将该图像作为待处理图像,将该文本信息作为待处理文本信息,本实施例对此不作具体限定。
[0026]还需说明的是,待处理图像以及待处理文本信息的数量可以为一组或多组,即,本专利技术实施例所提供的技术方案可以对一组待处理图像以及待处理文本信息进行处理,也可以同时对多组待处理图像以及待处理文本信息进行处理,本实施例对此不作具体限定。
[0027]在实际应用中,当待分类对象的数量为多个时,可以将待处理图像中所有对象均作为待分类对象,并基于该待处理图像确定相应的待处理文本信息;当待分类对象的数量为一个时,可以预先对图像中的待分类对象进行标定,并将标定后的图像上传至服务端,以使服务端对待分类对象的特征属性进行存储,在获取多幅待处理图像之后,当检测到这些图像中至少一幅图像中包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于跨模态密集注意力的视觉语言对象分类方法,其特征在于,包括:获取包含至少一个待分类对象的待处理图像和待处理文本信息,其中,所述待处理图像与所述待处理文本信息相匹配;将所述待处理图像以及所述待处理文本信息输入至预先训练完成的目标对象分类模型中,得到各所述待分类对象的所属类别;其中,所述目标对象分类模型中包括两个编码器、序列注意力模块、跨模态注意力模块和分类模块。2.根据权利要求1所述的方法,其特征在于,所述将所述待处理图像以及所述待处理文本信息输入至预先训练完成的目标对象分类模型中,得到各所述待分类对象的所属类别,包括:基于两个编码器分别对所述待处理图像和所述待处理文本信息进行处理,得到待处理图像特征和待处理文本特征;分别对所述待处理图像特征和所述待处理文本特征进行跨模态对齐处理,得到待应用图像特征和待应用文本特征;基于所述序列注意力模块对所述待应用图像特征和所述待应用文本特征进行处理,得到待使用图像特征和待使用文本特征;基于所述跨模态注意力模块对所述待使用图像特征和所述待使用文本特征进行融合处理,得到待分类融合特征;基于所述分类模块对所述待分类融合特征进行处理,得到各所述待分类对象的所属类别。3.根据权利要求2所述的方法,其特征在于,所述两个编码器包括图像编码器和文本编码器,所述基于两个编码器分别对所述待处理图像和所述待处理文本信息进行处理,得到待处理图像特征和待处理文本特征,包括:基于所述图像编码器提取所述待处理图像的图像特征,得到所述待处理图像特征;以及,基于所述文本编码器提取所述待处理文本信息的文本特征,得到所述待处理文本特征。4.根据权利要求2所述的方法,其特征在于,所述基于所述序列注意力模块对所述待应用图像特征和所述待应用文本特征进行处理,得到待使用图像特征和待使用文本特征,包括:将所述待应用图像特征和所述待应用文本特征进行拼接处理,得到待处理...

【专利技术属性】
技术研发人员:朱大勇解修蕊罗光春许毅廖文峰胡文斌
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1