一种基于跨模态密集注意力的视觉语言对象分类方法技术

技术编号：35751739 阅读：18 留言：0更新日期：2022-11-26 18:57

本发明专利技术公开了一种基于跨模态密集注意力的视觉语言对象分类方法，该方法包括：获取包含至少一个待分类对象的待处理图像和待处理文本信息，其中，待处理图像与所述待处理文本信息相匹配；将待处理图像以及待处理文本信息输入至预先训练完成的目标对象分类模型中，得到各待分类对象的所属类别；其中，目标对象分类模型中包括两个编码器、序列注意力模块、跨模态注意力模块和分类模块。本发明专利技术实施例的技术方案，实现了对待处理图像中所包含的待分类对象进行准确分类的效果，通过采用序列注意力模块，缓解了不同模态数据之间的语义鸿沟问题，进一步提高了多模态分类任务的精度，并且达到了提升模型的鲁棒性的效果。达到了提升模型的鲁棒性的效果。达到了提升模型的鲁棒性的效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于跨模态密集注意力的视觉语言对象分类方法

[0001]本专利技术涉及图像处理
，尤其涉及一种基于跨模态密集注意力的视觉语言对象分类方法。

技术介绍

[0002]目前，利用人工智能技术对图像进行目标分类的相关研究已经展开，通过这种方式，满足了用户对目标对象的分类需求。
[0003]在实际利用相关模型进行目标对象分类时，现有的目标对象分类方法仅基于对象的单一模态数据进行分类，例如包含对象的图像、文本或者语音等，这种分类方法的缺点在于：无法充分利用目标对象在各个模态的数据，并且无法建立不同模态数据之间的联系，从而导致分类准确率低，分类速度慢。

技术实现思路

[0004]本专利技术提供了一种基于跨模态密集注意力的视觉语言对象分类方法，以实现提升多模态细粒度分类精度的效果。
[0005]根据本专利技术的一方面，提供了一种基于跨模态密集注意力的视觉语言对象分类方法，该方法包括：
[0006]获取包含至少一个待分类对象的待处理图像和待处理文本信息，其中，所述待处理图像与所述待处理文本信息相匹配；
[0007]将所述待处理图像以及所述待处理文本信息输入至预先训练完成的目标对象分类模型中，得到各所述待分类对象的所属类别；
[0008]其中，所述目标对象分类模型中包括两个编码器、序列注意力模块、跨模态注意力模块和分类模块。
[0009]本专利技术实施例的技术方案，通过获取包含至少一个待分类对象的待处理图像和待处理文本信息，将待处理图像以及待处理文本信息输入至预先...

【技术保护点】

【技术特征摘要】
1.一种基于跨模态密集注意力的视觉语言对象分类方法，其特征在于，包括：获取包含至少一个待分类对象的待处理图像和待处理文本信息，其中，所述待处理图像与所述待处理文本信息相匹配；将所述待处理图像以及所述待处理文本信息输入至预先训练完成的目标对象分类模型中，得到各所述待分类对象的所属类别；其中，所述目标对象分类模型中包括两个编码器、序列注意力模块、跨模态注意力模块和分类模块。2.根据权利要求1所述的方法，其特征在于，所述将所述待处理图像以及所述待处理文本信息输入至预先训练完成的目标对象分类模型中，得到各所述待分类对象的所属类别，包括：基于两个编码器分别对所述待处理图像和所述待处理文本信息进行处理，得到待处理图像特征和待处理文本特征；分别对所述待处理图像特征和所述待处理文本特征进行跨模态对齐处理，得到待应用图像特征和待应用文本特征；基于所述序列注意力模块对所述待应用图像特征和所述待应用文本特征进行处理，得到待使用图像特征和待使用文本特征；基于所述跨模态注意力模块对所述待使用图像特征和所述待使用文本特征进行融合处理，得到待分类融合特征；基于所述分类模块对所述待分类融合特征进行处理，得到各所述待分类对象的所属类别。3.根据权利要求2所述的方法，其特征在于，所述两个编码器包括图像编码器和文本编码器，所述基于两个编码器分别对所述待处理图像和所述待处理文本信息进行处理，得到待处理图像特征和待处理文本特征，包括：基于所述图像编码器提取所述待处理图像的图像特征，得到所述待处理图像特征；以及，基于所述文本编码器提取所述待处理文本信息的文本特征，得到所述待处理文本特征。4.根据权利要求2所述的方法，其特征在于，所述基于所述序列注意力模块对所述待应用图像特征和所述待应用文本特征进行处理，得到待使用图像特征和待使用文本特征，包括：将所述待应用图像特征和所述待应用文本特征进行拼接处理，得到待处理...

【专利技术属性】
技术研发人员：朱大勇，解修蕊，罗光春，许毅，廖文峰，胡文斌，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人