多模态数据的分类方法及装置制造方法及图纸

技术编号:37448580 阅读:34 留言:0更新日期:2023-05-06 09:20
本发明专利技术提供一种多模态数据的分类方法及装置,其中,该方法包括:基于待分类多模态数据的类型,对于待分类多模态数据中每一目标对象,生成携带有目标对象的位置信息的第一矩阵;基于第一矩阵和目标对象的特征向量,获取第一向量;将各第一向量输入分类模型,获取待分类多模态数据的分类结果;其中,待分类多模态数据的类型包括文本、音频、图片或视频;第一矩阵为旋转矩阵。本发明专利技术提供的多模态数据的分类方法及装置,通过旋转矩阵携带目标对象的位置信息的方式,进行位置嵌入,基于多模态数据的类型,选择更强档的位置信息编码和嵌入的方式,能降低计算的复杂性,不会分散位置信息,能提高分类模型的性能,能提高多模态数据分类的效率和准确率。效率和准确率。效率和准确率。

【技术实现步骤摘要】
多模态数据的分类方法及装置


[0001]本专利技术涉及计算机
,尤其涉及一种多模态数据的分类方法及装置。

技术介绍

[0002]Transformer模型是一种基于注意力(Attention)机制的模型,采用预训练的机制,在自然语言处理(NLP,Natural Language Processing)和计算机视觉(CV,Computer Vision)等场景中均具有非常好的分类效果,具有强大的处理多模态数据的能力。
[0003]文本、音频、图片和视频等多模态数据具有位置属性,为了使Transformer模型能捕捉待分类对象的输入顺序,需要在特征向量的嵌入(Embedding)处理阶段进行位置嵌入(Positional Embedding)。
[0004]现有技术中,通常是通过将特征向量和位置向量进行相加,实现位置嵌入。但对于Transformer模型等采用注意力机制的非循环结构的模型而言,现有位置嵌入方法既增加了计算的复杂性,也分散了位置信息,导致Transformer模型进行多模态数据分类的效率和准确率较低。
专本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态数据的分类方法,其特征在于,包括:基于待分类多模态数据的类型,对于所述待分类多模态数据中每一目标对象,生成携带有所述目标对象的位置信息的第一矩阵;基于所述第一矩阵和所述目标对象的特征向量,获取第一向量;将各所述第一向量输入分类模型,获取所述待分类多模态数据的分类结果;其中,所述待分类多模态数据的类型包括文本、音频、图片或视频;所述第一矩阵为旋转矩阵。2.根据权利要求1所述的多模态数据的分类方法,其特征在于,所述基于待分类多模态数据的类型,对于所述待分类多模态数据中每一目标对象,生成携带有所述目标对象的位置信息的第一矩阵,具体包括:根据所述目标对象的位置信息和三角函数,生成第一维数的所述第一矩阵;其中,所述第一维数是根据所述待分类多模态数据的类型确定的。3.根据权利要求1或2所述的多模态数据的分类方法,其特征在于,所述基于所述第一矩阵和所述目标对象的特征向量,获取第一向量,具体包括:将所述特征向量划分为第二维数的多个第一子向量;将所述第一矩阵分别与每一所述第一子向量相乘,得到多个第二子向量;拼接各第二子向量,得到所述第一向量;其中,所述第二维数是根据所述待分类多模态数据的类型确定的。4.根据权利要求2所述的多模态数据的分类方法,其特征在于,所述根据所述目标对象的位置信息和三角函数,生成所述第一矩阵,具体包括:在所述待分类多模态数据的类型为文本或音频的情况下,根据如下公式生成所述第一矩阵其中,m表示目标对象的位置信息;R
m
表示第一矩阵;θ表示基准角度。5.根据权利要求2所述的多模态数据的分类方法,其特征在于,所述根据所述目标对象的位置信息和三角函数,生成所述第一矩阵,具体包括:在所述...

【专利技术属性】
技术研发人员:陈斯
申请(专利权)人:语联网武汉信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1