多模态的融合方法、装置、设备及介质制造方法及图纸

技术编号:37764412 阅读:13 留言:0更新日期:2023-06-06 13:22
本发明专利技术涉及人工智能技术领域,提供了一种多模态的融合方法、装置、设备及介质,其中,方法包括:通过对多个模态进行编码,得到各个模态的特征向量,并进行预处理,得到各个模态对应的特征向量,根据各个目标特征向量对应的维度为每个目标特征向量设置多个权重矩阵,以获取暂时向量并进行逐元素相加,得到模态向量,并进行融合操作,得到多个模态对应的总向量,可以应用于电子商务,通过神经网络进行实现。本发明专利技术的有益效果:实现了保留更多的模态信息,使最终的总向量的融合效果更好。使最终的总向量的融合效果更好。使最终的总向量的融合效果更好。

【技术实现步骤摘要】
多模态的融合方法、装置、设备及介质


[0001]本专利技术涉及人工智能
,特别涉及一种多模态的融合方法、装置、设备及介质。

技术介绍

[0002]目前,多模态学习已成为近年来不断研究的热点之一。模态指的是信息的来源或者形式,例如,一种信息可以通过视频、语音、图像、文字等多种形式进行表现,则每一种形式的表现都是该信息的一种模态。目前,在电子商务领域中,业内多模态特征融合一般是把多个模态的特征向量拼接在一起,然而这种方法会丢失许多的模态信息,导致融合的效果不理想。

技术实现思路

[0003]本专利技术的主要目的为提供一种多模态的融合方法、装置、设备及介质,旨在解决现有的多模态特征融合方法会丢失许多的模态信息,导致融合的效果不理想的问题。
[0004]本专利技术提供了一种多模态的融合方法,包括:
[0005]获取多个待融合的模态;
[0006]将各个所述待融合的模态经过编码器进行编码,得到各个所述待融合的模态对应的特征向量;
[0007]对所述特征向量进行预处理,得到各个所述特征向量的目标特征向量;其中预处理的方式为对所述特征向量进行增加或者减少维度;
[0008]根据各个所述目标特征向量对应的维度为每个所述目标特征向量设置多个权重矩阵;其中,所述权重矩阵的横列数量与所述目标特征向量的纵列数量相同,各个所述权重矩阵的纵列数量为预设值;
[0009]将各个所述目标特征向量与对应的多个所述权重矩阵相乘,得到各个所述目标特征向量分别对应的多个暂时向量,其中,所述暂时向量的数量与所述权重矩阵相同;
[0010]将各个所述目标特征向量对应的多个所述暂时向量进行逐元素相加,得到各个所述目标特征向量对应的且纵列数量为预设值的模态向量;
[0011]将所述模态向量进行融合操作,得到多个模态对应的总向量。
[0012]进一步地,所述对所述特征向量进行预处理,得到各个所述特征向量的目标特征向量的步骤,包括:
[0013]对所述特征向量的最后一个位置增加一个标量为1的维度,得到目标特征向量。
[0014]进一步地,所述将所述模态向量进行融合操作,得到多个模态对应的总向量的步骤,包括:
[0015]将各个模态向量进行向量内积操作,得到多个模态对应的总向量。
[0016]进一步地,所述将所述模态向量进行融合操作,得到多个模态对应的总向量的步骤,包括:
[0017]将各个模态向量进行向量拼接,得到拼接向量;
[0018]将所述拼接向量输入全连接层,在全连接层乘以n
×
m*m的权重,得到总向量;其中,n为模态向量的个数,m为所述预设值。
[0019]进一步地,所述将各个所述待融合的模态经过编码器进行编码,得到各个所述待融合的模态对应的特征向量的步骤,包括:
[0020]获取各个模态的表现形式;其中表现形式至少包括文本、图像、语音三种表现形式;
[0021]根据各个模态的表现形式设置对应的编码器;
[0022]利用对应的编码器对各个模态进行编码,得到各个模态对应的特征向量。
[0023]进一步地,所述将所述模态向量进行融合操作,得到多个模态对应的总向量的步骤之后,还包括:
[0024]获取多模态数据样本,其中所述多模态数据样本包括多个总向量以及对应的实际识别结果;
[0025]将各个总向量输入至预设的神经网络模型进行识别,得到预测识别结果;
[0026]根据实际识别结果和预测识别计算各个所述多模态数据样本的损失函数;
[0027]通过预设的参数调整策略,利用所述各个多模态数据样本的损失函数,对所述神经网络模型的参数进行更新和/或对生成的权重矩阵进行更新。
[0028]本专利技术还提供了一种多模态的融合装置,包括:
[0029]获取模块,用于获取多个待融合的模态;
[0030]编码模块,用于将各个所述待融合的模态经过编码器进行编码,得到各个所述待融合的模态对应的特征向量;
[0031]预处理模块,用于对所述特征向量进行预处理,得到各个所述特征向量的目标特征向量;其中预处理的方式为对所述特征向量进行增加或者减少维度;
[0032]设置模块,用于根据各个所述目标特征向量对应的维度为每个所述目标特征向量设置多个权重矩阵;其中,所述权重矩阵的横列数量与所述目标特征向量的纵列数量相同,各个所述权重矩阵的纵列数量为预设值;
[0033]相乘模块,用于将各个所述目标特征向量与对应的多个所述权重矩阵相乘,得到各个所述目标特征向量分别对应的多个暂时向量,其中,所述暂时向量的数量与所述权重矩阵相同;
[0034]相加模块,用于将各个所述目标特征向量对应的多个所述暂时向量进行逐元素相加,得到各个所述目标特征向量对应的且纵列数量为预设值的模态向量;
[0035]融合模块,用于将所述模态向量进行融合操作,得到多个模态对应的总向量。
[0036]进一步地,所述预处理模块,包括:
[0037]预处理子模块,用于对所述特征向量的最后一个位置增加一个标量为1的维度,得到目标特征向量。
[0038]本专利技术还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
[0039]本专利技术还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
[0040]本专利技术的有益效果:通过对多个模态进行编码,得到各个模态的特征向量,并进行预处理,得到各个模态对应的特征向量,根据各个目标特征向量对应的维度为每个目标特征向量设置多个权重矩阵,以获取暂时向量并进行逐元素相加,得到模态向量,并进行融合操作,得到多个模态对应的总向量,从而实现了保留更多的模态信息,使最终的总向量的融合效果更好。
附图说明
[0041]图1是本专利技术一实施例的一种多模态的融合方法的流程示意图;
[0042]图2是本专利技术一实施例的一种多模态的融合装置的结构示意框图;
[0043]图3为本申请一实施例的计算机设备的结构示意框图。
[0044]本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0045]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0046]需要说明,本专利技术实施例中所有方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变,所述的连接可以是直接连接,也可以是间接连接。
[004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态的融合方法,其特征在于,包括:获取多个待融合的模态;将各个所述待融合的模态经过编码器进行编码,得到各个所述待融合的模态对应的特征向量;对所述特征向量进行预处理,得到各个所述特征向量的目标特征向量;其中预处理的方式为对所述特征向量进行增加或者减少维度;根据各个所述目标特征向量对应的维度为每个所述目标特征向量设置多个权重矩阵;其中,所述权重矩阵的横列数量与所述目标特征向量的纵列数量相同,各个所述权重矩阵的纵列数量为预设值;将各个所述目标特征向量与对应的多个所述权重矩阵相乘,得到各个所述目标特征向量分别对应的多个暂时向量,其中,所述暂时向量的数量与所述权重矩阵相同;将各个所述目标特征向量对应的多个所述暂时向量进行逐元素相加,得到各个所述目标特征向量对应的且纵列数量为预设值的模态向量;将所述模态向量进行融合操作,得到多个模态对应的总向量。2.如权利要求1所述的多模态的融合方法,其特征在于,所述对所述特征向量进行预处理,得到各个所述特征向量的目标特征向量的步骤,包括:对所述特征向量的最后一个位置增加一个标量为1的维度,得到目标特征向量。3.如权利要求1所述的多模态的融合方法,其特征在于,所述将所述模态向量进行融合操作,得到多个模态对应的总向量的步骤,包括:将各个模态向量进行向量内积操作,得到多个模态对应的总向量。4.如权利要求1所述的多模态的融合方法,其特征在于,所述将所述模态向量进行融合操作,得到多个模态对应的总向量的步骤,包括:将各个模态向量进行向量拼接,得到拼接向量;将所述拼接向量输入全连接层,在全连接层乘以n
×
m*m的权重,得到总向量;其中,n为模态向量的个数,m为所述预设值。5.如权利要求1所述的多模态的融合方法,其特征在于,所述将各个所述待融合的模态经过编码器进行编码,得到各个所述待融合的模态对应的特征向量的步骤,包括:获取各个模态的表现形式;其中表现形式至少包括文本、图像、语音三种表现形式;根据各个模态的表现形式设置对应的编码器;利用对应的编码器对各个模态进行编码,得到各个模态对应的特征向量。6.如权利要...

【专利技术属性】
技术研发人员:舒畅陈又新
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1