编码装置、数据处理方法及装置制造方法及图纸

技术编号:34960561 阅读:23 留言:0更新日期:2022-09-17 12:40
本说明书实施例提供编码装置、数据处理方法及装置,其中所述编码装置包括编码层和至少一个联合编码单元,其中,所述编码层对接收到的第一模态初始特征向量和第二模态初始特征向量进行编码,生成第一模态特征向量和第二模态特征向量,所述至少一个联合编码单元对所述第一模态特征向量和第二模态特征向量进行联合编码,所述至少一个联合编码单元包括编码模块和模态输入切换模块,所述模态输入切换模块被配置为对第一模态特征向量和第二模态特征向量进行处理得到第一模态切换编码向量和第二模态切换编码向量;所述编码模块被配置为对接收的第一模态切换编码向量和第二模态切换编码向量进行处理生成第一目标模态融合向量和第二目标模态融合向量。和第二目标模态融合向量。和第二目标模态融合向量。

【技术实现步骤摘要】
编码装置、数据处理方法及装置


[0001]本说明书实施例涉及计算机
,特别涉及一种编码装置。

技术介绍

[0002]随着计算机技术和人工智能的发展,人们对机器感知和推理的需求与日俱增,特别是图像和文本两种数据的理解与匹配,图文匹配、图文预测等吸引了国内外众多研究者的兴趣。作为信息检索和多媒体计算领域的基础性和关键性任务,其不能仅有有效地打破视觉和语言之间的语义鸿沟和分布壁垒,还能促进上层应用的发展(如,跨模态检索、图像标注、视觉问答),但目前通常采用具有固定结构的深度学习模型,只能在特定任务中取得出色的表现,而对于较为复杂的任务,将影响模型的使用效果。

技术实现思路

[0003]有鉴于此,本说明书施例提供了一种编码装置。本说明书一个或者多个实施例同时涉及两种数据处理方法及装置,一种计算设备,一种计算机可读存储介质,一种计算机程序,以解决现有技术中存在的技术缺陷。
[0004]根据本说明书实施例的第一方面,提供了一种编码装置,包括:编码层和至少一个联合编码单元,其中,所述编码层经过训练,对接收到的第一模态初始特征向量和第二模态初始特征向量进行编码,生成第一模态特征向量和第二模态特征向量,所述至少一个联合编码单元经过训练,对所述第一模态特征向量和第二模态特征向量进行联合编码,所述至少一个联合编码单元包括编码模块和模态输入切换模块,
[0005]所述模态输入切换模块被配置为对所述第一模态特征向量和第二模态特征向量进行处理得到第一模态切换编码向量和第二模态切换编码向量;
[0006]所述编码模块被配置为对接收的所述第一模态切换编码向量和第二模态切换编码向量进行处理生成第一目标模态融合向量和第二目标模态融合向量。
[0007]根据本说明书实施例的第二方面,提供了第一种数据处理方法,包括:
[0008]接收多模态数据匹配请求,将所述多模态数据匹配请求中携带的第一模态初始数据、第二模态初始数据输入编码装置中的预处理模块,获得第一多模态初始特征向量以及第二多模态初始特征向量,其中,所述编码装置为上述实施例中的编码装置;
[0009]将所述第一多模态初始特征向量以及第二多模态初始特征向量输入所述编码装置中的编码层和至少一个联合编码单元进行多模态特征融合,获得第一目标多模态融合向量和第二目标多模态融合向量;
[0010]基于所述多模态数据匹配请求确定预先训练的数据匹配网络,将所述第一目标多模态融合向量和所述第二目标多模态融合向量输入所述数据匹配网络,生成数据匹配结果。
[0011]根据本说明书实施例的第三方面,提供了第二种数据处理方法,包括:
[0012]接收多模态数据预测请求,将所述多模态数据预测请求中携带的第一模态初始数
据、第二模态初始数据输入编码装置中的预处理模块,获得第一模态初始特征向量以及第二模态初始特征向量,其中,所述编码装置为上述实施例中的编码装置,所述第一模态初始数据有至少一个掩码数据或所述第二模态初始数据中带有至少一个掩码数据;
[0013]将所述第一模态初始特征向量以及第二模态初始特征向量输入所述编码装置中的编码层和至少一个联合编码单元进行多模态特征融合,获得第一目标多模态融合向量和第二目标多模态融合向量;
[0014]基于所述多模态数据预测请求确定预先训练的数据预测网络,将所述第一目标多模态融合向量和所述第二目标多模态融合向量输入所述数据预测网络,生成数据预测结果。
[0015]根据本说明书实施例的第四方面,提供了第一种数据处理装置,包括:
[0016]第一特征向量获得模块,被配置为接收多模态数据匹配请求,将所述多模态数据匹配请求中携带的第一模态初始数据、第二模态初始数据输入编码装置中的预处理模块,获得第一多模态初始特征向量以及第二多模态初始特征向量,其中,所述编码装置为权利要求1

6任意一项所述的编码装置;
[0017]第一融合向量获得模块,被配置为将所述第一多模态初始特征向量以及第二多模态初始特征向量输入所述编码装置中的编码层和至少一个联合编码单元进行多模态特征融合,获得第一目标多模态融合向量和第二目标多模态融合向量;
[0018]数据匹配模块,被配置为基于所述多模态数据匹配请求确定预先训练的数据匹配网络,将所述第一目标多模态融合向量和所述第二目标多模态融合向量输入所述数据匹配网络,生成数据匹配结果。
[0019]根据本说明书实施例的第五方面,提供了第二种数据处理装置,包括:
[0020]第二特征向量获得模块,被配置为接收多模态数据预测请求,将所述多模态数据预测请求中携带的第一模态初始数据、第二模态初始数据输入编码装置中的预处理模块,获得第一模态初始特征向量以及第二模态初始特征向量,其中,所述编码装置为权利要求1

6任意一项所述的编码装置,所述第一模态初始数据或第二模态初始数据中带有至少一个掩码数据;
[0021]第二融合向量获得模块,被配置为将所述第一模态初始特征向量以及第二模态初始特征向量输入所述编码装置中的编码层和至少一个联合编码单元进行多模态特征融合,获得第一目标多模态融合向量和第二目标多模态融合向量;
[0022]数据预测模块,被配置为基于所述多模态数据预测请求确定预先训练的数据预测网络,将所述第一目标多模态融合向量和所述第二目标多模态融合向量输入所述数据预测网络,生成数据预测结果。
[0023]根据本说明书实施例的第六方面,提供了一种计算设备,包括:
[0024]存储器和处理器;
[0025]所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述两种数据处理方法的步骤。
[0026]根据本说明书实施例的第七方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述两种数据处理方法的步骤。
[0027]根据本说明书实施例的第八方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述两种数据处理方法的步骤。
[0028]本说明书一个实施例提供了编码装置,所述编码装置包括编码层和至少一个联合编码单元,其中,所述编码层经过训练,对接收到的第一模态初始特征向量和第二模态初始特征向量进行编码,生成第一模态特征向量和第二模态特征向量,所述至少一个联合编码单元经过训练,对所述第一模态特征向量和第二模态特征向量进行联合编码,所述至少一个联合编码单元包括编码模块和模态输入切换模块,所述模态输入切换模块被配置为对所述第一模态特征向量和第二模态特征向量进行处理得到第一模态切换编码向量和第二模态切换编码向量;所述编码模块被配置为对接收的所述第一模态切换编码向量和第二模态切换编码向量进行处理生成第一目标模态融合向量和第二目标模态融合向量。
[0029]具体的,通过编码装置中的编码层和至少一个联合编码单元,对第一模态初始特征向量和第二模态初始特征向量进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种编码装置,所述编码装置包括编码层和至少一个联合编码单元,其中,所述编码层经过训练,对接收到的第一模态初始特征向量和第二模态初始特征向量进行编码,生成第一模态特征向量和第二模态特征向量,所述至少一个联合编码单元经过训练,对所述第一模态特征向量和第二模态特征向量进行联合编码,所述至少一个联合编码单元包括编码模块和模态输入切换模块;所述模态输入切换模块被配置为对所述第一模态特征向量和第二模态特征向量进行处理得到第一模态切换编码向量和第二模态切换编码向量;所述编码模块被配置为对接收的所述第一模态切换编码向量和第二模态切换编码向量进行处理生成第一目标模态融合向量和第二目标模态融合向量。2.根据权利要求1所述的编码装置,所述至少一个联合编码单元的数量为两个或者两个以上并组成联合编码单元组,所述联合编码单元组被配置为对所述第一模态特征向量和第二模态特征向量进行联合编码,生成第一目标模态融合向量和第二目标模态融合向量;所述联合编码单元组中任意两个相邻的联合编码单元中的第一联合编码单元的输出信息输入至第二联合编码单元的输入端。3.根据权利要求1所述的编码装置,所述模态输入切换模块,进一步被配置为确定所述第一模态特征向量的第一模态特征全局向量以及第二模态特征向量的第二模态特征全局向量;计算所述第一模态特征全局向量与所述第二模态特征全局向量之间的特征匹配值,基于预训练的特征选择分类器确定所述特征匹配值的初始分类概率值;基于所述初始分类概率值确定模拟分类概率值,根据所述模拟分类概率值选择目标模态特征向量类型,其中,所述目标模态特征向量类型包括当前模态输入切换模块的第一模态特征向量以及第二模态特征向量择其一,以及输入至所述当前模态输入切换模块连接的前一层编码模块的第一模态切换编码向量和第二模态切换编码向量之间择其一;基于所述目标模态特征向量类型确定第一模态切换编码向量和第二模态切换编码向量。4.根据权利要求1

3任意一项所述的编码装置,所述编码模块,进一步被配置为确定所述第一模态切换编码向量的第一模态切换编码全局向量以及所述第二模态切换编码向量的第二模态切换编码全局向量;计算所述第一模态切换编码全局向量与所述第二模态切换编码全局向量之间的模态匹配值,基于预训练的模式选择分类器确定所述模态匹配值的初始匹配概率值;基于所述初始匹配概率值确定模拟匹配概率值,根据所述模拟匹配概率值选择目标注意力机制,其中,所述目标注意力机制包括自注意力机制、第一交叉自注意力机制、第二交叉自注意力机制、联合自注意力机制中之一;基于所述目标注意力机制对所述第一模态切换编码向量以及所述第二模态切换编码向量分别进行自注意力计算,生成第一模态融合向量和第二目标模态融合向量。5.根据权利要求4所述的编码装置,所述编码层,进一步被配置为确定所述第一模态初始特征向量的第一模态初始特征全局向量以及所述第二模态初始特征向量的第二模态初始特征全局向量;计算所述第一模态初始特征全局向量与所述第二模态初始特征全局向量之间的初始
特征匹配值,并基于预训练的初始特征选择分类器确定所述初始特征匹配值的初始特征分类概率值;基于所述初始特征分类概率值确定模拟初始特征分类概率值,根据所述模拟初始特征分类概率值选择初始注意力机制,其中,所述初始注意力机制包括自注意力机制、第一交叉自注意力机制、第二交叉自注意力机制、联合自注意力机制中之一;基于所述初始注意力机制对所述第一模态初始特征向量以及所述第二模态初始特征向量分别进行自注意力计算,生成第一模态特征向量和第二模态特征向量。6.根据权利要求1所述的编码装置,所述编码装置还包括预处理模块,所述预处理模块,被配置为接收多模态初始数据,确定所述多模态初始数据的数据类型;确定所述多模态数据的位置特征,提取所述多模态初始数据的数据特征;基于所述数据类型、所述位置特征以及所述数据特征生成多模态初始特征向量,其中所述多模态初始特征向量包括第一模态初始特征向量和第二模态初始特征向量。7.一种数据处理方法,包括:接收多模态数据匹配请求,将所述多模态数据匹配请求中携带的第一模态初始数据、第二模态初始数据输入编码装置中的预处理模块,获得第一多模态初始特征向量以及第二多模态初始特征向量,其中,所述编码装置为权利...

【专利技术属性】
技术研发人员:郭清沛褚崴
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1