【技术实现步骤摘要】
编码装置、数据处理方法及装置
[0001]本说明书实施例涉及计算机
,特别涉及一种编码装置。
技术介绍
[0002]随着计算机技术和人工智能的发展,人们对机器感知和推理的需求与日俱增,特别是图像和文本两种数据的理解与匹配,图文匹配、图文预测等吸引了国内外众多研究者的兴趣。作为信息检索和多媒体计算领域的基础性和关键性任务,其不能仅有有效地打破视觉和语言之间的语义鸿沟和分布壁垒,还能促进上层应用的发展(如,跨模态检索、图像标注、视觉问答),但目前通常采用具有固定结构的深度学习模型,只能在特定任务中取得出色的表现,而对于较为复杂的任务,将影响模型的使用效果。
技术实现思路
[0003]有鉴于此,本说明书施例提供了一种编码装置。本说明书一个或者多个实施例同时涉及两种数据处理方法及装置,一种计算设备,一种计算机可读存储介质,一种计算机程序,以解决现有技术中存在的技术缺陷。
[0004]根据本说明书实施例的第一方面,提供了一种编码装置,包括:编码层和至少一个联合编码单元,其中,所述编码层经过训练,对接收到的第一模态初始特征向量和第二模态初始特征向量进行编码,生成第一模态特征向量和第二模态特征向量,所述至少一个联合编码单元经过训练,对所述第一模态特征向量和第二模态特征向量进行联合编码,所述至少一个联合编码单元包括编码模块和模态输入切换模块,
[0005]所述模态输入切换模块被配置为对所述第一模态特征向量和第二模态特征向量进行处理得到第一模态切换编码向量和第二模态切换编码向量;
[000 ...
【技术保护点】
【技术特征摘要】
1.一种编码装置,所述编码装置包括编码层和至少一个联合编码单元,其中,所述编码层经过训练,对接收到的第一模态初始特征向量和第二模态初始特征向量进行编码,生成第一模态特征向量和第二模态特征向量,所述至少一个联合编码单元经过训练,对所述第一模态特征向量和第二模态特征向量进行联合编码,所述至少一个联合编码单元包括编码模块和模态输入切换模块;所述模态输入切换模块被配置为对所述第一模态特征向量和第二模态特征向量进行处理得到第一模态切换编码向量和第二模态切换编码向量;所述编码模块被配置为对接收的所述第一模态切换编码向量和第二模态切换编码向量进行处理生成第一目标模态融合向量和第二目标模态融合向量。2.根据权利要求1所述的编码装置,所述至少一个联合编码单元的数量为两个或者两个以上并组成联合编码单元组,所述联合编码单元组被配置为对所述第一模态特征向量和第二模态特征向量进行联合编码,生成第一目标模态融合向量和第二目标模态融合向量;所述联合编码单元组中任意两个相邻的联合编码单元中的第一联合编码单元的输出信息输入至第二联合编码单元的输入端。3.根据权利要求1所述的编码装置,所述模态输入切换模块,进一步被配置为确定所述第一模态特征向量的第一模态特征全局向量以及第二模态特征向量的第二模态特征全局向量;计算所述第一模态特征全局向量与所述第二模态特征全局向量之间的特征匹配值,基于预训练的特征选择分类器确定所述特征匹配值的初始分类概率值;基于所述初始分类概率值确定模拟分类概率值,根据所述模拟分类概率值选择目标模态特征向量类型,其中,所述目标模态特征向量类型包括当前模态输入切换模块的第一模态特征向量以及第二模态特征向量择其一,以及输入至所述当前模态输入切换模块连接的前一层编码模块的第一模态切换编码向量和第二模态切换编码向量之间择其一;基于所述目标模态特征向量类型确定第一模态切换编码向量和第二模态切换编码向量。4.根据权利要求1
‑
3任意一项所述的编码装置,所述编码模块,进一步被配置为确定所述第一模态切换编码向量的第一模态切换编码全局向量以及所述第二模态切换编码向量的第二模态切换编码全局向量;计算所述第一模态切换编码全局向量与所述第二模态切换编码全局向量之间的模态匹配值,基于预训练的模式选择分类器确定所述模态匹配值的初始匹配概率值;基于所述初始匹配概率值确定模拟匹配概率值,根据所述模拟匹配概率值选择目标注意力机制,其中,所述目标注意力机制包括自注意力机制、第一交叉自注意力机制、第二交叉自注意力机制、联合自注意力机制中之一;基于所述目标注意力机制对所述第一模态切换编码向量以及所述第二模态切换编码向量分别进行自注意力计算,生成第一模态融合向量和第二目标模态融合向量。5.根据权利要求4所述的编码装置,所述编码层,进一步被配置为确定所述第一模态初始特征向量的第一模态初始特征全局向量以及所述第二模态初始特征向量的第二模态初始特征全局向量;计算所述第一模态初始特征全局向量与所述第二模态初始特征全局向量之间的初始
特征匹配值,并基于预训练的初始特征选择分类器确定所述初始特征匹配值的初始特征分类概率值;基于所述初始特征分类概率值确定模拟初始特征分类概率值,根据所述模拟初始特征分类概率值选择初始注意力机制,其中,所述初始注意力机制包括自注意力机制、第一交叉自注意力机制、第二交叉自注意力机制、联合自注意力机制中之一;基于所述初始注意力机制对所述第一模态初始特征向量以及所述第二模态初始特征向量分别进行自注意力计算,生成第一模态特征向量和第二模态特征向量。6.根据权利要求1所述的编码装置,所述编码装置还包括预处理模块,所述预处理模块,被配置为接收多模态初始数据,确定所述多模态初始数据的数据类型;确定所述多模态数据的位置特征,提取所述多模态初始数据的数据特征;基于所述数据类型、所述位置特征以及所述数据特征生成多模态初始特征向量,其中所述多模态初始特征向量包括第一模态初始特征向量和第二模态初始特征向量。7.一种数据处理方法,包括:接收多模态数据匹配请求,将所述多模态数据匹配请求中携带的第一模态初始数据、第二模态初始数据输入编码装置中的预处理模块,获得第一多模态初始特征向量以及第二多模态初始特征向量,其中,所述编码装置为权利...
【专利技术属性】
技术研发人员:郭清沛,褚崴,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。