【技术实现步骤摘要】
多模态表示模型的训练方法、跨模态检索方法及装置
[0001]本公开涉及人工智能
,尤其涉及深度学习、智能搜索
,具体涉及一种多模态表示模型的训练方法及装置、跨模态检索方法及装置、电子设备、计算机可读存储介质和计算机程序产品。
技术介绍
[0002]数据模态指的是数据的存在形式,例如文本、图像、视频、音频等。同一个对象或事件可以采用不同模态的数据进行描述。换言之,不同模态的数据可以具有相同或相似的语义。
[0003]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
技术实现思路
[0004]本公开提供了一种多模态表示模型的训练方法及装置、跨模态检索方法及装置、电子设备、计算机可读存储介质和计算机程序产品。
[0005]根据本公开的一方面,提供了一种多模态表示模型的训练方法,所述多模态表示模型包括对应于第一数据模态 ...
【技术保护点】
【技术特征摘要】
1.一种多模态表示模型的训练方法,其中,所述多模态表示模型包括对应于第一数据模态的第一表示模块和对应于第二数据模态的第二表示模块,所述方法包括:获取样本元组,所述样本元组包括所述第一数据模态的第一样本和第二样本,以及所述第二数据模态的第三样本和第四样本,其中,所述样本元组所包括的各个样本的语义相匹配;将所述第一样本和所述第二样本分别输入所述第一表示模块,以得到所述第一样本的第一表示和所述第二样本的第二表示;将所述第三样本和所述第四样本分别输入所述第二表示模块,以得到所述第三样本的第三表示和所述第四样本的第四表示;基于所述第一表示和所述第二表示,确定所述第一数据模态的第一单模态损失;基于所述第三表示和所述第四表示,确定所述第二数据模态的第二单模态损失;基于第一目标表示和第二目标表示,确定由所述第一数据模态到所述第二数据模态的第一跨模态损失和由所述第二数据模态到所述第一数据模态的第二跨模态损失,其中,所述第一目标表示为所述第一表示和所述第二表示中的任一者,所述第二目标表示为所述第三表示和所述第四表示中的任一者;基于所述第一单模态损失、所述第二单模态损失、所述第一跨模态损失和所述第二跨模态损失,确定所述多模态表示模型的整体损失;以及基于所述整体损失,调整所述多模态表示模型的参数。2.根据权利要求1所述的方法,还包括:获取原始数据对,所述原始数据对包括所述第一数据模态的第一原始数据和所述第二数据模态的第二原始数据,所述第一原始数据和所述第二原始数据的语义相匹配;基于所述第一原始数据,生成所述第一样本和所述第二样本;以及基于所述第二原始数据,生成所述第三样本和所述第四样本。3.根据权利要求2所述的方法,其中,基于所述第一原始数据,生成所述第一样本和所述第二样本包括:对所述第一原始数据进行第一数据增强处理,以生成所述第一样本;以及对所述第一原始数据进行第二数据增强处理,以生成所述第二样本,其中,所述第一样本与所述第二样本不同。4.根据权利要求2所述的方法,其中,所述第一样本和所述第二样本与所述第一原始数据相同,所述第一表示模块被配置为添加随机噪声,以使所述第一表示与所述第二表示不同。5.根据权利要求4所述的方法,其中,所述第一数据模态为文本模态,所述第一表示模块为包括dropout处理层的文本编码器,所述dropout处理层的丢弃概率小于预设阈值。6.根据权利要求1
‑
5中任一项所述的方法,其中,基于所述第一表示和所述第二表示,确定所述第一数据模态的第一单模态损失包括:基于所述第一表示与所述第二表示的第一相似度,以及所述第一表示与其他样本元组的第二表示的第二相似度,确定所述第一单模态损失,其中,所述第一单模态损失与所述第一相似度负相关并且与所述第二相似度正相关。7.根据权利要求1
‑
6中任一项所述的方法,其中,基于第一目标表示和第二目标表示,
确定由所述第一数据模态到所述第二数据模态的第一跨模态损失包括:基于所述第一目标表示和所述第二目标表示的第三相似度,以及所述第一目标表示与其他样本元组的第二目标表示的第四相似度,确定所述第一跨模态损失,其中,所述第一跨模态损失与所述第三相似度负相关并且与所述第四相似度正相关。8.根据权利要求1
‑
7中任一项所述的方法,其中,基于第一目标表示和第二目标表示,确定由所述第二数据模态到所述第一数据模态的第二跨模态损失包括:基于所述第一目标表示和所述第二目标表示的第三相似度,以及所述第二目标表示与其他样本元组的第一目标表示的第五相似度,确定所述第二跨模态损失,其中,所述第二跨模态损失与所述第三相似度负相关并且与所述第五相似度正相关。9.根据权利要求1
‑
8中任一项所述的方法,其中,所述整体损失为所述第一单模态损失、所述第二单模态损失、所述第一跨模态损失和所述第二跨模态损失的加权和。10.根据权利要求1
‑
9中任一项所述的方法,还包括:基于预设应用场景下的匹配数据对,对所述多模态表示模型进行微调。11.根据权利要求10所述的方法,其中,所述匹配数据对包括目标数据模态的第一数据和第二数据,所述第一数据和所述第二数据的语义相匹配,并且其中,基于预设应用场景下的匹配数据对,对所述多模态表示模型进行微调包括:基于所述匹配数据对,对所述目标数据模态对应的表示模块进行微调。12.根据权利要求10所述的方法,其中,所述匹配数据对包括第一数据模态的第一数据和第二数据模态的第二数据,所述第一数据和所述第二数据的语义相匹配,并且其中,基于预设应用场景下的匹配数据对,对所述多模态表示模型进行微调包括:基于所述第一数据,生成所述第一数据模态的第一数据样本和第二数据样本;基于所述第二数据,生成所述第二数据模态的第三数据样本和第四数据样本;基于所述第一数据样本、所述第二数据样本、所述第三数据样本、所述第四数据样本,构造数据样本元组;以及基于所述数据样本元组,对所述多模态表示模型进行微调。13.根据权利要求1
‑
12中任一项所述的方法,其中,所述第一数据模态和所述第二数据模态为以下任意两者:文本模态、图像模态、视频模态、音频模态。14.一种跨模态检索方法,包括:获取第一数据模态的检索对象;将所述检索对象输入多模态表示模型,以得到所述检索对象对应的第一表示;获取第二数据模态的多个候选对象各自的第二表示,其中,所述第二表示是通过将相应的候选对象输入所述多模态表示模型而得到的;以及基于所述第一表示与每个第二表示的相似度,从所述多个候选对象中确定与所述检索对象相匹配的目标对象,其中,所述多模态表示模型是根据权利要求1
‑
13中任一项所述的方法训练得到的。15.一种多模态表示模型的训练装置,其中,所述多模态表示模型包括对应于第一数据模态的第一表示单元和对应于第二数据模态的第二表示单元,所述装置包括:第一获取单元,被配置为获取样本元组,所述样本元组包括所述第一数据模态的第一样本和第二样本,以及所述第二数据模态的第三样本和第四样本,其中,所述样本元组所包
括的各个样本的语义相匹配;第一输入单元,被配置为将所述第一样本和所述第二样本分别输入所述第一表示单元,以得到所...
【专利技术属性】
技术研发人员:单斌,尹维冲,孙宇,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。