【技术实现步骤摘要】
【国外来华专利技术】学习用于半监督学习的未配对多模态特征匹配
技术介绍
[0001]本专利技术一般地涉及机器学习,并且更具体地涉及学习用于半监督学习的未配对多模态特征匹配。
[0002]从一种数据模态生成另一种数据模态是许多机器学习应用中的重要功能。
[0003]通常,应用涉及两个或多个数据模态,其中对于每个模态,存在很少的加标签样本和许多未加标签样本。目标是使用加标签样本来学习模态之间的公共映射。
[0004]在“Text to Image Generative Model using Constrained Embedding Space Mapping”,IEEE International Workshop On Machine Learning For Signal Processing,2017,by Subhajit Chaudhury et al.和“Conditional generation of multi
‑
modal data using constrained embedding space mapp ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于学习多模态特征匹配的计算机实现的方法,包括:训练图像编码器以获得编码图像;通过使用加标签图像对编码图像训练公共分类器;以及通过使用学习的文本嵌入和用于所述学习的文本嵌入的对应标签,在将所述公共分类器保持在固定配置的同时训练文本编码器,其中所述文本编码器被进一步训练为将由所述文本编码器编码的预测的文本嵌入的距离与所述编码图像上的拟合的高斯分布相匹配。2.根据权利要求1所述的计算机实现的方法,还包括通过利用所述图像编码器使用所述加标签图像并且利用所述文本编码器使用加标签文本来训练所述公共分类器。3.根据权利要求1所述的计算机实现的方法,其中所述文本编码器被训练为同时优化利用所述公共分类器的交叉熵以及在所述拟合的高斯分布与所述预测的文本嵌入之间的KL散度。4.根据权利要求1所述的计算机实现的方法,其中,所述公共分类器是在没有配对数据的情况下训练的。5.根据权利要求1所述的计算机实现的方法,其中,所述公共分类器是使用交叉熵损失训练的。6.根据权利要求1所述的计算机实现的方法,其中,总损失被计算为与所述公共分类器相对应的损失和将超参数乘以与所述图像编码器相对应的损失的结果之和。7.如权利要求1所述的计算机实现的方法,还包括利用所述对应标签最小化所述拟合的高斯分布与所述学习的文本嵌入之间的Kullback
‑
Liebler散度。8.根据权利要求7所述的计算机实现的方法,还包括在公共嵌入空间上执行半监督学习。9.根据权利要求1所述的计算机实现的方法,其中,所述文本编码器将预先训练的文本嵌入与所述图像嵌入一起映射到公共潜在表示,以实现跨模态任务。10.根据权利要求1所述的计算机实现的方法,还包括通过应用于训练文本的预先训练的文本嵌入模型来提取所述文本嵌入。11.根据权利要求1所述的计算机实现的方法,其中所述方法由文本字幕系统执行,所述文本字幕系统利用输出文本描述给输入图像加字幕。12.根据权利要求11所述的计算机实现的方法,还包括响应于所述输出文本描述中的至少一个指示即将发生的碰撞,控制汽车以避免碰撞。13.根据权利要求1所述的计算机实现的方法,其中,所述三元组损失将所述编码图像中的相似编码图像推在一起,并且将所述编码图像中的不相似编码图像分开。14.根据权利要求1所述的计算机实现的方法,其中训练所述文本编码器还包括使用所述公共分类器将所述学习的文本嵌入映射到样本聚类,以将所述学习的文本嵌入分类到多个类别中的相应类别中。15.如权利要求1所述的计算机实现的方法,其中所述文本编码器被训练成使得利用所述固定...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。