【技术实现步骤摘要】
用于图像编码学习和应用的方法、装置、设备和介质
[0001]本公开的示例实施例总体涉及计算机领域,特别地涉及用于图像编码学习和应用的方法、装置、设备和计算机可读存储介质。
技术介绍
[0002]随着机器学习技术的发展,已经可以利用机器学习模型来执行多种应用环境中的任务。基于模型的视觉任务是用于处理视觉数据,例如图像、视频等。视觉任务的示例包括但不限于图像分类、目标检测、语义分割等。在视觉任务的模型中,挑战在于如何提取能够准确表征图像数据的特征。用于提取图像的特征表示的模型通常称为图像编码器(encoder)。
技术实现思路
[0003]在本公开的第一方面,提供了一种用于图像编码学习的方法。该方法包括:利用待训练的图像编码器提取样本图像的图像特征表示;利用文本编码器提取样本文本序列的文本特征表示,样本文本序列与样本图像相关联;利用文本解码器,基于文本特征表示和图像特征表示来生成预测文本序列;以及至少基于预测文本序列与样本文本序列之间的文本误差来训练图像编码器。
[0004]在本公开的第二方面,提供了一种 ...
【技术保护点】
【技术特征摘要】
1.一种用于图像编码学习的方法,包括:利用待训练的图像编码器提取样本图像的图像特征表示;利用文本编码器提取样本文本序列的文本特征表示,所述样本文本序列与所述样本图像相关联;利用文本解码器,基于所述文本特征表示和所述图像特征表示来生成预测文本序列;以及至少基于所述预测文本序列与所述样本文本序列之间的文本误差来训练所述图像编码器。2.根据权利要求1所述的方法,其中训练所述图像编码器包括:利用图像解码器,基于所述图像特征表示生成预测图像;以及还基于所述预测图像与所述样本图像之间的图像误差来训练所述图像编码器。3.根据权利要求1所述的方法,其中训练所述图像编码器包括:至少基于所述文本误差来联合训练所述图像编码器和所述文本编码器;其中所述方法还包括:提供经训练的所述图像编码器用于下游任务,其中所述文本编码器被丢弃。4.根据权利要求1所述的方法,其中提取所述图像特征表示包括:掩码所述样本图像中的至少一个图像块;以及利用所述图像编码器从所述图像中未被掩码的至少一个图像块提取所述图像特征表示。5.根据权利要求1所述的方法,其中所述样本文本序列包括多个文本单元,并且其中提取所述文本特征表示包括:对于所述多个文本单元中的给定文本单元,从所述给定文本单元和在所述样本文本序列中所述给定文本单元之前的至少一个文本单元提取针对所述给定文本单元的文本特征表示。6.根据权利要求5所述的方法,其中生成所述预测文本序列包括:对于所述多个文本单元中的所述给定文本单元,从针对所述给定文本单元的所述文本特征表示和所述图像特征表示,确定预测文本单元,所述预测文本单元是对所述样本文本序列中在所述给定文本单元之后的文本单元的预测。7.根据权利要求5所述的方法,其中如果所述给定文本单元是所述样本文本序列中的最后文本单元,所述预测文本单元是对所述样本文本序列的结束的预测。8.根据权利要求1所述的方法,其中所述样本文本序列包括多个文本单元,并且其中生成所述预测文本序列包括:基于所述图像特征表示和所述文本特征表示来确定针对所述样本图像的自注意力权重;以及基于所述图像特征表示和所述自注意力权重来生成所述预测文本序列。9.根据权利要求1所述的方法,其中所述文本解码器包括转换器块,并且所述文本特征表示被定义为输入到所述转换器块的查询特征,所述图像特征表示被定义为输入到所述转换器块的键特征和值特征。10.一种用于图像编码应用的方法,包括:
获取根据权利要求1至9中任一项所述的方法训练的图像编码器;利用所获取的所述图像编码器提取目标图像的图像特征表示;以及基于所述图像特征表示来执行针对所述目标图像的预定视觉任务。11.一种用于图像编码学习的装置,包括:图像特征提取模块,被配置为利用待训练的图像编码器提取样本图像的图像特征表示;文本特征提取模块,被配置为利用文本编码器提取样本文本序列的文本特征表示,所述样本文本序列与所...
【专利技术属性】
技术研发人员:崔权,吴昊,杨成,
申请(专利权)人:北京有竹居网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。