模型训练方法、预测方法、设备、存储介质及程序产品技术

技术编号:34534612 阅读:34 留言:0更新日期:2022-08-13 21:28
本申请提供一种模型训练方法、预测方法、设备、存储介质及程序产品,其中方法包括:根据待处理的图像和文本,通过视觉编码模块确定图像对应的视觉表示特征,并通过语言编码模块确定文本对应的语言表示特征,根据视觉表示特征和语言表示特征,确定图像中各个图像块和/或文本中各个字符对应的注意力值,并根据注意力值确定注意力损失,其中,图像块的注意力值用于表示该图像块对文本预测的贡献,字符的注意力值用于表示该字符对图像预测的贡献,根据视觉表示特征和语言表示特征,通过融合模块,确定图像和/或文本对应的预测结果,并根据预测结果确定预测损失,根据注意力损失和预测损失,调整模型的参数,可以提升模型的准确性。可以提升模型的准确性。可以提升模型的准确性。

【技术实现步骤摘要】
模型训练方法、预测方法、设备、存储介质及程序产品


[0001]本申请涉及人工智能
,尤其涉及一种模型训练方法、预测方法、设备、存储介质及程序产品。

技术介绍

[0002]随着人工智能技术的不断发展,人工智能模型可处理的数据模态也在不断扩展。在一些技术中,可以通过多模态交互模型对多种模态的信息进行处理,提升模型预测效果。
[0003]例如,对于一件商品来说,其可以有图像、文本等多种模态的数据,通过多模态交互模型对这些数据进行综合处理,可以实现图像、文本等模态之间的交互,有助于提升对商品的预测效果。但是,目前的多模态交互模型的准确性依然有待提升。

技术实现思路

[0004]本申请实施例的主要目的在于提供一种模型训练方法、预测方法、设备、存储介质及程序产品,以提升多模态交互模型的准确性。
[0005]第一方面,本申请实施例提供一种模型训练方法,所述模型包括视觉编码模块、语言编码模块以及融合模块;所述方法包括:
[0006]根据待处理的图像和文本,通过视觉编码模块确定所述图像对应的视觉表示特征,并通过语言编本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述模型包括视觉编码模块、语言编码模块以及融合模块;所述方法包括:根据待处理的图像和文本,通过视觉编码模块确定所述图像对应的视觉表示特征,并通过语言编码模块确定所述文本对应的语言表示特征;根据所述视觉表示特征和所述语言表示特征,确定所述图像中各个图像块和/或所述文本中各个字符对应的注意力值,并根据注意力值确定注意力损失;其中,图像块的注意力值用于表示该图像块对文本预测的贡献,字符的注意力值用于表示该字符对图像预测的贡献;根据所述视觉表示特征和所述语言表示特征,通过融合模块,确定所述图像和/或所述文本对应的预测结果,并根据预测结果确定预测损失;根据所述注意力损失和预测损失,调整所述模型的参数。2.根据权利要求1所述的方法,其特征在于,根据所述视觉表示特征和所述语言表示特征,确定所述图像中各个图像块和/或所述文本中各个字符对应的注意力值,包括:根据所述图像中多个图像块的视觉表示特征与所述文本中多个字符的语言表示特征进行计算,得到交叉注意力矩阵,所述交叉注意力矩阵中的元素用于表示图像块对字符的贡献和/或字符对图像块的贡献;针对任一图像块,将该图像块对各字符的贡献相加,得到该图像块对应的注意力值;和/或,针对任一字符,将该字符对各图像块的贡献相加,得到该字符对应的注意力值。3.根据权利要求1所述的方法,其特征在于,根据注意力值确定注意力损失,包括:根据各个图像块的注意力值及对应的标签,和/或,各个字符的注意力值及对应的标签,确定注意力损失;其中,确定注意力损失时使用的标签与确定预测损失时使用的标签相匹配。4.根据权利要求3所述的方法,其特征在于,根据各个图像块的注意力值及对应的标签,和/或,各个字符的注意力值及对应的标签,确定注意力损失,包括:根据各个图像块的注意力值及对应的标签,计算第一交叉熵损失;根据各个字符的注意力值及对应的标签,计算第二交叉熵损失;根据所述第一交叉熵损失和第二交叉熵损失,确定对应的注意力损失。5.根据权利要求1

4任一项所述的方法,其特征在于,所述模型还包括视觉预测模块和/或语言预测模块;根据所述视觉表示特征和所述语言表示特征,通过融合模块,确定所述图像和/或所述文本对应的预测结果,包括:将所述视觉表示特征和所述语言表示特征输入到融合模块,得到多模态表示特征;根据所述多模态表示特征,通过视觉预测模块得到各图像块的预测结果,和/或,通过语言预测模块得到各字符的预测结果。6.根据权利要求1

4任一项所述的方法,其特征在于,根据所述注意力损失和预测损失,调整所述模型的参数,包括:根据所述注意力损失,调整所述视觉编码模块和语言编码模块的参数;根据所述预测损失,调整所述模型中各个模块的参数。7.一种模型训练方法,其特征在于,所述模型包括视觉编码模块、语言编码模块以及融合模块;所述方法包括:

【专利技术属性】
技术研发人员:田俊峰蒋勇孙增辉
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1