一种模型训练方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：39734611 阅读：18 留言：0更新日期：2023-12-17 23:36

本申请实施例公开了一种模型训练方法、装置、计算机设备和存储介质；本申请实施例可以获取图文匹配模型和图文样本组；利用图文匹配模型对图文样本组进行编码处理，得到图像样本特征、文本样本特征和增强后文本样本特征；根据增强后文本样本的内容增强方式，确定每个增强后文本样本特征对应的损失计算方式；根据每个增强后文本样本特征的损失计算方式，将增强后文本样本特征、图像样本特征和文本样本特征进行损失计算处理，得到每个增强后文本样本特征对应的样本特征损失信息；根据每个增强后文本样本特征对应的样本特征损失信息对图文匹配模型进行模型调整处理，得到目标图文匹配模型，可以提高图文匹配的准确性。可以提高图文匹配的准确性。可以提高图文匹配的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种模型训练方法、装置、计算机设备和存储介质

[0001]本申请涉及计算机
，具体涉及一种模型训练方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着多模态数据的持续快速增长，跨模态智能分析技术受到日益广泛的关注。只有通过分析不同模态之间的交互关系，才能深入理解多模态数据，更智能地了解周围的世界。该技术被广泛应用于跨模态检索、视觉和语言、零样本学习、遥感信息处理、环境感知、语义分割等任务。例如，针对图像数据和文本数据可以进行跨模态匹配。譬如，可以将文本匹配至相应的图像，或者可以将图像匹配至相应的文本。本申请的专利技术人通过对现有技术进行实践发现，现有技术的图文匹配技术存在准确性较低的问题。

技术实现思路

[0003]本申请实施例提出了一种模型训练方法、装置、计算机设备和存储介质，可以提高图文匹配的准确性，从而提高图文检索服务的召回质量。
[0004]本申请实施例提供了一种模型训练方法，包括：
[0005]获取图文匹配模型和图文样本组，其中，所述图文样本组包括图像样本和文本样本组，所述文本样本组包括和所述图像样本相匹配的文本样本以及通过不同的内容增强方式根据所述文本样本生成的多个增强后文本样本；
[0006]利用所述图文匹配模型对所述图文样本组进行编码处理，得到所述图像样本对应的图像样本特征、所述文本样本对应的文本样本特征和所述增强后文本样本对应的增强后文本样本特征；
[0007]根据所述增强后文本样本的内容增强方式，确定每个增强后文本样本特征对应的损失计...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，包括：获取图文匹配模型和图文样本组，其中，所述图文样本组包括图像样本和文本样本组，所述文本样本组包括和所述图像样本相匹配的文本样本以及通过不同的内容增强方式根据所述文本样本生成的多个增强后文本样本；利用所述图文匹配模型对所述图文样本组进行编码处理，得到所述图像样本对应的图像样本特征、所述文本样本对应的文本样本特征和所述增强后文本样本对应的增强后文本样本特征；根据所述增强后文本样本的内容增强方式，确定每个增强后文本样本特征对应的损失计算方式；根据每个增强后文本样本特征对应的损失计算方式，将所述增强后文本样本特征、所述图像样本特征和所述文本样本特征进行损失计算处理，得到每个增强后文本样本特征对应的样本特征损失信息；根据每个增强后文本样本特征对应的样本特征损失信息对所述图文匹配模型进行模型调整处理，得到目标图文匹配模型。2.根据权利要求1所述的方法，其特征在于，所述图文匹配模型包括文本编码器和图像编码器；所述利用所述图文匹配模型对所述图文样本组进行编码处理，得到所述图像样本对应的图像样本特征、所述文本样本对应的文本样本特征和所述增强后文本样本对应的增强后文本样本特征，包括：利用所述图像编码器对所述图像样本进行编码处理，得到所述图像样本对应的图像样本特征；利用所述文本编码器对所述文本样本和所述增强后文本样本进行编码处理，得到所述文本样本对应的文本样本特征和所述增强后文本样本对应的增强后文本样本特征。3.根据权利要求2所述的方法，其特征在于，所述利用所述图像编码器对所述图像样本进行编码处理，得到所述图像样本对应的图像样本特征，包括：对所述图像样本进行分割处理，得到至少一个图像块样本；根据所述至少一个图像块样本进行序列生成处理，得到图像块序列；对所述图像块序列进行线性投影变换，得到所述图像块序列对应的图像块嵌入向量；利用所述图像编码器对所述图像块嵌入向量进行编码处理，得到所述图像样本对应的图像样本特征。4.根据权利要求3所述的方法，其特征在于，所述利用所述图像编码器对所述图像块嵌入向量进行编码处理，得到所述图像样本对应的图像样本特征，包括：将所述图像样本对应的类别信令嵌入向量添加至所述图像块嵌入向量，得到添加后图像块嵌入向量；将预设位置向量和所述添加后图像块嵌入向量进行融合处理，得到融合后图像块嵌入向量；利用所述图像编码器对所述融合后图像块嵌入向量进行编码处理，得到图像块编码向量；利用所述图像编码器将所述图像块编码向量进行池化处理，得到池化后图像块编码向量；
基于所述类别信令嵌入向量对所述图像块编码向量进行识别处理，得到所述类别信令嵌入向量对应的图像块编码向量；将所述池化后图像块编码向量和所述类别信令嵌入向量对应的图像块编码向量进行融合处理，得到所述图像样本对应的图像样本特征。5.根据权利要求1所述的方法，其特征在于，所述根据每个增强后文本样本特征对应的损失计算方式，将所述增强后文本样本特征、所述图像样本特征和所述文本样本特征进行损失计算处理，得到每个增强后文本样本特征对应的样本特征损失信息，包括：根据所述增强后文本样本特征对应的损失计算方式，在所述图像样本特征和所述文本样本特征中确定所述损失计算方式所需的目标样本特征；根据增强后文本样本特征对应的损失计算方式，将所述目标样本特征和所述增强后文本样本特征进行损失计算处理，得到增强后文本样本特征对应的样本特征损失信息。6.根据权利要求5所述的方法，其特征在于，当所述增强后文本样本特征为遮盖后文本样本特征，所述损失计算方式为全局损失计算方式时，所述目标样本特征包括所述图像样本特征和所述文本样本特征；所述根据增强后文本样本特征对应的损失计算方式，将所述目标样本特征和所述增强后文本样本特征进行损失计算处理，得到增强后文本样本特征对应的样本特征损失信息，包括：根据所述全局损失计算方式，获取所述图文匹配模型对应的图像分类权重和文本分类权重；根据所述全局损失计算方式，将所述图像分类权重和所述图像样本特征进行乘积处理，得到图像分类特征；根据所述全局损失计算方式，分别将所述文本分类权重和所述文本样本特征以及所述遮盖后文本样本特征进行乘积处理，得到所述文本样本特征对应的第一文本分类特征和所述遮盖后文本样本特征对应的第二文本分类特征；根据所述全局损失计算方式将所述图像分类特征、所述第一文本分类特征和所述第二文本分类特征进行非线性组合处理，得到所述增强后文本样本特征对应的样本特征损失信息。7.根据权利要求6所述的方法，其特征在于，所述根据所述全局损失计算方式将所述图像分类特征、所述第一文本分类特征和所述第二文本分类特征进行非线性组合处理，得到所述增强后文本样本特征对应的样本特征损失信息，包括：根据所述全局损失计算方式，分别对所述图像分类特征、所述第一文本分类特征和所述第二文本分类特征进行非线性转换处理，得到图像非线性特征、第一文本非线性特征和第二文本非线性特征；根据所述全局损失计算方式，分别对所述图像非线性特征、所述第一文本非线性特征和所述第二文本非线性特征进行损失计算处理，得到图像全局损失信息、第一文本损失信息和第二文本损失信息；根据所述全局损失计算方式，分别对所述图像全局损失信息、第一文本损失信息和第二文本损失信息进行归一化处理，得到归一化后图像全局损失信息、归一化后第一...

【专利技术属性】
技术研发人员：王冠朔，俞福福，贾琼，李俊杰，代苗苗，丁守鸿，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人