模型训练方法、图像描述生成方法、装置及存储介质制造方法及图纸

技术编号：34343223 阅读：34 留言：0更新日期：2022-07-31 04:18

本发明专利技术涉及人工智能技术，提供了一种模型训练方法、图像描述生成方法、装置及存储介质，该方法包括：获取训练图像；将训练图像输入已训练的目标检测模型，输出多个目标对象、目标类别标签、以及置信度；基于置信度，对各个目标类别标签进行排序，并根据排序后的目标类别标签和预设的数量阈值确定关键标签；根据关键标签构造有限状态自动机，并输出关键描述词序列；基于集束搜索算法，根据关键描述词序列确定伪图像描述；将训练图像和伪图像描述作为训练数据，对图像描述生成模型进行训练。根据本发明专利技术实施例提供的方案，通过生成伪图像描述，避免进行大量的人工标注，从而降低人工成本，并且避免描述词缺失，从而提高预测语句的准确性。性。性。

Model training method, image description generation method, device and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、图像描述生成方法、装置及存储介质

[0001]本专利技术涉及但不限于人工智能
，尤其涉及一种模型训练方法、图像描述生成方法、装置及存储介质。

技术介绍

[0002]图像描述生成(Image Captioning)作为结合自然语言处理(Natural Language Processing，NLP)和计算机视觉(Computer Version，CV)领域的综合研究方向，已取得很多进展以及应用，图像描述生成是近年来人工智能界提出的一个机器终极智能任务，它的任务是将于一张给定图像，用自然语言对图像客观内容进行描述。随着计算机视觉技术的发展，完成目标检测、识别、分割等任务已经不能满足人们的生产需求，对如何自动客观的对图像内容自动描述有迫切的需求；和目标检测及语义分割等任务不同，图像描述生成要将图像中的物体、属性、物体间的关系以及相应的场景等用自动语言进行整体而客观的描述，该任务是计算机视觉理解的重要方向之一，被视为人工智能的一个重要标志。
[0003]目前，利用现有的图像描述数据集训练图像描述生成模型时，相对于图像分类数据集和目标检测数据集，图像描述数据集较小，为了保证预测的准确性，需要进行大量的人工标注来标注图像描述，导致人工成本过高；另外，由于图像描述数据集较小，使用训练得到的图像描述生成模型进行图像描述生成时，会出现部分描述词缺失的情况，导致预测语句的准确性较差。

技术实现思路

[0004]以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
...

【技术保护点】

【技术特征摘要】
1.一种图像描述生成模型训练方法，其特征在于，所述方法包括：获取训练图像；将所述训练图像输入已训练的目标检测模型，以使所述目标检测模型基于所述训练图像输出多个目标对象、各个所述目标对象对应的目标类别标签、以及所述目标类别标签对应的置信度；基于所述置信度，对各个所述目标类别标签进行排序，并根据所述排序后的目标类别标签和预设的数量阈值确定关键标签；根据所述关键标签构造有限状态自动机，并通过所述有限状态自动机输出与所述关键标签对应的关键描述词序列；基于集束搜索算法，根据所述关键描述词序列确定伪图像描述；将所述训练图像和所述伪图像描述作为训练数据，对所述图像描述生成模型进行训练，以更新所述图像描述生成模型的模型参数。2.根据权利要求1所述的方法，其特征在于，所述图像描述生成模型包括编码器和解码器；所述将所述训练图像和所述伪图像描述作为训练数据，对所述图像描述生成模型进行训练，以更新所述图像描述生成模型的模型参数，包括：将所述训练图像输入所述编码器，确定图像编码特征；将所述图像编码特征输入所述解码器，得到预测语句，其中，所述预测语句由至少一个预测词组成；根据所述预测词和所述伪图像描述确定模型损失值；基于所述模型损失值，更新所述图像描述生成模型的模型参数。3.根据权利要求2所述的方法，其特征在于，所述编码器包括特征提取模块和多个叠加的编码层，每个所述编码层包括多头自注意子层；所述将所述训练图像输入所述编码器，确定图像编码特征，包括：将所述训练图像输入已训练的所述特征提取模块，得到图像特征向量；将所述图像特征向量输入多头自注意子层，得到图像自注意特征向量；对所述图像自注意特征向量进行线性变换处理和正则化处理，确定图像编码特征。4.根据权利要求3所述的方法，其特征在于，所述多头自注意子层包含H个平行头，第个所述编码层的多头自注意子层的输出图像自注意特征向量为：，其中，所述为第个所述编码层的多头自注意子层输出的图像自注意特征向量，MHA( )为多头自注意子层，Q为预设的查询矩阵，K为预设的关键矩阵，V为预设的价值矩阵，Concat( )为串联拼接函数，为预设的点乘权重，为第个所述编码层的多头自注意子层的第1个平行头的缩放点积注意函数，为第个所述编码层的多头自注意子层的第H个平行头的缩放点积注意函数。5.根据权利要求4所述的方法，其特征在于，所述缩放点积注意函数通过如下步骤确定：对所述训练图像进行区域划分，得到多个子区域；
对所述子区域进行关系确定处理，得到先验知识；基于随机梯度下降算法，对所述先验知识进行处...

【专利技术属性】
技术研发人员：舒畅，陈又新，肖京，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人