模型训练方法、图像描述生成方法、装置及存储介质制造方法及图纸

技术编号:34343223 阅读:34 留言:0更新日期:2022-07-31 04:18
本发明专利技术涉及人工智能技术,提供了一种模型训练方法、图像描述生成方法、装置及存储介质,该方法包括:获取训练图像;将训练图像输入已训练的目标检测模型,输出多个目标对象、目标类别标签、以及置信度;基于置信度,对各个目标类别标签进行排序,并根据排序后的目标类别标签和预设的数量阈值确定关键标签;根据关键标签构造有限状态自动机,并输出关键描述词序列;基于集束搜索算法,根据关键描述词序列确定伪图像描述;将训练图像和伪图像描述作为训练数据,对图像描述生成模型进行训练。根据本发明专利技术实施例提供的方案,通过生成伪图像描述,避免进行大量的人工标注,从而降低人工成本,并且避免描述词缺失,从而提高预测语句的准确性。性。性。

Model training method, image description generation method, device and storage medium

【技术实现步骤摘要】
模型训练方法、图像描述生成方法、装置及存储介质


[0001]本专利技术涉及但不限于人工智能
,尤其涉及一种模型训练方法、图像描述生成方法、装置及存储介质。

技术介绍

[0002]图像描述生成(Image Captioning)作为结合自然语言处理(Natural Language Processing,NLP)和计算机视觉(Computer Version,CV)领域的综合研究方向,已取得很多进展以及应用,图像描述生成是近年来人工智能界提出的一个机器终极智能任务,它的任务是将于一张给定图像,用自然语言对图像客观内容进行描述。随着计算机视觉技术的发展,完成目标检测、识别、分割等任务已经不能满足人们的生产需求,对如何自动客观的对图像内容自动描述有迫切的需求;和目标检测及语义分割等任务不同,图像描述生成要将图像中的物体、属性、物体间的关系以及相应的场景等用自动语言进行整体而客观的描述,该任务是计算机视觉理解的重要方向之一,被视为人工智能的一个重要标志。
[0003]目前,利用现有的图像描述数据集训练图像描述生成模型时,相对于图像分类数据集和目标检测数据集,图像描述数据集较小,为了保证预测的准确性,需要进行大量的人工标注来标注图像描述,导致人工成本过高;另外,由于图像描述数据集较小,使用训练得到的图像描述生成模型进行图像描述生成时,会出现部分描述词缺失的情况,导致预测语句的准确性较差。

技术实现思路

[0004]以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
[0005]本专利技术实施例提供了一种模型训练方法、图像描述生成方法、装置及存储介质,通过生成伪图像描述,避免进行大量的人工标注,从而降低人工成本,并且避免描述词缺失,从而提高预测语句的准确性。
[0006]第一方面,本专利技术实施例提供了一种图像描述生成模型训练方法,包括:获取训练图像;将所述训练图像输入已训练的目标检测模型,以使所述目标检测模型基于所述训练图像输出多个目标对象、各个所述目标对象对应的目标类别标签、以及所述目标类别标签对应的置信度;基于所述置信度,对各个所述目标类别标签进行排序,并根据所述排序后的目标类别标签和预设的数量阈值确定关键标签;根据所述关键标签构造有限状态自动机,并通过所述有限状态自动机输出与所述关键标签对应的关键描述词序列;基于集束搜索算法,根据所述关键描述词序列确定伪图像描述;将所述训练图像和所述伪图像描述作为训练数据,对所述图像描述生成模型进行训练,以更新所述图像描述生成模型的模型参数。
[0007]在一些实施例中,所述图像描述生成模型包括编码器和解码器;所述将所述训练图像和所述伪图像描述作为训练数据,对所述图像描述生成模型进行训练,以更新所述图像描述生成模型的模型参数,包括:将所述训练图像输入所述编码器,确定图像编码特征;
将所述图像编码特征输入所述解码器,得到预测语句,其中,所述预测语句由至少一个预测词组成;根据所述预测词和所述伪图像描述确定模型损失值;基于所述模型损失值,更新所述图像描述生成模型的模型参数。
[0008]在一些实施例中,所述编码器包括特征提取模块和多个叠加的编码层,每个所述编码层包括多头自注意子层;所述将所述训练图像输入所述编码器,确定图像编码特征,包括:将所述训练图像输入已训练的所述特征提取模块,得到图像特征向量;将所述图像特征向量输入多头自注意子层,得到图像自注意特征向量;对所述图像自注意特征向量进行线性变换处理和正则化处理,确定图像编码特征。
[0009]在一些实施例中,所述多头自注意子层包含H个平行头,第个所述编码层的多头自注意子层的输出图像自注意特征向量为:,其中,所述为第个所述编码层的多头自注意子层输出的图像自注意特征向量,MHA( )为多头自注意子层,Q为预设的查询矩阵,K为预设的关键矩阵,V为预设的价值矩阵,Concat( )为串联拼接函数,为预设的点乘权重,为第个所述编码层的多头自注意子层的第1个平行头的缩放点积注意函数,为第个所述编码层的多头自注意子层的第H个平行头的缩放点积注意函数。
[0010]在一些实施例中,所述缩放点积注意函数通过如下步骤确定:对所述训练图像进行区域划分,得到多个子区域;对所述子区域进行关系确定处理,得到先验知识;基于随机梯度下降算法,对所述先验知识进行处理,得到可学习关键矩阵和可学习价值矩阵;基于预设的注意力函数,根据所述图像特征向量、所述可学习关键矩阵和所述可学习价值矩阵,确定所述缩放点积注意函数;其中,所述缩放点积注意函数的公式为:,其中,为所述缩放点积注意函数,Attention( )为所述注意力函数,,,,,,,、和均为预设的可学习权重矩阵,为所述可学习关键矩阵,为所述可学习价值矩阵,X为所述图像特征向量,R为实数域,d为所述图像特征向量的维度,H为所述多头自注意子层的平行头的个数。
[0011]在一些实施例中,所述解码器包括多个叠加的解码层,每个所述解码层包括掩码模块和多头注意力模块;所述将所述图像编码特征输入所述解码器,得到预测语句,包括:基于所述掩码模块和多头注意力模块,在n个时间步上对所述图像编码特征进行处理,得到所述n个时间步对应的预测词;根据所述预测词得到预测语句;其中,所述多头注意力模块在第t个时间步上的输入包括所述第t个时间步上的图像编码特征、以及第t

1个时间步上的掩码词向量;所述第t

1个时间步上的掩码词向量是对所述解码器在第t

1个时间步上的输出结果进行向量提取,并输入所述掩码模块而得到;所述解码器在第t

1个时间步上的输出结果用于指示所述第t

1个时间步对应的预测词;所述第t个时间步是所述n个时间步中的任意一个;1≤t≤n,且t、n均为正整数。
[0012]第二方面,本专利技术还提供了一种图像描述生成方法,包括:获取目标图像;将所述目标图像输入图像描述生成模型,得到预测语句,其中,所述图像描述生成模型如上第一方面所述的图像描述生成模型训练方法训练得到。
[0013]第三方面,本专利技术还提供了一种图像描述生成装置,包括:获取单元,用于获取目标图像;描述生成单元,用于将所述目标图像输入图像描述生成模型,得到预测语句,其中,所述图像描述生成模型如上第一方面所述的图像描述生成模型训练方法训练得到。
[0014]第四方面,本专利技术实施例还提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的图像描述生成模型训练方法。
[0015]第五方面,本专利技术实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如第一方面所述的图像描述生成模型训练方法,或者如上第二方面所述的图像描述生成方法。
[0016]本专利技术实施例包括:获取训练图像;将所述训练图像输入已训练的目标检测模型,以使所述目标检测模型基于所述训练图像输出多个目标对象、各个所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像描述生成模型训练方法,其特征在于,所述方法包括:获取训练图像;将所述训练图像输入已训练的目标检测模型,以使所述目标检测模型基于所述训练图像输出多个目标对象、各个所述目标对象对应的目标类别标签、以及所述目标类别标签对应的置信度;基于所述置信度,对各个所述目标类别标签进行排序,并根据所述排序后的目标类别标签和预设的数量阈值确定关键标签;根据所述关键标签构造有限状态自动机,并通过所述有限状态自动机输出与所述关键标签对应的关键描述词序列;基于集束搜索算法,根据所述关键描述词序列确定伪图像描述;将所述训练图像和所述伪图像描述作为训练数据,对所述图像描述生成模型进行训练,以更新所述图像描述生成模型的模型参数。2.根据权利要求1所述的方法,其特征在于,所述图像描述生成模型包括编码器和解码器;所述将所述训练图像和所述伪图像描述作为训练数据,对所述图像描述生成模型进行训练,以更新所述图像描述生成模型的模型参数,包括:将所述训练图像输入所述编码器,确定图像编码特征;将所述图像编码特征输入所述解码器,得到预测语句,其中,所述预测语句由至少一个预测词组成;根据所述预测词和所述伪图像描述确定模型损失值;基于所述模型损失值,更新所述图像描述生成模型的模型参数。3.根据权利要求2所述的方法,其特征在于,所述编码器包括特征提取模块和多个叠加的编码层,每个所述编码层包括多头自注意子层;所述将所述训练图像输入所述编码器,确定图像编码特征,包括:将所述训练图像输入已训练的所述特征提取模块,得到图像特征向量;将所述图像特征向量输入多头自注意子层,得到图像自注意特征向量;对所述图像自注意特征向量进行线性变换处理和正则化处理,确定图像编码特征。4.根据权利要求3所述的方法,其特征在于,所述多头自注意子层包含H个平行头,第个所述编码层的多头自注意子层的输出图像自注意特征向量为:,其中,所述为第个所述编码层的多头自注意子层输出的图像自注意特征向量,MHA( )为多头自注意子层,Q为预设的查询矩阵,K为预设的关键矩阵,V为预设的价值矩阵,Concat( )为串联拼接函数,为预设的点乘权重,为第个所述编码层的多头自注意子层的第1个平行头的缩放点积注意函数,为第个所述编码层的多头自注意子层的第H个平行头的缩放点积注意函数。5.根据权利要求4所述的方法,其特征在于,所述缩放点积注意函数通过如下步骤确定:对所述训练图像进行区域划分,得到多个子区域;
对所述子区域进行关系确定处理,得到先验知识;基于随机梯度下降算法,对所述先验知识进行处...

【专利技术属性】
技术研发人员:舒畅陈又新肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1