【技术实现步骤摘要】
一种基于混合样本与标签的数据增强的图像描述方法
[0001]本专利技术涉及人工智能领域中的图像自动描述,特别是涉及图片用自然语言对图像客观内容进行描述的一种基于混合样本与标签的数据增强的图像描述方法。
技术介绍
[0002]随着计算机视觉技术的发展,完成目标检测、识别、分割等任务已经不能满足人们的生产需求,对如何自动客观的对图像内容自动描述有迫切的需求。图像自动描述(Image Captioning)是近年来人工智能界提出的一个机器终极智能任务,它的任务是用自然语言描述图像的视觉内容。它的主要挑战不仅在于充分理解图像中的对象和关系,还在于生成与视觉语义相匹配的流利句子。和目标检测及语义分割等任务不同,图像自动描述要将图像中的物体、属性、物体间的关系以及相应的场景等用自动语言进行整体而客观的描述,该任务是计算机视觉理解的重要方向之一,被视为人工智能的一个重要标志。
[0003]较早的图像自动描述方法主要采用基于模板的方法和基于检索的方法实现。近年来受自然语言处理发展的影响,开始使用基于编码器
‑
解码器 ...
【技术保护点】
【技术特征摘要】
1.一种基于混合样本与标签的数据增强的图像描述方法,其特征在于包括以下步骤:1)采用目标检测器随机提取待描述图像的若干个候选区和各个候选区对应的特征V={v1,v2,...,v
N
},其中,a
i
∈R
d
,i=1,2,...,N,d为各个特征向量的维度,N为候选区的数量;2)采用随机种子生成器对每个批次的输入生成一个服从beta分布的权值λ;3)将输入的批次中的数据的顺序打乱,将原序数据和乱序数据按照权值λ和(1
‑
λ)进行线性混合;包括图像特征的混合和语句词嵌入的混合;4)将步骤3)的混合输入送入到解码器中,生成图像的描述语句,并分别与被混合的两个图像对应的两个标签语句进行损失值计算,将损失值按照权值λ和(1
‑
λ)进行混合得到最终的损失值,用此损失值训练更新网络参数,实现数据增强。2.如权利要求1所述一种基于混合样本与标签的数据增强的图像描述方法,其特征在于在步骤1)中,所述目标检测器的训练方法是:目标检测器采用Faster
‑
RCNN框架,其骨架网络是深度卷积残差网络,首先采用端到端的方法在经典目标检测数据集PASCAL VOC2007中进行训练,然后在多模态数据集Visual Genome上进一步训练微调网络参数。3.如权利要求1所述一种基于混合样本与标签的数据增强的图像描述方法,其特征在于在步骤2)中,所述权值λ产生方法是:使用numpy库中的random.beta方法为每个批次的输入数据生成服从beta分布的权值λ,其中,beta分布的参数为(0.5,0.5)。4.如权利要求1所述一种基于混合样本与标签的数据增强的图像描述方法,其特征在在步骤3)中,所述图像特征的混合和语句词嵌入的混合的具体过程为:对于每一个批次输入的图像特征V,先将其随机打乱顺序得到V
s
,然后将V与V
s
按照权值λ进行线性混合得到混合图像特征即:即:其中,v和v
s
是V和V
s
中对应位置被混合的两个图像,n是这两个图像的第n个特征;对于每一个批次输入的语句,首先对训练集中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,对于得到的若干单词,剔除数据集描述中出现次数小于阈值的单词,使用“<UNK>”进行替代;最后,句子的开头和结尾分别加入开始符“<BOS>”和结束符“<END>”;然后将这一批次的句子长度统...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。