【技术实现步骤摘要】
一种基于视觉嵌入和条件归一化的图像描述方法
本专利技术涉及图像字幕生成方法,具体来讲是一种基于视觉嵌入和条件归一化的图像描述方法,属于图像字幕生成
技术介绍
图像描述是计算机视觉和自然语言处理的综合性任务,这个任务是具有挑战性的。它要准确的找到图像中显著性的物体,物体的属性,物体之间的关系以及所处场景,并使用自然语言正确的进行描述。得益于深度学习的快速发展,图像描述任务取得了优秀的成果,在一些评价指标上甚至超过了人类。近年来,transformer模型使用全注意力机制的结构代替了LSTM应用在翻译任务中。针对图像-文本,语音-文本等研究也越来越多,具体应用上包括了图像字幕,视频字幕,图像问答,视频问答等。相对于传统编码-解码过程,transformer模型在这些任务上的成果是优秀的。该模型的输入序列包括了来自文本的单词、图像的感兴趣区域以及消除不同模态数据的特定元素。在输入操作之前,通过注意力机制将视觉-语言进行聚合、对齐是常见的操作。但是,最终任务需要的视觉信息和文本信息应该在模型学习整个过程起作用,而不 ...
【技术保护点】
1.一种基于视觉嵌入和条件归一化的图像描述方法,其特征在于包括以下步骤:/n步骤(1)使用目标检测方法Faster RCNN对图像进行目标检测,将目标检测结果作为图像的关键词集合,将关键词集合和MSCOCO中图像的文本序列组成输入序列,构建关键词嵌入模块KEM;/n步骤(2)使用预训练的图像特征提取模型ResNet对图像进行特征提取,将所提取的特征进行编码,将编码结果通过条件嵌入的方式输入到预训练语言模型;该步骤中所提到的操作被称为视觉嵌入模块VEM;/n步骤(3)使用transformer模型作为基干网络,LN层已有现成的、无条件的g和b,且g和b用于对特征施加增益和偏置 ...
【技术特征摘要】
1.一种基于视觉嵌入和条件归一化的图像描述方法,其特征在于包括以下步骤:
步骤(1)使用目标检测方法FasterRCNN对图像进行目标检测,将目标检测结果作为图像的关键词集合,将关键词集合和MSCOCO中图像的文本序列组成输入序列,构建关键词嵌入模块KEM;
步骤(2)使用预训练的图像特征提取模型ResNet对图像进行特征提取,将所提取的特征进行编码,将编码结果通过条件嵌入的方式输入到预训练语言模型;该步骤中所提到的操作被称为视觉嵌入模块VEM;
步骤(3)使用transformer模型作为基干网络,LN层已有现成的、无条件的g和b,且g和b用于对特征施加增益和偏置操作时,都是固定长度的向量;通过视觉嵌入网络VEM将图像编码为g′,b′;g′,b′跟g,b具有相同的维度,将VEM的编码结果g′,b′分别加到g和b上去,构建条件归一化层LN;
步骤(4)将KEM和VEM的编码结果分别作为transformer模型的序列输入和条件嵌入,用条件归一化的LN替换transformer中所有的LN层,构建V-CLTM模型;
步骤(5)对V-CLTM模型在MSCOCO数据集上进行训练,挑选最优训练模型;将图片输入训练好的V-CLTM模型,输出对应的图像字幕。
2.根据权利要求1所述的一种基于视觉嵌入和条件归一化的图像描述方法,其特征在于所述步骤(1)具体实现过程如下:
1-1使用在VisualGenome数据集上预训练的FasterRCNN对图像进行目标提取;FasterRCNN能够获得目标类别以及相应目标在图像中的区域;为了用于图像标题生成任务,取模型最终类别输出并得到关键词集合W={w1,w2,...,ws};其中,ws是通过目标检测算法对图像提取的类别如公式(1)所示;
W=FasterRCNN(I)(1)
1-2获取关键词集W后,将W中的关键词和特殊字符组合成序列S;三个特殊标记分别为:[CLS]、[SEP]和[STOP];其中,[CLS]放在第一个关键字之前,[SEP]用于分开两个输入句子,[STOP]放在句子结束,表示句子结束;
1-3训练阶段序列S和MSCOCO数据集中图像描述的序列S′进行组合成最终输入序列若N为输入序列的最终序列长度,则的维度为768*N。
3.根据权利要求2所述的一种基于视觉嵌入和条件归一化的图像描述方法,其特征在于所述步骤(2)具体实现过程如下:
2-1基干网络使用在ImageNet上预训练的ResNet模型,获得对应图像I的图像特征Iresnet,其维度为2048维,如公式(2)所示;
Iresnet=R...
【专利技术属性】
技术研发人员:张旻,李鹏飞,林培捷,汤景凡,姜明,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。