【技术实现步骤摘要】
一种基于主题适应与原型编码的少样本视觉故事叙述方法
本专利技术涉及视觉语言,尤其涉及一种基于主题适应与原型编码的少样本视觉故事叙述方法。
技术介绍
视觉语言(VisionandLanguage)是一门计算机视觉与自然语言处理为一体的交叉学科。随着深度学习技术在两大领域带来重大突破,图像摘要,图像问答,图像检索等跨模态任务产生了令人深刻的结果。近来,研究者们更进一步,开始探索根据图像序列生成叙述性故事的视觉故事叙述任务(VisualStorytelling)。在视觉故事叙述任务中,给定一个具有上下文联系的图像序列,要求模型输出一段具有叙述性风格的自然语言描述的故事。视觉故事叙述任务的任务特点要求模型不仅能够正确识别图像中的物体及其属性,还应当充分理解多幅图像之间的关联,从时间和空间的角度挖掘图像序列中的隐含信息,并根据视觉内容的变化进行适当的推断,最终生成连贯通顺的叙述性故事。视觉故事叙述技术可以为用户拍摄的图像序列产生描述,以便快速的分享到社交媒体,或用于日后检索。作为更加复杂的跨模态任务,视觉故事叙述也可以反映智能体理解图像序列和组织自然语言的能力的水平。目前主流的视觉故事叙述模型受图像摘要模型启发,采用层次性的编码器-解码器架构,基于监督学习方式训练。许多先前工作都集中在设计复杂的模型结构上,这些模型通常需要大量的人工注释数据。但是,视觉故事叙述任务的标注既昂贵又复杂,因此无法注释大量的新数据,这一点成为监督学习方法的瓶颈。另一方面,以前的主题模型相关工作研究表明,现实世界中的主题通常遵循长尾分布 ...
【技术保护点】
1.一种基于主题适应与原型编码的少样本视觉故事叙述方法,其特征在于,包括如下步骤:/nS1:将视觉故事数据集按主题划分,每一轮训练采样一批主题并将每个主题划分为支持集与查询集;/nS2:将训练所用的支持集中的视觉故事样本中的故事文本与图像序列分别编码为故事特征和图像序列特征,存储备用;/nS3:对查询阶段的图像序列提取时序视觉语义特征和图像序列特征,结合S2中所述支持集的故事特征和图像序列特征,计算得到原型向量;/nS4:通过带有注意力机制的故事解码器,将S3中得到的图像序列特征和原型向量的组合特征解码为故事性描述文本;/nS5:通过元学习方法,利用以S2~S4为框架构建的视觉故事叙述模型在查询集上的综合损失来优化视觉故事叙述模型的初始参数;/nS6:在推测阶段,根据新主题的支持集进行少样本学习以调整视觉故事叙述模型参数,再使用调整过参数的视觉故事叙述模型为查询集中的样本生成故事性描述文本。/n
【技术特征摘要】
1.一种基于主题适应与原型编码的少样本视觉故事叙述方法,其特征在于,包括如下步骤:
S1:将视觉故事数据集按主题划分,每一轮训练采样一批主题并将每个主题划分为支持集与查询集;
S2:将训练所用的支持集中的视觉故事样本中的故事文本与图像序列分别编码为故事特征和图像序列特征,存储备用;
S3:对查询阶段的图像序列提取时序视觉语义特征和图像序列特征,结合S2中所述支持集的故事特征和图像序列特征,计算得到原型向量;
S4:通过带有注意力机制的故事解码器,将S3中得到的图像序列特征和原型向量的组合特征解码为故事性描述文本;
S5:通过元学习方法,利用以S2~S4为框架构建的视觉故事叙述模型在查询集上的综合损失来优化视觉故事叙述模型的初始参数;
S6:在推测阶段,根据新主题的支持集进行少样本学习以调整视觉故事叙述模型参数,再使用调整过参数的视觉故事叙述模型为查询集中的样本生成故事性描述文本。
2.根据权利要求1所述的一种基于主题适应与原型编码的少样本视觉故事叙述方法,其特征在于,所述S1的具体方法如下:
S11:将视觉故事数据集按主题划分,每一轮训练采样N个主题,并从每个主题中采样2K个视觉故事样本,其中K个作为支持集用于少样本训练,剩余K个作为查询集用于验证少样本学习效果。
3.根据权利要求2所述的一种基于主题适应与原型编码的少样本视觉故事叙述方法,其特征在于,所述S2的具体子步骤如下:
S21:使用基于门控循环单元的文本编码器对支持集中所有样本经过单词嵌入层后的故事文本抽取故事特征Sspt={s1,…,sK};
S22:利用卷积神经网络和视觉语义编码器对支持集中所有图像序列抽取图像序列特征,得到图像序列特征集合,每个图像序列特征表征一个图像序列的语义信息。
4.根据权利要求3所述的一种基于主题适应与原型编码的少样本视觉故事叙述方法,其特征在于,所述S22中,对于支持集中的每一个图像序列Ai={a1,…,am},aj表示第j张图像,m为图像序列长度,卷积神经网络抽取该图像序列中每一张图像aj的特征为fj,得到图像序列对应的图像特征的集合FI={f1,…,fm},并将集合FI中每个特征按顺序送入基于门控循环单元的视觉语义编码器中,得到图像序列的时序视觉语义特征V={v1,…,vm},其中vj表示处理支持集时门控循环单元第j时刻的隐状态,取门控循环单元最后时刻的视觉语义特征vm作为表征该图像序列的图像序列特征。
5.根据权利要求4所述的一种基于主题适应与原型编码的少样本视觉故事叙述方法,其特征在于,所述S3的具体子步骤如下:
S31:对于查询集中的每个样本,使用与S2中相同的卷积神经网络和视觉语义编码器提取样本中的图像序列的时序视觉语义特征Vqry={v'1,…,v'm},其中v'j表示处理查询集时门控循环单元第j时刻的隐状态,取门控循环单元最后时刻的视觉语义特征v'm作为表征该图像序列的图像序列特征;
S32...
【专利技术属性】
技术研发人员:庄越挺,浦世亮,汤斯亮,李嘉成,吴飞,肖俊,李玺,张世峰,任文奇,陆展鸿,
申请(专利权)人:浙江大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。