当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于主题适应与原型编码的少样本视觉故事叙述方法技术

技术编号:25756424 阅读:120 留言:0更新日期:2020-09-25 21:05
本发明专利技术公开了一种基于主题适应与原型编码的少样本视觉故事叙述方法。该方法首先将据集按主题划分,每一轮训练采样一批主题并将每个主题划分为支持集与查询集;对查询集中的样本提取时序视觉语义特征和图像序列特征,结合在支持集中预先提取好的的故事特征和图像序列特征计算原型向量;再将原型向量与图像序列特征结合,进一步解码获得故事性描述文本。整体视觉故事模型进一步通过元学习方法,根据在查询集上计算得到的综合损失来优化模型的初始参数。在推测阶段,模型通过少数样本调整参数,根据新图像序列生成故事文本。本发明专利技术结合原型编码及元学习方法,所构建的模型具有快速适应主题的能力,能更好地生成符合图像序列主题的故事性文本描述。

【技术实现步骤摘要】
一种基于主题适应与原型编码的少样本视觉故事叙述方法
本专利技术涉及视觉语言,尤其涉及一种基于主题适应与原型编码的少样本视觉故事叙述方法。
技术介绍
视觉语言(VisionandLanguage)是一门计算机视觉与自然语言处理为一体的交叉学科。随着深度学习技术在两大领域带来重大突破,图像摘要,图像问答,图像检索等跨模态任务产生了令人深刻的结果。近来,研究者们更进一步,开始探索根据图像序列生成叙述性故事的视觉故事叙述任务(VisualStorytelling)。在视觉故事叙述任务中,给定一个具有上下文联系的图像序列,要求模型输出一段具有叙述性风格的自然语言描述的故事。视觉故事叙述任务的任务特点要求模型不仅能够正确识别图像中的物体及其属性,还应当充分理解多幅图像之间的关联,从时间和空间的角度挖掘图像序列中的隐含信息,并根据视觉内容的变化进行适当的推断,最终生成连贯通顺的叙述性故事。视觉故事叙述技术可以为用户拍摄的图像序列产生描述,以便快速的分享到社交媒体,或用于日后检索。作为更加复杂的跨模态任务,视觉故事叙述也可以反映智能体理解图像序列和组织自然语言的能力的水平。目前主流的视觉故事叙述模型受图像摘要模型启发,采用层次性的编码器-解码器架构,基于监督学习方式训练。许多先前工作都集中在设计复杂的模型结构上,这些模型通常需要大量的人工注释数据。但是,视觉故事叙述任务的标注既昂贵又复杂,因此无法注释大量的新数据,这一点成为监督学习方法的瓶颈。另一方面,以前的主题模型相关工作研究表明,现实世界中的主题通常遵循长尾分布,这意味着实际应用场景中有许多训练数据集中没有涵盖到的新主题,并且这些新主题的样本数量稀少。因此,传统监督模型不适合样本稀少的新主题,考虑少样本情景下的视觉故事叙述,则更加贴近现实生活中的应用场景。
技术实现思路
本专利技术的目的是针对视觉故事叙述任务中主题呈长尾分布,新主题样本数量稀少不适合传统监督模型的问题,提出了一种基于主题适应与原型编码的少样本视觉故事叙述方法。为了实现上述专利技术目的,本专利技术具体采用的技术方案如下:一种基于主题适应与原型编码的少样本视觉故事叙述方法,其包括如下步骤:S1:将视觉故事数据集按主题划分,每一轮训练采样一批主题并将每个主题划分为支持集与查询集;S2:将训练所用的支持集中的视觉故事样本中的故事文本与图像序列分别编码为故事特征和图像序列特征,存储备用;S3:对查询阶段的图像序列提取时序视觉语义特征和图像序列特征,结合S2中所述支持集的故事特征和图像序列特征,计算得到原型向量;S4:通过带有注意力机制的故事解码器,将S3中得到的图像序列特征和原型向量的组合特征解码为故事性描述文本;S5:通过元学习方法,利用以S2~S4为框架构建的视觉故事叙述模型在查询集上的综合损失来优化视觉故事叙述模型的初始参数;S6:在推测阶段,根据新主题的支持集进行少样本学习以调整视觉故事叙述模型参数,再使用调整过参数的视觉故事叙述模型为查询集中的样本生成故事性描述文本。基于上述技术方案,本专利技术的各步骤还可以进一步采用如下具体方式实现。优选的,所述S1的具体方法如下:S11:将视觉故事数据集按主题划分,每一轮训练采样N个主题,并从每个主题中采样2K个视觉故事样本,其中K个作为支持集用于少样本训练,剩余K个作为查询集用于验证少样本学习效果。优选的,所述S2的具体子步骤如下:S21:使用基于门控循环单元的文本编码器对支持集中所有样本经过单词嵌入层后的故事文本抽取故事特征Sspt={s1,…,sK};S22:利用卷积神经网络和视觉语义编码器对支持集中所有图像序列抽取图像序列特征,得到图像序列特征集合,每个图像序列特征表征一个图像序列的语义信息。进一步的,所述S22中,对于支持集中的每一个图像序列Ai={a1,…,am},aj表示第j张图像,m为图像序列长度,卷积神经网络抽取该图像序列中每一张图像aj的特征为fj,得到图像序列对应的图像特征的集合FI={f1,…,fm},并将集合FI中每个特征按顺序送入基于门控循环单元的视觉语义编码器中,得到图像序列的时序视觉语义特征V={v1,…,vm},其中vj表示处理支持集时门控循环单元第j时刻的隐状态,取门控循环单元最后时刻的视觉语义特征vm作为表征该图像序列的图像序列特征。进一步的,所述S3的具体子步骤如下:S31:对于查询集中的每个样本,使用与S2中相同的卷积神经网络和视觉语义编码器提取样本中的图像序列的时序视觉语义特征Vqry={v'1,…,v'm},其中v'j表示处理查询集时门控循环单元第j时刻的隐状态,取门控循环单元最后时刻的视觉语义特征v'm作为表征该图像序列的图像序列特征;S32:通过注意力机制,结合S2中所述支持集的故事特征和图像序列特征,进一步计算故事原型向量:其中,proto∈R1×dk表示原型向量,dk表示特征的维度数,softmax(·)表示softmax函数,的上标T表示转置。进一步的,所述S4的具体子步骤如下:S41:将所述原型向量与图像序列特征拼接,用于初始化故事解码器的门控循环单元的隐层状态h0;S42:根据门控循环单元上一时刻的隐层状态ht-1和上一时刻预测的单词w,预测当前时刻t的隐层状态ht;S43:通过注意力机制,计算t时刻的视觉上下文特征:其中,ct表示t时刻的视觉上下文特征;S43:利用t时刻的视觉上下文特征和门控循环单元隐层状态来预测t时刻的单词概率分布:其中,pwt表示预测的t时刻的单词概率分布,Wproj∈R2dk×dk和bproj∈R1×dk分别是通过学习得到的映射矩阵和偏置系数。进一步的,所述S5的具体子步骤如下:S51:以S2~S4为框架构建视觉故事叙述模型,对于S11中采样的N个主题中的每一个主题,使用梯度下降方法调整参数,得到每个主题对应的一套针对本主题调整后的模型参数;S52:通过最小化N个主题在查询集上的综合损失,进一步优化模型的初始参数θ。进一步的,所述S51中,使用梯度下降方法计算调整后的模型参数的公式如下:其中,θi'表示初始参数在第i个主题上经调整后获得的新参数,θ表示模型初始参数,fθ表示在初始参数θ下的模型,为第i个主题上计算得到的模型损失,该损失通过计算单词分布与真实分布的交叉熵获得,α为更新参数的学习率,表示对参数θ求导;所述S52中,进一步优化模型的初始参数θ所采用的综合损失函数为:其中,E[·]表示求期望,为所有主题的分布,表示主题从所有主题中采样而来。进一步的,所述S6的具体子步骤如下:S61:在模型推测阶段,使用S51所述的梯度下降方法,根据新的主题的支持集调整参数,使视觉故本文档来自技高网
...

【技术保护点】
1.一种基于主题适应与原型编码的少样本视觉故事叙述方法,其特征在于,包括如下步骤:/nS1:将视觉故事数据集按主题划分,每一轮训练采样一批主题并将每个主题划分为支持集与查询集;/nS2:将训练所用的支持集中的视觉故事样本中的故事文本与图像序列分别编码为故事特征和图像序列特征,存储备用;/nS3:对查询阶段的图像序列提取时序视觉语义特征和图像序列特征,结合S2中所述支持集的故事特征和图像序列特征,计算得到原型向量;/nS4:通过带有注意力机制的故事解码器,将S3中得到的图像序列特征和原型向量的组合特征解码为故事性描述文本;/nS5:通过元学习方法,利用以S2~S4为框架构建的视觉故事叙述模型在查询集上的综合损失来优化视觉故事叙述模型的初始参数;/nS6:在推测阶段,根据新主题的支持集进行少样本学习以调整视觉故事叙述模型参数,再使用调整过参数的视觉故事叙述模型为查询集中的样本生成故事性描述文本。/n

【技术特征摘要】
1.一种基于主题适应与原型编码的少样本视觉故事叙述方法,其特征在于,包括如下步骤:
S1:将视觉故事数据集按主题划分,每一轮训练采样一批主题并将每个主题划分为支持集与查询集;
S2:将训练所用的支持集中的视觉故事样本中的故事文本与图像序列分别编码为故事特征和图像序列特征,存储备用;
S3:对查询阶段的图像序列提取时序视觉语义特征和图像序列特征,结合S2中所述支持集的故事特征和图像序列特征,计算得到原型向量;
S4:通过带有注意力机制的故事解码器,将S3中得到的图像序列特征和原型向量的组合特征解码为故事性描述文本;
S5:通过元学习方法,利用以S2~S4为框架构建的视觉故事叙述模型在查询集上的综合损失来优化视觉故事叙述模型的初始参数;
S6:在推测阶段,根据新主题的支持集进行少样本学习以调整视觉故事叙述模型参数,再使用调整过参数的视觉故事叙述模型为查询集中的样本生成故事性描述文本。


2.根据权利要求1所述的一种基于主题适应与原型编码的少样本视觉故事叙述方法,其特征在于,所述S1的具体方法如下:
S11:将视觉故事数据集按主题划分,每一轮训练采样N个主题,并从每个主题中采样2K个视觉故事样本,其中K个作为支持集用于少样本训练,剩余K个作为查询集用于验证少样本学习效果。


3.根据权利要求2所述的一种基于主题适应与原型编码的少样本视觉故事叙述方法,其特征在于,所述S2的具体子步骤如下:
S21:使用基于门控循环单元的文本编码器对支持集中所有样本经过单词嵌入层后的故事文本抽取故事特征Sspt={s1,…,sK};
S22:利用卷积神经网络和视觉语义编码器对支持集中所有图像序列抽取图像序列特征,得到图像序列特征集合,每个图像序列特征表征一个图像序列的语义信息。


4.根据权利要求3所述的一种基于主题适应与原型编码的少样本视觉故事叙述方法,其特征在于,所述S22中,对于支持集中的每一个图像序列Ai={a1,…,am},aj表示第j张图像,m为图像序列长度,卷积神经网络抽取该图像序列中每一张图像aj的特征为fj,得到图像序列对应的图像特征的集合FI={f1,…,fm},并将集合FI中每个特征按顺序送入基于门控循环单元的视觉语义编码器中,得到图像序列的时序视觉语义特征V={v1,…,vm},其中vj表示处理支持集时门控循环单元第j时刻的隐状态,取门控循环单元最后时刻的视觉语义特征vm作为表征该图像序列的图像序列特征。


5.根据权利要求4所述的一种基于主题适应与原型编码的少样本视觉故事叙述方法,其特征在于,所述S3的具体子步骤如下:
S31:对于查询集中的每个样本,使用与S2中相同的卷积神经网络和视觉语义编码器提取样本中的图像序列的时序视觉语义特征Vqry={v'1,…,v'm},其中v'j表示处理查询集时门控循环单元第j时刻的隐状态,取门控循环单元最后时刻的视觉语义特征v'm作为表征该图像序列的图像序列特征;
S32...

【专利技术属性】
技术研发人员:庄越挺浦世亮汤斯亮李嘉成吴飞肖俊李玺张世峰任文奇陆展鸿
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1