【技术实现步骤摘要】
本专利技术涉及视频描述生成领域,尤其是涉及一种基于视觉上下文稀疏正则化与隐注意力的视频描述方法。
技术介绍
1、视频描述生成是一个复杂的过程,它旨在通过计算机算法来自动产生对视频内容的自然语言描述。目前在多数流行的工作中,视觉和语言特征被结合并表示在密集的多模态特征空间中,如专利申请cn113869324a公开的一种基于多模态融合的视频常识性知识推理实现方法,这使得模型只能学习到普遍的粗粒度类别特征而不是针对不同样本的独特性细粒度特征,同时模型在训练过程中易于陷入过拟合状态并损害模型的泛化能力。另一方面,模型直接从复杂且密集的多模态特征空间中进行学习,这会导致模型需要侧重于对视觉特征与语言特征之间的关联进行建模,而相对削弱模型在解码阶段中最终文本生成的能力,这使得模型生成的描述语句在词汇的正确率以及语句的整体流畅性等方面都受到较大影响。
技术实现思路
1、本专利技术的目的就是为了克服上述现有技术存在的模型在训练和测试过程中对由视觉信息和语言语义组成的复杂多模态特征难以学习的缺点,而提供一种
...【技术保护点】
1.一种基于视觉上下文稀疏正则化与隐注意力的视频描述方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于视觉上下文稀疏正则化与隐注意力的视频描述方法,其特征在于,通过在大规模图像和文本数据集上预训练获得的视觉转换器网络提取所述视觉特征。
3.根据权利要求1所述的基于视觉上下文稀疏正则化与隐注意力的视频描述方法,其特征在于,基于所有人工标注文本语句中每个标注词汇编码之后得到的嵌入式特征向量获得所述语言特征。
4.根据权利要求1所述的基于视觉上下文稀疏正则化与隐注意力的视频描述方法,其特征在于,所述视频描述生成模型包括均带有隐
...【技术特征摘要】
1.一种基于视觉上下文稀疏正则化与隐注意力的视频描述方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于视觉上下文稀疏正则化与隐注意力的视频描述方法,其特征在于,通过在大规模图像和文本数据集上预训练获得的视觉转换器网络提取所述视觉特征。
3.根据权利要求1所述的基于视觉上下文稀疏正则化与隐注意力的视频描述方法,其特征在于,基于所有人工标注文本语句中每个标注词汇编码之后得到的嵌入式特征向量获得所述语言特征。
4.根据权利要求1所述的基于视觉上下文稀疏正则化与隐注意力的视频描述方法,其特征在于,所述视频描述生成模型包括均带有隐注意力机制的视觉隐注意力分支网络和语言隐注意力分支网络,所述隐注意力机制是指将所述稀疏正则化上下文特征分别与各分支网络中前续的隐藏状态结合并进行多模态语义对齐。
5.根据权利要求4所述的基于视觉上下文稀疏正则化与隐注意力的视频描述方法,其特征在于,所述视觉隐注意力分支网络以经隐注意力机制处理后的输出与视频特征的拼接特征为输入,所述语言隐注意力分支网络以经隐注意力机制处理后的输出与语言特征的拼接特征为...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。