基于视觉上下文稀疏正则化与隐注意力的视频描述方法技术

技术编号：42220257 阅读：19 留言：0更新日期：2024-07-30 19:00

本发明专利技术涉及一种基于视觉上下文稀疏正则化与隐注意力的视频描述方法，包括以下步骤：提取待描述视频的视觉特征和当前视频的所有人工标注文本语句的语言特征；生成空白填充序列，对所提取的视觉特征和空白填充序列进行编码，得到视觉上下文特征和伪文本上下文特征；将伪文本上下文特征和视觉上下文特征沿序列长度方法拼接，得到稀疏正则化上下文特征；将稀疏正则化视觉上下文特征、视觉特征和语言特征共同作为输入送入视频描述生成模型，获得每个当前时间步上的词汇概率输出，将所有生成的词汇按时间步顺序合并，获得当前待描述视频的最终描述语句。与现有技术相比，本发明专利技术生成的语言描述具有准确性高、语义丰富等优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频描述生成领域，尤其是涉及一种基于视觉上下文稀疏正则化与隐注意力的视频描述方法。

技术介绍

1、视频描述生成是一个复杂的过程，它旨在通过计算机算法来自动产生对视频内容的自然语言描述。目前在多数流行的工作中，视觉和语言特征被结合并表示在密集的多模态特征空间中，如专利申请cn113869324a公开的一种基于多模态融合的视频常识性知识推理实现方法，这使得模型只能学习到普遍的粗粒度类别特征而不是针对不同样本的独特性细粒度特征，同时模型在训练过程中易于陷入过拟合状态并损害模型的泛化能力。另一方面，模型直接从复杂且密集的多模态特征空间中进行学习，这会导致模型需要侧重于对视觉特征与语言特征之间的关联进行建模，而相对削弱模型在解码阶段中最终文本生成的能力，这使得模型生成的描述语句在词汇的正确率以及语句的整体流畅性等方面都受到较大影响。

技术实现思路

1、本专利技术的目的就是为了克服上述现有技术存在的模型在训练和测试过程中对由视觉信息和语言语义组成的复杂多模态特征难以学习的缺点，而提供一种...

【技术保护点】

1.一种基于视觉上下文稀疏正则化与隐注意力的视频描述方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于视觉上下文稀疏正则化与隐注意力的视频描述方法，其特征在于，通过在大规模图像和文本数据集上预训练获得的视觉转换器网络提取所述视觉特征。

3.根据权利要求1所述的基于视觉上下文稀疏正则化与隐注意力的视频描述方法，其特征在于，基于所有人工标注文本语句中每个标注词汇编码之后得到的嵌入式特征向量获得所述语言特征。

4.根据权利要求1所述的基于视觉上下文稀疏正则化与隐注意力的视频描述方法，其特征在于，所述视频描述生成模型包括均带有隐注意力机制的视觉隐注...

【技术特征摘要】

1.一种基于视觉上下文稀疏正则化与隐注意力的视频描述方法，其特征在于，包括以下步骤：

4.根据权利要求1所述的基于视觉上下文稀疏正则化与隐注意力的视频描述方法，其特征在于，所述视频描述生成模型包括均带有隐注意力机制的视觉隐注意力分支网络和语言隐注意力分支网络，所述隐注意力机制是指将所述稀疏正则化上下文特征分别与各分支网络中前续的隐藏状态结合并进行多模态语义对齐。

5.根据权利要求4所述的基于视觉上下文稀疏正则化与隐注意力的视频描述方法，其特征在于，所述视觉隐注意力分支网络以经隐注意力机制处理后的输出与视频特征的拼接特征为输入，所述语言隐注意力分支网络以经隐注意力机制处理后的输出与语言特征的拼接特征为...

【专利技术属性】
技术研发人员：汤鹏杰，张家钰，谭云兰，
申请(专利权)人：井冈山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人