一种视频描述生成方法、装置及存储介质制造方法及图纸

技术编号：36538452 阅读：18 留言：0更新日期：2023-02-01 16:29

本发明专利技术涉及视频理解技术领域，尤其是指一种视频描述生成方法、装置及计算机存储介质。本发明专利技术所述的视频描述生成方法，提出了时间注意和融合注意，并向每个帧特征在线添加一个标记来表示全局特征，让这些标记进行交互，以便在帧与帧之间进行信息的传递和交互，首先，使用时间注意交互所有的标记，学习输入视频的视频帧之间的时间关系，接下来，将时间注意处理过的标记与最终特征内的每一个特征向量相级联，然后输入到融合注意，融合注意使全部特征相交互，使得经过融合注意之后输出的特征包含视频帧之间的时间关系；本发明专利技术将预训练模型得到的空间特征和时序信息相结合，捕获视频帧之间的时间线索，最终能够得到更充分的特征表示，提高了预测精度。提高了预测精度。提高了预测精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种视频描述生成方法、装置及存储介质

[0001]本专利技术涉及视频理解
，尤其是指一种视频描述生成方法、装置及计算机存储介质。

技术介绍

[0002]现有的技术中，视频字幕技术旨在从视频中自动生成自然语言描述，在帮助视障人士、人机交互、视频检索和许多其他应用中发挥着重要作用。早期的视频字幕生成方法通常先利用视频中检测到的视觉信息，然后通过预设的人工设置好的模板生成句子。但是这种方法高度依赖于一套固定的模板，只能生成具有固定句法结构的句子，导致最后呈现的效果并不佳。
[0003]为了解决上述存在的问题，如公开号为CN202010233049.7的中国专利公开了基于图卷积网络的视频描述生成系统，包括视频特征提取网络、图卷积网络、视觉注意力网络和句子描述生成网络。工作时，首先通过视频特征提取网络对视频进行采样处理，获取视频特征，输出至图卷积网络；接着利用图卷积网络对视频特征根据语义关系进行重构，并输入至句子描述生成循环神经网络；最后使用句子描述生成网络根据视频重构的特征进行句子生成。该系统采用图卷积对视频中帧级序列和目标级序列特征进行重构，在生成描述语句时充分利用视频内的时序信息和语义信息，使得生成更为精确。但该系统是在CNN模型的基础上构建的视频编码器，仅使用来自视觉方面的信息，缺乏足够的语言表示。又如公开号为CN202111060036.5的中国专利公开了一种用于生成视频描述文本的系统和方法，包括视觉编码模块、字幕生成模块和跨模态信息流对齐模块。工作时，首先使用视觉编码模块对待处理的视频进行全局编码，得...

【技术保护点】

【技术特征摘要】
1.一种视频描述生成方法，其特征在于，包括：将视频片段输入训练好的视频描述生成模型中；利用预训练视频编码器提取多个视频帧特征；对所述多个视频帧特征进行平均池化得到平均池化特征，并将所述平均池化特征分别与所述多个视频帧特征进行级联，得到多个最终帧特征；为所述多个最终帧特征在线添加一个标记，所述标记为随机生成的特征向量，使用时间注意力交互所有的标记，将多个最终帧特征分别与对应的时间注意力处理过的标记级联，并将与标记级联后的多个最终帧特征通过融合注意力相交互，得到多个时间帧特征；将丢弃标记后的多个时间帧特征输入第一Transformer编码器—解码器模块，预测生成第一字幕。2.根据权利要求1所述的视频描述生成方法，其特征在于，所述得到多个时间帧特征后还包括：将丢弃标记后的多个时间帧特征输入多层前馈神经网络来加强特征表示。3.根据权利要求1所述的视频描述生成方法，其特征在于，所述将丢弃标记后的多个时间帧特征输入第一Transformer编码器—解码器模块，预测生成第一字幕后还包括：利用文本编码器将生成的第一字幕转换为多个单词特征，并与所述多个时间帧特征级联后输入第二Transformer编码器—解码器模块，预测生成第二字幕。4.根据权利要求3所述的视频描述生成方法，其特征在于，所述利用文本编码器将生成的第一字幕转换为多个单词特征，并与所述多个时间帧特征级联后输入第二Transformer编码器—解码器模块，预测生成第二字幕前包括：为所述第一字幕在线添加一个标记，所述标记为随机生成的特征向量，将添加的标记通过多层前馈神经网络，得到一个置信度得分；若所述第一置信度得分不低于预设阈值，则将所述第一字幕作为最终的预测结果；若所述第一置信度得分低于所述预设阈值，则继续预测所述第二字幕，将所述第二字幕作为最终的预测结果。5.根据权利要求1所述的视频描述生成方法，其特征在于，所述视频描述生成模型的训练方法包括：构建训练集，所述训练集中的一个训练样本为一个视频片段和其对应的多句标注文本；利用所述训练集训练所述视频描述生成模型，调节模型参数直至总损失收敛；其中，针对任意一训练样本，总损失的计算过程为：将该训练样本的视频片段输入预训练视频编码器提取得到多个视频帧训练特征；将该训练样本的多句标注文本输入文本编码器提取得到多个单词训练特征和多个句子训练特征；根据所述多个视频帧训练特征和多个单词训练特征计算第一对比损失；对所述多个视频帧训练特征进行平均池化得到平均池化训练特征，并将所述平均池化训练特征分别与所述多个视频帧训练特征进行级联，得到多个最终帧训练特征；将所述多个最终帧训练特征进行平均池化得到全局视频训练特征；根据所述多个句子训练特征和所述全局视频训练特征计算第二对比损失；
根据该训练样本计算所述视频描述生成模型的对称交叉熵损失；根据所述第一对比损失、所述第二对比损失和所述对称交叉熵损失计算总损失。6.根据权利要求5所述的视频描述生成方法，其特征在于，所述第一对比损失L
f
‑
ω
的函数定义为：数定义为：数定义为：其中，s(f
j
,ω
i
)是单词项ω
...

【专利技术属性】
技术研发人员：徐天阳，张赟捷，宋晓宁，赖丽娜，朱学峰，吴小俊，
申请(专利权)人：江南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人