一种基于深度学习模型的视频描述生成方法及装置制造方法及图纸

技术编号：39872348 阅读：9 留言：0更新日期：2023-12-30 12:59

本发明专利技术公开了一种基于深度学习模型的视频描述生成方法及装置，该方法包括将与待处理视频对应的至少两帧图像输入至预设的第一深度学习模型，得到与每帧图像对应的包含时间顺序信息的特征向量；基于每个特征向量在预设的文本向量库中确定出第一文本向量，并根据每个特征向量以及相应的第一文本向量，得到第二文本向量；根据与待处理视频对应的所有第二文本向量以及预设的第二深度学习模型，得到目标描述语句

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习模型的视频描述生成方法及装置

[0001]本申请涉及计算机视觉领域，特别的涉及一种基于深度学习模型的视频描述生成方法及装置
。

技术介绍

[0002]随着互联网时代的发展，以短视频为代表的动态多媒体内容在互联网上的流量占比逐年增加
。
视频作为与人类日常感知最为接近的方式，与单独的图片相比，能在有限的时间内传递比图片更多的信息，更符合当下人们快节奏的生活方式
。
然而，随着大量视频信息的涌现，人们急需一种合理有效的方法来过滤和筛选视频内容
。
视频描述生成技术可以作为一种解决方案，用于自动地生成视频的文字描述，从而帮助人们快速了解视频内容，筛选出有效的视频
。
视频描述生成技术可以对一段视频内容生成对应的描述文本，从而帮助人们快速有效地筛选视频，并且该技术在儿童教育
、
视力受损人士的生活辅助
、
医学图像分析
、
智慧城市
、
移动智能终端等领域都起到了重要的作用
。
[0003]现有的视频描述生成技术主要基于卷积神经网络
、
循环神经网络或深度残差网络等架构来进行特征提取，以实现视频描述生成
。
然而，这些技术都采用了被动生成模式，也即将常见的高频表达文字作为视觉描述语句，但是这种方式所得到的视频描述语句大都存在较为简单
、
空洞以及缺乏多样性等问题，且容易丢失关键性的信息
。
专利技...

【技术保护点】

【技术特征摘要】
1.
一种基于深度学习模型的视频描述生成方法，其特征在于，包括：将与待处理视频对应的至少两帧图像输入至预设的第一深度学习模型，得到与每帧图像对应的包含时间顺序信息的特征向量；其中，所述预设的第一深度学习模型由至少两帧标记有时间顺序信息的样本图像训练得到；基于每个所述特征向量在预设的文本向量库中确定出第一文本向量，并根据每个所述特征向量以及相应的所述第一文本向量，得到第二文本向量；根据与待处理视频对应的所有所述第二文本向量以及预设的第二深度学习模型，得到目标描述语句；其中，所述预设的第二深度学习模型由样本文本向量以及与所述样本文本向量对应的描述语句训练得到
。2.
根据权利要求1所述的方法，其特征在于，在所述将与待处理视频对应的至少两帧图像输入至预设的第一深度学习模型之前，还包括：根据所述待处理视频的时长以及预设的帧数阈值，确定出时间间隔；基于所述时间间隔，从所述待处理视频中提取出至少两帧图像
。3.
根据权利要求1所述的方法，其特征在于，所述基于每个所述特征向量在预设的文本向量库中确定出第一文本向量，包括：对每个所述特征向量进行转换处理，得到相应的映射向量；基于每个所述映射向量，在预设的文本向量库中确定出第一文本向量
。4.
根据权利要求1所述的方法，其特征在于，所述根据每个所述特征向量以及相应的所述第一文本向量，得到第二文本向量，包括：对所述特征向量以及所述第一文本向量进行序列化处理，分别得到第一字符串以及第二字符串；按照预设的拼接顺序对所述第一字符串以及所述第二字符串进行拼接处理，得到目标字符串；对所述目标字符串进行反序列化处理，得到第二文本向量
。5.
根据权利要求1所述的方法，其特征在于，所述根据与待处理视频对应的所有所述第二文本向量以及预设的第二深度学习模型，得到目标描述语句，包括：当所有所述第二文本向量的个数超过预设的数值时，根据所有所述第二文本向量中的时间顺序信息，将所有所述第二文本向量分为至少两组；其中，每组包含的所述第二文本向量的个数为大于或等于2的正整数；将每组中的所述第二文本向量合并成目标文本向量，并根据所有所述目标文本向量以及预设的第二深度学习模型，得到目标描述语句
...

【专利技术属性】
技术研发人员：杨志杰，金磊，雷达，刘硕，柳明，陈久红，
申请(专利权)人：中国电子科技集团公司第五十二研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人