基于混合神经网络的视频摘要生成方法技术

技术编号：40957021 阅读：3 留言：0更新日期：2024-04-18 20:34

本发明专利技术涉及视频处理技术领域，公开了一种基于混合神经网络的视频摘要生成方法，包括：获取原始视频序列并提取特征，得到第一视频帧特征；采用编码器网络提取原始视频的第二视频帧特征；将第一视频帧特征和第二视频帧特征进行融合，输出多尺度特征；将多尺度特征输入解码器网络，输出每个视频帧的权重分数；选取原始视频序列中权重分数最大的帧，得到关键帧数据集；对关键帧数据集进行时序处理，以提取关键帧数据集的摘要子集，并按设定顺序生成视频摘要。本发明专利技术利用具编码器网络提取视频帧的多尺度特征，以及利用解码器网络，学习视频帧的空间维度和通道维度依赖性，更容易实现并行计算，生成具有关键帧的视频摘要，避免遗漏视频中的重要内容。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频处理，特别涉及一种基于混合神经网络的视频摘要生成方法。

技术介绍

1、随着人们对多媒体信息需求的不断增加，多媒体数据大量涌现，视频作为一种主要的多媒体类型，在丰富人们的生活、教育、娱乐等方面起到越来越突出的作用。如何有效地组织、管理、查询、检索和浏览视频数据，成为迫切需要解决的问题。

2、视频摘要是解决上述问题的一个有效途径，视频摘要又称视频浓缩，是指对视频内容的一个简单的概括，视频摘要在视频分析和基于内容的视频检索中扮演着重要角色。通常几个小时的录像，可以浓缩成几分钟的浓缩视频，大大加快了录像查看的速度。

3、然而，在视频摘要自动生成方面，目前主要有两种生成方式，一是人工截取关键片段形成摘要，二是利用软件按时间间隔截取一系列图像帧形成摘要，前者成本很高，后者效果较差，且容易漏掉视频中的重要内容。

技术实现思路

1、本专利技术提供了一种基于混合神经网络的视频摘要生成方法，利用具有金字塔空洞卷积的编码器网络提取视频帧的多尺度特征，以及利用具有空间注意力机制和通道注意力机制的解码器网络，学习视频帧的空间维度和通道维度依赖性，更容易实现并行计算，生成具有关键帧的视频摘要，避免遗漏视频中的重要内容。

2、本专利技术提供了一种基于混合神经网络的视频摘要生成方法，包括：

3、获取原始视频以提取所述原始视频序列，对所述原始视频序列利用googlenet神经网络提取特征，得到所述原始视频的第一视频帧特征；

4、采用具有金

5、将所述第一视频帧特征和第二视频帧特征采用concatenate操作进行特征融合，并利用1×1的卷积将特征信息进一步融合，输出视频帧的多尺度特征；

6、将所述多尺度特征输入具有空间注意力机制和通道注意力机制的解码器网络，以捕获视频帧之间局部特征的联系，输出每个视频帧的权重分数；

7、利用指针网络选取所述原始视频序列中权重分数最大的帧作为关键帧输出，得到关键帧数据集；

8、对关键帧数据集中的每一帧进行时序处理，以提取所述关键帧数据集的摘要子集，并将所述摘要子集中的关键帧按设定顺序生成视频摘要。

9、进一步地，所述获取原始视频以提取所述原始视频序列，对所述原始视频序列利用googlenet神经网络提取特征，得到所述原始视频的第一视频帧特征的步骤，包括：

10、获取原始视频以提取所述原始视频序列x＝{x1，x2，...，xt}；其中，t为所述原始视频的帧数；

11、采用预训练好的googlenet神经网络模型的pool5层进行特征提取视频帧的特征xt，描述为：

12、ft＝cnn(xt)

13、其中，t表示原始视频的第t帧，ft∈1024，cnn(-)表示卷积神经网络googlenet，输出所述原始视频的第一视频帧特征为可以用f＝{f1，f2，...，ft}。

14、进一步地，所述采用具有金字塔空洞卷积模块的编码器网络提取所述原始视频的第二视频帧特征的步骤中，金字塔空洞卷积模块由5个并行的分支组成，包括4个空洞卷积和1个全局平均池化层；4个空洞卷积中1个空洞卷积的大小为1×1，3个空洞卷积的大小为3×3，其中膨胀系数分别为1、6、12、18，每个卷积后均添加了bn层和relu激活函数；所述全局平均池化层用于过滤掉不相关的特征以筛选出有用的特征。

15、进一步地，所述将所述多尺度特征输入具有空间注意力机制和通道注意力机制的解码器网络，以捕获视频帧之间局部特征的联系，输出每个视频帧的权重分数的步骤，包括：

16、将所述多尺度特征输入所述空间注意力机制，得到第一特征输出p；

17、将所述多尺度特征输入所述通道注意力机制，得到第二特征输出r；

18、将所述第一特征输出p和第二特征输出r分别进行卷积操作之后，进行concatenate操作将所述第一特征输出p和第二特征输出r进行融合，通过全连接层输出每个视频帧的权重分数。

19、进一步地，所述将所述多尺度特征输入所述空间注意力机制，得到第一特征输出p的步骤，包括：

20、记输入的所述多尺度特征图为z，尺寸为c×h×w，分别通过3个膨胀系数为2的空洞卷积，获得3个尺寸为c×h×w的特征图za、zb、zc；

21、对特征图za分别进行reshape与transpose操作将尺寸转换为n×c，n＝h×w；对特征图zb进行reshape操作将尺寸转换为c×n，n＝h×w；

22、采用矩阵乘法将得到的特征图za和zb相乘，获得两个像素特征之间的强关联矩阵，并进行softmax操作得到空间注意力图m，尺寸为n×n；计算公式为：

23、

24、其中，mij代表i位置对j位置特征的关联强度，两个位置的特征之间的关联强度越强，mij取得的数值则越大；

25、对特征图zc进行reshape操作将尺寸变化为c×n，n＝h×w；

26、采用矩阵乘法将特征图zc和m的转置相乘之后，再乘上权重系数γ，将得到的特征进行reshape操作将尺寸转换为c×h×w，再与原始多尺度特征图z进行相加操作得到第一特征输出p；计算公式为：

27、

28、其中，权重系数γ初始化为0，在训练中自动学习权重。

29、进一步地，所述将所述多尺度特征输入所述通道注意力机制，得到第二特征输出r的步骤，包括：

30、记输入的所述多尺度特征图为z，尺寸为c×h×w；

31、对多尺度特征图z进行reshape与transpose操作得到特征图z1，尺寸为n×c；对多尺度特征图z进行reshape操作得到特征图z2，尺寸为c×n，n＝h×w；

32、采用矩阵乘法将特征图z2和z1相乘，然后进行softmax操作得到通道注意力图q，尺寸为c×c；计算公式为：

33、

34、其中，qij代表i通道对j通道特征的关联强度，两个通道的特征之间的关联强度越强，qij取得的数值则越大；

35、对多尺度特征图为z进行reshape操作得到特征图z3，尺寸为c×n，n＝h×w；

36、采用矩阵乘法将通道注意力图q的转置与特征图z3相乘之后，再乘上一个权重系数θ，将所得到的特征进行reshape操作将尺寸转换为c×h×w，在与原始多尺度特征图为z进行相加操作得到最终的输出r；计算公式为：

37、

38、其中，权重系数θ初始化为0，在训练中自动学习权重。

39、进一步地，所述对关键帧数据集中的每一帧进行时序处理，以提取所述关键帧数据集的摘要子集，并将所述摘要子集中的关键帧按设定顺序生成视频摘要的步骤，包括：

40、将所述关键帧数据集中的关键帧按照帧时间从小到大进行排列，得到关键帧序列；

41、本文档来自技高网...

【技术保护点】

1.一种基于混合神经网络的视频摘要生成方法，其特征在于，包括：

2.根据权利要求1所述的基于混合神经网络的视频摘要生成方法，其特征在于，所述获取原始视频以提取所述原始视频序列，对所述原始视频序列利用GoogLeNet神经网络提取特征，得到所述原始视频的第一视频帧特征的步骤，包括：

3.根据权利要求2所述的基于混合神经网络的视频摘要生成方法，其特征在于，所述采用具有金字塔空洞卷积模块的编码器网络提取所述原始视频的第二视频帧特征的步骤中，金字塔空洞卷积模块由5个并行的分支组成，包括4个空洞卷积和1个全局平均池化层；4个空洞卷积中1个空洞卷积的大小为1×1，3个空洞卷积的大小为3×3，其中膨胀系数分别为1、6、12、18，每个卷积后均添加了BN层和Relu激活函数；所述全局平均池化层用于过滤掉不相关的特征以筛选出有用的特征。

4.根据权利要求3所述的基于混合神经网络的视频摘要生成方法，其特征在于，所述将所述多尺度特征输入具有空间注意力机制和通道注意力机制的解码器网络，以捕获视频帧之间局部特征的联系，输出每个视频帧的权重分数的步骤，包括：

6.根据权利要求4所述的基于混合神经网络的视频摘要生成方法，其特征在于，所述将所述多尺度特征输入所述通道注意力机制，得到第二特征输出R的步骤，包括：

7.根据权利要求1所述的基于混合神经网络的视频摘要生成方法，其特征在于，所述对关键帧数据集中的每一帧进行时序处理，以提取所述关键帧数据集的摘要子集，并将所述摘要子集中的关键帧按设定顺序生成视频摘要的步骤，包括：

8.一种基于混合神经网络的视频摘要生成装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种基于混合神经网络的视频摘要生成方法，其特征在于，包括：

2.根据权利要求1所述的基于混合神经网络的视频摘要生成方法，其特征在于，所述获取原始视频以提取所述原始视频序列，对所述原始视频序列利用googlenet神经网络提取特征，得到所述原始视频的第一视频帧特征的步骤，包括：

3.根据权利要求2所述的基于混合神经网络的视频摘要生成方法，其特征在于，所述采用具有金字塔空洞卷积模块的编码器网络提取所述原始视频的第二视频帧特征的步骤中，金字塔空洞卷积模块由5个并行的分支组成，包括4个空洞卷积和1个全局平均池化层；4个空洞卷积中1个空洞卷积的大小为1×1，3个空洞卷积的大小为3×3，其中膨胀系数分别为1、6、12、18，每个卷积后均添加了bn层和relu激活函数；所述全局平均池化层用于过滤掉不相关的特征以筛选出有用的特征。

4.根据权利要求3所述的基于混合神经网络的视频摘要生成方法，其特征在于，所述将所述多尺度特征输入具有空间注意力机制和通道注意力机制的解码器网络，以捕获视频帧之间局部特征的联系，输出每个视频帧的权...

【专利技术属性】
技术研发人员：杜雅慧，杨阳，付大雷，杨剡，杜擂升，
申请(专利权)人：深圳市泰合一科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人