用于生成视频摘要的方法和系统技术方案

技术编号：23349817 阅读：42 留言：0更新日期：2020-02-15 06:07

本公开提供了一种用于生成视频摘要的方法和系统，涉及视频技术领域。该方法可以包括：根据视频场景的变化将视频切分为多个镜头，其中每个镜头为一段内容连续的视频场景；计算每个镜头的重要性分值；以及从该多个镜头中选取一组镜头拼接成视频摘要，其中，在满足视频摘要总时长的约束条件的情况下，所选取的该组镜头的总的重要性分值最大。本公开可以使得视频摘要中包含一些比较重要的镜头或片段。

Methods and systems for generating video summaries

全部详细技术资料下载

【技术实现步骤摘要】
用于生成视频摘要的方法和系统
本公开涉及视频
，特别涉及一种用于生成视频摘要的方法和系统。
技术介绍
视频摘要是从一段较长的视频中选取关键帧或者关键片段并拼接成一段较短的视频，使观看者能够在较短的时间内了解原始视频的内容或者欣赏原始视频中的精彩片段。视频摘要有广泛的应用场景，包括个人视频剪辑、电视电影剧情介绍、视频辅助刑侦和互联网短视频等。在现有的生成视频摘要的方法中，由于对视频评价的主观性较强，因此所生成的视频摘要可能会丢失一些比较重要的片段或精彩内容。例如，现有视频摘要方法一般是基于一些通用性准则来选取关键帧和关键片段，较少有针对特定场景和应用的视频摘要方法。这导致这样的方法在一些具体应用场景特别是视频广告领域的效果不太好，经过摘要处理的广告视频可能会丢失用于介绍商品品牌和商品特点的关键片段，以及一些能快速抓住观众心理的精彩内容。
技术实现思路
本公开实施例解决的一个技术问题是：提供一种用于生成视频摘要的方法，使得该视频摘要能包含一些比较重要的镜头或片段。根据本公开实施例的一个方...

【技术保护点】
1.一种用于生成视频摘要的方法，包括：/n根据视频场景的变化将视频切分为多个镜头，其中每个镜头为一段内容连续的视频场景；/n计算每个镜头的重要性分值；以及/n从所述多个镜头中选取一组镜头拼接成视频摘要，其中，在满足视频摘要总时长的约束条件的情况下，所选取的该组镜头的总的重要性分值最大。/n

【技术特征摘要】
1.一种用于生成视频摘要的方法，包括：
根据视频场景的变化将视频切分为多个镜头，其中每个镜头为一段内容连续的视频场景；
计算每个镜头的重要性分值；以及
从所述多个镜头中选取一组镜头拼接成视频摘要，其中，在满足视频摘要总时长的约束条件的情况下，所选取的该组镜头的总的重要性分值最大。

2.根据权利要求1所述的方法，其中，计算每个镜头的重要性分值的步骤包括：
利用三维卷积网络对每个镜头提取特征向量，获得镜头集合的特征向量序列；以及
将所述特征向量序列输入到预先训练的镜头重要性分值计算网络以计算每个镜头的重要性分值。

3.根据权利要求2所述的方法，其中，在将视频切分为多个镜头之前，所述方法还包括：
采用强化学习的方法对镜头重要性分值计算网络进行训练，其中，所述强化学习的方法所包含的关键元素包括：行动和价值奖励函数，所述价值奖励函数包含：多样性指标和代表性指标。

4.根据权利要求1所述的方法，其中，在从所述多个镜头中选取一组镜头拼接成视频摘要之前，所述方法还包括：
在所述多个镜头中识别出展现关键特征的镜头。

5.根据权利要求4所述的方法，其中，所述关键特征包括商品品牌商标和商品品牌文字中的至少一个。

6.根据权利要求5所述的方法，其中，在所述多个镜头中识别出展现关键特征的镜头的步骤包括：
使用基于深度学习的对象检测方法检测视频的每帧图像中的商标区域；以及将商标区域的图像输入到预先训练的深度模型提取嵌入特征向量，并将所述嵌入特征向量与数据库中的商标图像的特征向量进行比对，获取商标的品牌类型，从而识别出展现商品品牌商标的镜头；或者，
使用基于深度学习的光学字符识别方法识别视频的每帧图像中的文字；以及对文字进行分词处理，并将处理后的文字与数据库中的品牌文字进行匹配，保留与商品品牌相关的文字，从而识别出展现商品品牌文字的镜头。

7.根据权利要求4所述的方法，其中，从所述多个镜头中选取一组镜头拼接成视频摘要的步骤包括：
从所述展现关键特征的镜头中选取主镜头，并从所述多个镜头中的剩余镜头中选取辅助镜头，将所述主镜头和所述辅助镜头作为所选取的一组镜头，并将该组镜头拼接成视频摘要。

8.根据权利要求7所述的方法，其中，
从所述展现关键特征的镜头中选取主镜头的步骤包括：如果从所述展现关键特征的镜头中选取的镜头为视频的最前面Ng个镜头或最后面Ng个镜头，则确定该最前面Ng个镜头或该最后面Ng个镜头为主镜头，Ng为正整数；
从所述多个镜头中的剩余镜头中选取辅助镜头，将所述主镜头和所述辅助镜头作为所选取的一组镜头的步骤包括：从所述多个镜头中的剩余镜头中选取辅助镜头，将所述主镜头和所述辅助镜头作为所选取的一组镜头，使得所选取的该组镜头在满足视频摘要总时长的约束条件的情况下总的重要性分值最大；
将该组镜头拼接成视频摘要的步骤包括：将所述主镜头和所述辅助镜头按照时间顺序拼接成视频摘要。

9.根据权利要求5所述的方法，其中，在所述多个镜头中识别出展现关键特征的镜头之前，所述方法还包括：
计算每个镜头与所宣传商品图片的相似度，并利用所述相似度修正镜头的重要性分值。

10.根据权利要求9所述的方法，其中，计算每个镜头与所宣传商品图片的相似度，并利用所述相似度修正镜头的重要性分值的步骤包括：
计算所宣传商品图片的特征向量；
对每个镜头的多帧图像进行采样以获得采样帧，并计算每个镜头的采样帧的特征向量；
根据所述商品图片的特征向量和每个镜头的采样帧的特征向量计算每个镜头与所述商品图片的相似度；以及
根据所述相似度和预设的相似度阈值对每个镜头的重要性分值进行修...

【专利技术属性】
技术研发人员：曾建平，吴立薪，吕晶晶，包勇军，
申请(专利权)人：北京京东尚科信息技术有限公司，北京京东世纪贸易有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人