视频分区制造技术

技术编号:22947640 阅读:23 留言:0更新日期:2019-12-27 17:46
用于对视频进行分区的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。在一个方面,该方法包括获得将视频分成一个或多个镜头的分区。生成每个镜头的特征,包括视觉特征和音频特征。将每个镜头的所生成的特征作为输入提供给分区神经网络,该分区神经网络被配置为处理所生成的特征以生成分区神经网络输出。基于分区神经网络输出确定将视频分成一个或多个章节的分区,其中,章节是被确定为在一个或多个位置处拍摄的、在语义上相关的一系列连续镜头。

【技术实现步骤摘要】
【国外来华专利技术】视频分区
技术介绍
本说明书涉及使用机器学习模型处理数据。机器学习模型接收输入,并基于接收到的输入生成输出(例如,预测的输出)。一些机器学习模型是参数模型,并且它们基于接收到的输入和模型的参数值生成输出。一些机器学习模型是深度模型,它们采用模型的多个层来为接收到的输入生成输出。例如,深度神经网络是深度机器学习模型,其包括输出层和一个或多个隐藏层,每个隐藏层对接收到的输入应用非线性变换以生成输出。
技术实现思路
本说明书描述了一种执行视频分区任务的方法,该方法在一个或多个位置处的一个或多个计算机上被实施为计算机程序。根据第一方面,提供了一种用于对视频进行分区的方法,该方法包括:获得将视频分成一个或多个镜头的分区,其中,镜头是具有平滑的时变视点的一系列连续帧;生成每个镜头的特征,对于特定镜头,包括:生成特定镜头的视觉特征,包括将特定镜头的视频数据作为输入提供给视觉特征神经网络,该视觉特征神经网络处理视频数据以生成一个或多个视觉特征输出;生成特定镜头的音频特征,包括将特定镜头的音频数据作为输入提供给音频特征神经网络,该音频特征神经网络处本文档来自技高网...

【技术保护点】
1.一种用于确定将视频分成一个或多个章节的分区的计算机实施的方法,所述方法包括:/n获得将视频分成一个或多个镜头的分区,其中,镜头是具有平滑的时变视点的一系列连续帧;/n生成每个镜头的特征,对于特定镜头,包括:/n生成特定镜头的视觉特征,包括将特定镜头的视频数据作为输入提供给视觉特征神经网络,所述视觉特征神经网络处理视频数据以生成一个或多个视觉特征输出;/n生成特定镜头的音频特征,包括将特定镜头的音频数据作为输入提供给音频特征神经网络,所述音频特征神经网络处理音频数据以生成一个或多个音频特征输出;/n将每个镜头的所生成的特征作为输入提供给分区神经网络,所述分区神经网络被配置为处理所生成的特征以...

【技术特征摘要】
【国外来华专利技术】20171115 US 15/813,9781.一种用于确定将视频分成一个或多个章节的分区的计算机实施的方法,所述方法包括:
获得将视频分成一个或多个镜头的分区,其中,镜头是具有平滑的时变视点的一系列连续帧;
生成每个镜头的特征,对于特定镜头,包括:
生成特定镜头的视觉特征,包括将特定镜头的视频数据作为输入提供给视觉特征神经网络,所述视觉特征神经网络处理视频数据以生成一个或多个视觉特征输出;
生成特定镜头的音频特征,包括将特定镜头的音频数据作为输入提供给音频特征神经网络,所述音频特征神经网络处理音频数据以生成一个或多个音频特征输出;
将每个镜头的所生成的特征作为输入提供给分区神经网络,所述分区神经网络被配置为处理所生成的特征以生成分区神经网络输出;
基于分区神经网络输出确定将视频分成一个或多个章节的分区,其中,每个章节是被确定为在一个或多个位置处拍摄的、在语义上相关的一系列连续镜头。


2.根据权利要求1所述的计算机实施的方法,其中,确定将视频分成一个或多个章节的分区包括:
确定将视频分成一个或多个场景的分区,其中,每个场景是被确定为在视频中描绘的特定位置处拍摄的一系列连续镜头,并且每个章节是被确定为在语义上相关的一系列连续场景。


3.根据权利要求2所述的计算机实施的方法,其中,至少一个章节具有至少两个场景,其中,所述两个场景的相应镜头分别在不同的位置处拍摄。


4.根据前述权利要求中任一项所述的计算机实施的方法,其中,提供了将视频分成一个或多个镜头的分区。


5.根据权利要求1至3中任一项所述的计算机实施的方法,其中,基于自动帧分析过程来确定将视频分成一个或多个镜头的分区。


6.根据前述权利要求中任一项所述的计算机实施的方法,其中,生成每个镜头的特征包括:
生成每个镜头的固定大小特征表示,所述固定大小特征表示与镜头中的帧的数量无关。


7.根据权利要求6所述的计算机实施的方法,其中,生成每个镜头的固定大小特征表示包括:池化为每个镜头的每一帧生成的特征。


8.根据前述权利要求中任一项所述的计算机实施的方法,其中:
视觉特征神经网络被配置为接收图像;
将特定镜头的视频数据作为输入提供给视觉特征神经网络包括:
将特定镜头的每一帧作为输入提供给视觉特征神经网络,以生成每一帧的一个或多个视觉特征输出。


9.根据权利要求8所述的计算机实施...

【专利技术属性】
技术研发人员:楚航M尼希巴AC加拉赫U普拉布赫
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1