当前位置: 首页 > 专利查询>英特尔公司专利>正文

用于提供视频中的分割的系统和方法技术方案

技术编号:29463629 阅读:26 留言:0更新日期:2021-07-27 17:37
本公开涉及用于提供视频中的分割的系统和方法。提供了使用深度卷积细分和情境感知跳跃连接的针对视频数据的高保真度交互式分割。讨论了与将视频帧自动分割为按像素的保真度感兴趣对象和背景区域有关的技术。这种技术包括:将细分应用于视频帧以生成与该视频帧相对应的特征帧,以及将实现了情境感知跳跃连接的分割网络应用于包括与视频帧相对应的情境特征体量和特征帧的输入体量以生成针对视频帧的分割。

【技术实现步骤摘要】
用于提供视频中的分割的系统和方法
本申请总体而言涉及图像分割(segmentation),具体地涉及使用深度卷积细分和情境感知跳跃连接进行的针对视频数据的高保真度交互式分割。
技术介绍
在交互式视频分割中,用户输入被接收,该用户输入经由用户在图像、图像的前景对象或感兴趣对象(例如,正点击(positiveclick))和背景(例如,负点击(negativeclick))上的点击来进行指示。然后,用户输入被用于自动地渲染整个视频剪辑中感兴趣对象相对于背景的像素级别的分割。这样的交互式视频分割可以用在转描机(rotoscoping)(例如,将图像转移到另一视频序列中的过程)或其他应用中。值得注意的是,得到的语义分割数据在诸如视觉效果应用之类的各种情境中是有用的。例如,自动视频分割可以有利地代替在媒体、电影和相关行业中使用的劳动密集且昂贵的转描机技术。当前的语义分割技术包括使用手工制作的特征和距离度量并且使用卷积神经网络来将静态图像分割为例如前景和背景区域。然而,仍然存在对改进的高保真度分割的兴趣。鉴于这些和其他考虑,需要当前进行改进。这种改进可能随着对在视频中应用高保真度分割的期望越来越普遍而变得至关重要。
技术实现思路
根据本公开的一方面,提供了一种用于提供视频中的分割的系统,包括:存储器,用于存储当前视频帧;以及耦合到所述存储器的一个或多个处理器,所述一个或多个处理器用于进行以下操作:生成与所述当前视频帧相对应的特征体量,该特征体量包括所述当前视频帧和以下项中的至少一者:时间上先前的视频帧、时间上先前的分割帧、或感兴趣对象指示符帧,其中该感兴趣对象指示符帧包括关于所述当前视频帧中的感兴趣对象的一个或多个指示符;将所述特征体量与多个特征帧组合以生成分割网络输入体量,其中每个特征帧包括从被应用于所述当前视频帧的卷积神经网络的特征层压缩而来的特征;将分割网络的多个卷积层中的第一卷积层应用于所述分割网络输入体量;将所述特征体量与来自所述第一卷积层或所述卷积层中的第二卷积层的卷积层输出体量组合以生成卷积层输入体量;将所述卷积层中的第三卷积层应用于所述卷积层输入体量以生成第二卷积层输出体量;以及基于所述第二卷积层输出体量来生成来自所述分割网络的当前分割帧。根据本公开的一方面,提供了一种用于提供视频中的分割的系统,包括:存储器,用于存储当前视频帧;以及耦合到所述存储器的一个或多个处理器,所述一个或多个处理器用于进行以下操作:将所述当前视频帧调整大小为包括多个子图像的经调整大小的当前视频帧,其中每个子图像具有与对象分类卷积神经网络的尺寸相对应的尺寸;将所述对象分类卷积神经网络应用于每个子图像,并针对每个子图像的每个像素取回多个特征值以生成对象分类输出体量,其中每个特征值来自所述对象分类卷积神经网络的层中的一个层;将所述对象分类输出体量调整大小到所述当前视频帧的尺寸;将至少包括所述当前视频帧的特征体量与多个特征帧组合以生成输入体量,其中每个特征帧包括从经调整大小的对象分类输出体量压缩而来的特征;以及将分割卷积神经网络应用于所述输入体量,以生成针对所述当前视频帧的当前分割帧。根据本公开的一方面,提供了一种用于提供视频中的分割的方法,包括:生成与当前视频帧相对应的特征体量,该特征体量包括所述当前视频帧和以下项中的至少一者:时间上先前的视频帧、时间上先前的分割帧、或感兴趣对象指示符帧,其中该感兴趣对象指示符帧包括关于所述当前视频帧中的感兴趣对象的一个或多个指示符;将所述特征体量与多个特征帧组合以生成分割网络输入体量,其中每个特征帧包括从被应用于所述当前视频帧的卷积神经网络的特征层压缩而来的特征;将分割网络的多个卷积层中的第一卷积层应用于所述分割网络输入体量;将所述特征体量与来自所述第一卷积层或所述卷积层中的第二卷积层的卷积层输出体量组合以生成卷积层输入体量;将所述卷积层中的第三卷积层应用于所述卷积层输入体量以生成第二卷积层输出体量;以及基于所述第二卷积层输出体量来生成来自所述分割网络的当前分割帧。根据本公开的一方面,提供了一种用于提供视频中的分割的方法,包括:将当前视频帧调整大小为包括多个子图像的经调整大小的当前视频帧,其中每个子图像具有与对象分类卷积神经网络的尺寸相对应的尺寸;将所述对象分类卷积神经网络应用于每个子图像,并针对每个子图像的每个像素取回多个特征值以生成对象分类输出体量,其中每个特征值来自所述对象分类卷积神经网络的层中的一个层;将所述对象分类输出体量调整大小到所述当前视频帧的尺寸;将至少包括所述当前视频帧的特征体量与多个特征帧组合以生成输入体量,其中每个特征帧包括从经调整大小的对象分类输出体量压缩而来的特征;以及将分割卷积神经网络应用于所述输入体量,以生成针对所述当前视频帧的当前分割帧。附图说明在附图中以示例而非限制的方式示出了本文描述的材料。为了图示的简单和清楚起见,附图中示出的元件不必按比例绘制。例如,为了清楚起见,一些元件的尺寸可能相对于其他元件被放大。此外,在被认为适当的情况下,参考标记在附图之间重复以指示相应或类似的元件。在附图中:图1示出了用于将视频帧分割成一个或多个分割帧的系统;图2示出了被应用于当前视频帧以生成特征体量(volume)的示例性深度卷积细分(tessellation)技术;图3示出了从被应用于示例输入图像的对象分类卷积神经网络的卷积层提取的针对该输入图像的卷积网络特征的示例体量;图4示出了示例性图像;图5示出了在没用细分的情况下从示例性图像获得的示例性特征图;图6示出了在使用细分的情况下从示例性图像获得的示例性特征图;图7示出了对特征体量进行的示例压缩以生成用于分割网络输入的特征帧;图8示出了具有情境感知(contextaware)跳跃连接(skipconnection)的示例分割网络;图9是示出了用于根据输入视频和用户对象及背景选择来生成分割的示例过程的流程图;图10是示出了用于训练分割网络的示例过程的流程图;图11示出了用于分割的示例输入视频帧和相应得到的分割;图12是示出了用于使用分割网络提供视频中的分割的示例过程的流程图,该分割网络采用了情境感知连接;图13是示出了用于使用细分技术提供视频中的分割的示例过程的流程图;图14是用于提供视频中的分割的示例系统的说明图;图15是示例系统的说明图;并且图16示出了全部根据本公开的至少一些实现方式布置的示例设备。具体实施方式现在参考附图来描述一个或多个实施例或实现方式。虽然讨论了具体的配置和布置,但是应当理解,这样做仅出于说明的目的。相关领域的技术人员将认识到,在不脱离说明书的精神和范围的情况下,可以采用其他配置和布置。对于相关领域的技术人员将显而易见的是,本文描述的技术和/或布置也可以在除本文描述的之外的各种其他系统和应用中被采用。尽管下面的描述阐述了可以在诸如例如片上系统(SoC)架构之类的架构中体现的各种实现方式,但是本文描述的技术和/或布置的本文档来自技高网...

【技术保护点】
1.一种用于提供视频中的分割的系统,包括:/n存储器,用于存储当前视频帧;以及/n耦合到所述存储器的一个或多个处理器,所述一个或多个处理器用于进行以下操作:/n生成与所述当前视频帧相对应的特征体量,该特征体量包括所述当前视频帧和以下项中的至少一者:时间上先前的视频帧、时间上先前的分割帧、或感兴趣对象指示符帧,其中该感兴趣对象指示符帧包括关于所述当前视频帧中的感兴趣对象的一个或多个指示符;/n将所述特征体量与多个特征帧组合以生成分割网络输入体量,其中每个特征帧包括从被应用于所述当前视频帧的卷积神经网络的特征层压缩而来的特征;/n将分割网络的多个卷积层中的第一卷积层应用于所述分割网络输入体量;/n将所述特征体量与来自所述第一卷积层或所述卷积层中的第二卷积层的卷积层输出体量组合以生成卷积层输入体量;/n将所述卷积层中的第三卷积层应用于所述卷积层输入体量以生成第二卷积层输出体量;以及/n基于所述第二卷积层输出体量来生成来自所述分割网络的当前分割帧。/n

【技术特征摘要】
20200127 US 16/773,7151.一种用于提供视频中的分割的系统,包括:
存储器,用于存储当前视频帧;以及
耦合到所述存储器的一个或多个处理器,所述一个或多个处理器用于进行以下操作:
生成与所述当前视频帧相对应的特征体量,该特征体量包括所述当前视频帧和以下项中的至少一者:时间上先前的视频帧、时间上先前的分割帧、或感兴趣对象指示符帧,其中该感兴趣对象指示符帧包括关于所述当前视频帧中的感兴趣对象的一个或多个指示符;
将所述特征体量与多个特征帧组合以生成分割网络输入体量,其中每个特征帧包括从被应用于所述当前视频帧的卷积神经网络的特征层压缩而来的特征;
将分割网络的多个卷积层中的第一卷积层应用于所述分割网络输入体量;
将所述特征体量与来自所述第一卷积层或所述卷积层中的第二卷积层的卷积层输出体量组合以生成卷积层输入体量;
将所述卷积层中的第三卷积层应用于所述卷积层输入体量以生成第二卷积层输出体量;以及
基于所述第二卷积层输出体量来生成来自所述分割网络的当前分割帧。


2.根据权利要求1所述的系统,所述一个或多个处理器还用于进行以下操作:
将所述特征体量与来自所述卷积层中每个非最后卷积层的相应输出体量组合,以针对所述卷积层中的每个后续卷积层生成相应的卷积层输入体量。


3.根据权利要求1所述的系统,其中,所述一个或多个处理器用于将所述特征体量与来自所述第一卷积层或所述第二卷积层的所述卷积层输出体量组合包括:所述一个或多个处理器用于串接所述特征体量和所述卷积层输出体量,其中所述特征体量和所述卷积层输出体量包括相同的分辨率。


4.根据权利要求1所述的系统,其中,所述特征体量包括所述当前视频帧、所述时间上先前的视频帧、所述时间上先前的分割帧、和所述感兴趣对象指示符帧。


5.根据权利要求4所述的系统,其中,所述感兴趣对象指示符帧中的所述一个或多个指示符指示正指示符的位置,其中这些正指示符指示所述感兴趣对象,所述特征体量还包括背景指示符帧、正距离变换帧、和负距离变换帧,其中,所述背景指示符帧包括指示背景的位置的负指示符,该背景不包括所述感兴趣对象,所述正距离变换帧针对其每个像素包括指示距所述正指示符的任何位置的最小距离的值,并且所述负距离变换帧针对其每个像素包括指示距所述负指示符的任何位置的最小距离的值。


6.根据权利要求1至5中任一项所述的系统,其中,第二卷积层输入体量由所述特征体量与来自所述第一卷积层或所述第二卷积层的所述卷积层输出体量组成,并且其中不存在来自所述分割网络的任何其他卷积层的任何卷积层输出体量。


7.根据权利要求1至5中任一项所述的系统,所述一个或多个处理器还用于进行以下操作:
将所述当前视频帧调整大小为包括多个子图像的经调整大小的当前视频帧,其中每个子图像具有与对象分类卷积神经网络的尺寸相对应的尺寸;
将所述卷积神经网络应用于每个子图像;
针对每个子图像的每个像素取回多个特征值以针对每个像素生成特征值的超列,其中每个特征值来自所述卷积神经网络的层中的一个层;以及
压缩特征值的超列以确定所述多个特征帧。


8.根据权利要求7所述的系统,其中,所述一个或多个处理器用于压缩所述超列包括:所述一个或多个处理器用于将Tucker分解应用于包括所述超列的特征体量,以确定包括多个经压缩的特征帧的核心张量。


9.一种用于提供视频中的分割的系统,包括:
存储器,用于存储当前视频帧;以及
耦合到所述存储器的一个或多个处理器,所述一个或多个处理器用于进行以下操作:
将所述当前视频帧调整大小为包括多个子图像的经调整大小的当前视频帧,其中每个子图像具有与对象分类卷积神经网络的尺寸相对应的尺寸;
将所述对象分类卷积神经网络应用于每个子图像,并针对每个子图像的每个像素取回多个特征值以生成对象分类输出体量,其中每个特征值来自所述对象分类卷积神经网络的层中的一个层;
将所述对象分类输出体量调整大小到所述当前视频帧的尺寸;
将至少包括所述当前视频帧的特征体量与多个特征帧组合以生成输入体量,其中每个特征帧包括从经调整大小的对象分类输出体量压缩而来的特征;以及
将分割卷积神经网络应用于所述输入体量,以生成针对所述当前视频帧的当前分割帧。


10.根据权利要求9所述的系统,其中,所述经调整大小的当前视频帧的分辨率具有如下的宽度:该宽度包括所述对象分类卷积神经网络的输入宽度与来自上取整函数的输出的积,其中该上取整函数被应用于所述当前视频帧的宽度与所述对象分类卷积神经网络的所述输入宽度的比率。


11.根据权利要求9所述的系统,其中,所述经...

【专利技术属性】
技术研发人员:安东尼·罗德斯马南·戈尔
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1