当前位置: 首页 > 专利查询>奥多比公司专利>正文

用于定位视频内容中的目标对象的空间-时间记忆网络制造技术

技术编号:23899008 阅读:49 留言:0更新日期:2020-04-22 09:56
本公开的实施例涉及用于定位视频内容中的目标对象的空间‑时间记忆网络。某些方面涉及使用空间‑时间记忆网络来定位视频内容中的一个或多个目标对象,以用于分割或其他对象分类。在一个示例中,视频编辑器通过将空间‑时间记忆网络应用于来自视频内容的查询帧的特征来生成查询键图和查询值图。视频编辑器取回用空间‑时间记忆网络从来自视频内容的记忆帧的集合计算的记忆键图和记忆值图。视频编辑器通过将相似性函数应用于记忆键图和查询键图来计算记忆权重。视频编辑器使用加权和将查询帧中的内容分类为描绘目标特征,该加权和包括被应用于记忆值图中的记忆位置的记忆权重。

A space-time memory network for locating objects in video content

【技术实现步骤摘要】
用于定位视频内容中的目标对象的空间-时间记忆网络相关申请的交叉引用本公开要求于2018年10月12日提交的美国临时申请号62/744,919以及于2019年3月5日提交的美国非临时申请号16/293,126的优先权,其全部内容通过引用并入于此。
本公开总体上涉及用于视频回放系统的视频内容的自动处理。更具体地,但不作为限制,本公开涉及使用空间-时间记忆(memory)网络来定位视频内容中的一个或多个目标对象,以用于有助于视频编辑的分割或其他对象分类。
技术介绍
由于因特网上的共享视频内容的普及,对用不同视觉效果增强视频内容的视频编辑应用有更多的需求。自动视频编辑通常用商业交互工具来执行,新手用户需要大量时间来有效地使用该商业交互工具。在视频编辑器中,用户可能希望向视频添加一个或多个视觉效果,诸如改变背景的颜色、改变前景的颜色、添加插图等。视频编辑可以涉及标识目标特征,该目标特征要跨多个帧被编辑、将跨多个帧保持不变、或其一些组合。在一个示例中,视频编辑可以涉及将前景像素与背景像素分离。前景像素和背景像素的这种分离通常是用于其他视频编辑的初步步骤,其他视频编辑诸如操纵对象的颜色和添加视觉效果(例如,从可以被丢弃或保持不变的背景内容中分割要被编辑的前景对象)。例如,AfterEffectsCC提供了用于视频对象分割的“RotoBrush”工具。然而,现有的视频编辑器通常要求广泛的用户交互,当在视频帧中选择目标对象时,可以证明这些用户交互是繁琐且费力的。例如,视频编辑器工具(例如,RotoBrush)可以用于在一个帧中选择目标对象并将对相同目标对象的选择填充到相邻帧。但是,应用于第一帧中的目标对象的分割掩模相对于如第二帧中所描绘的目标对象可能不准确。例如,如果目标对象的位置或定向在第一帧和第二帧之间改变太多,则被自动填充到第二帧的分割掩模可能无法包含目标对象的部分、可能包含除目标对象之外的对象,或两者都有。用于对视频中的特征进行分类(例如,从背景内容分割前景对象)的常规方法依赖于使用第一帧中的对象分类来检测其他帧中的对象(例如,使用第一帧的掩模来检测其他帧的分割掩模),或将先前的对象分类(例如,之前帧的掩模)传播到后续帧。然而,这些方法在适应跨帧的目标对象的外观变化或防止漂移方面可能具有局限性。在涉及分割的示例中,如果掩模估计方法严重依赖于第一帧的掩模来检测其他帧中的目标对象,则相对于目标对象的外观变化可能降低其他帧中的分割掩模的准确度。在涉及先前帧的掩模的传播的另一示例中,可以跟踪目标对象的外观变化,但是误差累积可能导致被跟踪掩模的大的漂移。例如,被传播的掩模可能模糊到背景或收缩,这可能导致被传播的掩模跟踪期望的目标对象之外的区域或对象。诸如在线学习方法的一些现有技术通过使用经训练的神经网络模型自动执行视频帧中的分类任务(例如,分割前景像素和背景像素)解决了这些问题。在一个示例中,在线学习方法可以在第一帧中使用初始分类任务(例如,应用分割掩模)并且可以微调深度网络模型以记住目标对象或特征的外观。在这些方法中,仅用一个数据样本(即,视频帧的集合的第一帧)来执行深度网络模型的学习过程。在线学习方法可以进一步被分组为基于检测的方法和基于传播的方法。在涉及基于检测的分割的示例中,神经网络模型包括对象特定的检测器,其独立地处理每个视频帧以分割出目标对象。在涉及基于传播的分割的示例中,神经网络被训练以使用时间一致性来传播分割掩模。基于传播的方法学习对象特定的掩模传播器(例如,深度网络),其将未对准的掩模朝向目标对象细化。通过使分割掩模变形或合成图像以学习掩模传播器,从视频的第一帧生成用于该学习任务的模拟训练数据。然而,在线学习方法在计算上可能是昂贵的。例如,在线学习至少要求一些在线训练。例如,如果视频编辑器使用在线学习方法来执行对象分割或其他分类,则在测试时间发生至少一些训练迭代(即,在终端用户的情况下)。这些在线训练迭代增加了编辑过程所要求的计算资源并降低了视频编辑器的响应性。这些计算和响应问题可能不适合交互式编辑平台。
技术实现思路
某些方面涉及使用空间-时间记忆网络来定位视频内容中的一个或多个目标对象,以用于分割或其他对象分类。在一个示例中,视频编辑器通过将空间-时间记忆网络应用于来自视频内容的查询帧的特征来生成查询键图和查询值图。视频编辑器取回从来自视频内容的记忆帧的集合计算的记忆键图和记忆值图。视频编辑器通过将相似性函数应用于记忆键图和查询键图来计算记忆权重。视频编辑器使用加权和将查询帧中的内容分类为描绘目标特征,加权和包括应用于记忆值图中的记忆位置的记忆权重。附图说明当参考附图阅读以下具体实施方式时,将更好地理解本公开的特征、方面和优点。本专利或申请文件包含至少一幅彩色附图。在请求和支付必要费用之后,具有(多幅)彩色附图的本专利或专利申请公开的副本将由事务所提供。图1描绘了根据本公开的某些方面的用于基于记忆的分割或其他视频处理的视频处理环境的示例。图2描绘了根据本公开的某些方面的用于执行基于记忆的视频特征分类的过程的示例。图3描绘了根据本公开的某些方面的用于可以被用在图2描绘的过程中的、图1的空间-时间记忆网络的框架的示例。图4描绘了根据本公开的某些方面的图3的框架中使用的嵌入操作的示例。图5描绘了根据本公开的某些方面的来自图3的框架的实施方式的示例。图6描绘了根据本公开的某些方面的用于在图1-图5的一个或多个示例中使用的空间-时间记忆读取的实施方式的示例。图7描绘了根据本公开的某些方面的用于训练在图1-图6的一个或多个示例中使用的空间-时间记忆网络的训练系统的示例。图8描绘了用于实施本公开的一个或多个方面的计算系统的示例。图9描绘了某些方面和现有技术之间的准确度和速度比较的示例。图10描绘了使用本文描述的某些方面实现的定性结果的示例。图11描绘了本文描述的空间-时间记忆读取操作的示例的可视化。图12描绘了具有和没有由本文描述的某些方面使用的中间帧记忆的结果之间的视觉比较的示例。图13描绘了具有使用由本文描述的某些方面使用的不同记忆管理规则获得的结果的示例的表。具体实施方式某些方面涉及使用空间-时间记忆网络来定位视频内容中的一个或多个目标对象,以用于分割或其他对象分类。例如,使用空间-时间记忆网络的视频编辑器接收视频的一个帧中的目标特征的选择,并且经由应用于查询帧和一个或多个记忆帧的空间-时间记忆网络,将视频的一个或多个其他帧的一个或多个部分自动分类为具有该目标特征。空间-时间记忆网络包含外部记忆存储装置,以用于储存关于记忆帧的分类数据(例如,应用于记忆帧中的目标对象的分割掩模)。在一些方面,利用由该储存的分类数据提供的指导可以避免在线学习方法中存在的计算资源的低效利用。在附加的或备选的方面,空间-时间记忆网络可以提供比可以用于对象分割或其他分类任务的现有记忆网络更大的灵活性。提供以下非限制性实例以介绍某些方面。在该本文档来自技高网
...

【技术保护点】
1.一种非暂态计算机可读介质,其上储存有程序代码,所述程序代码在由一个或多个处理设备执行时使所述一个或多个处理设备执行包括以下操作的操作:/n通过将空间-时间记忆网络应用于描绘目标特征的查询帧,生成查询键图和查询值图;/n从记忆取回记忆键图和记忆值图,所述记忆键图和所述记忆值图从包括所述查询帧的、来自视频内容的记忆帧的集合而被计算;/n通过将相似性函数应用于所述记忆键图和所述查询键图,计算记忆权重;以及/n基于加权和,用所述空间-时间记忆网络将所述查询帧中的内容分类为描绘所述目标特征,所述加权和包括被应用于所述记忆值图中的记忆位置的所述记忆权重。/n

【技术特征摘要】
20181012 US 62/744,919;20190305 US 16/293,1261.一种非暂态计算机可读介质,其上储存有程序代码,所述程序代码在由一个或多个处理设备执行时使所述一个或多个处理设备执行包括以下操作的操作:
通过将空间-时间记忆网络应用于描绘目标特征的查询帧,生成查询键图和查询值图;
从记忆取回记忆键图和记忆值图,所述记忆键图和所述记忆值图从包括所述查询帧的、来自视频内容的记忆帧的集合而被计算;
通过将相似性函数应用于所述记忆键图和所述查询键图,计算记忆权重;以及
基于加权和,用所述空间-时间记忆网络将所述查询帧中的内容分类为描绘所述目标特征,所述加权和包括被应用于所述记忆值图中的记忆位置的所述记忆权重。


2.根据权利要求1所述的非暂态计算机可读介质,其中将所述查询帧中的所述内容分类为描绘所述目标特征包括:生成用于所述查询帧中的目标对象的分割掩模,其中第一记忆帧具有所述目标特征的第一选择,所述目标特征的第一选择基于(i)所述视频内容的真值帧中的所述目标特征的用户指定的选择以及(ii)针对第二记忆帧计算的、所述目标特征的第二选择而被计算,其中所述目标特征的所述用户指定的选择包括标识所述真值帧中的所述目标对象的一个或多个用户输入,其中生成所述分割掩模包括:
从所述加权和计算输出值图;以及
通过解码所述输出值图来构造所述分割掩模。


3.根据权利要求2所述的非暂态计算机可读介质,其中计算所述输出值图包括:将所述查询值图与所述加权和级联。


4.根据权利要求1所述的非暂态计算机可读介质,其中第一记忆帧具有所述目标特征的第一选择,所述目标特征的第一选择基于(i)所述视频内容的真值帧中的所述目标特征的用户指定的选择以及(ii)针对第二记忆帧计算的、所述目标特征的第二选择而被计算,其中将所述查询帧中的所述内容分类为描绘所述目标特征包括:生成经合并的掩模概率图,所述经合并的掩模概率图指示(i)所述查询帧中的像素是目标对象的第一概率以及(ii)所述查询帧中的像素是不同目标对象的第二概率,其中生成所述经合并的掩模概率图包括:
从所述加权和计算针对所述目标对象的第一掩模概率图;
从所述记忆取回附加的记忆键图和附加的记忆值图,所述附加的记忆键图和所述附加的记忆值图至少部分地使用所述真值帧中的所述不同目标对象的附加的用户指定的选择而被计算;
通过将相似性函数应用于所述附加的记忆键图和所述查询键图来计算附加的记忆权重;
从附加的加权和计算针对所述不同目标对象的第二掩模概率图,所述附加的加权和包括被应用于所述附加的记忆值图中的记忆位置的所述附加的记忆权重;以及
经由软聚合操作,合并所述第一掩模概率图和所述第二掩模概率图。


5.根据权利要求2所述的非暂态计算机可读介质,其中生成所述查询键图和所述查询值图包括:将所述空间-时间记忆网络的查询编码器和嵌入层应用于所述查询帧的特征,其中将所述查询编码器应用于所述查询帧的特征包括:向所述查询编码器输入没有任何分割掩模的所述查询帧,
其中所述操作还包括:在所述取回之前生成所述记忆键图和所述记忆值图,其中生成所述记忆键图和所述记忆值图包括:
分别计算针对所述记忆帧的集合的个体记忆特征图,其中计算针对相应的记忆帧的每个个体记忆特征图包括:
(a)访问所述相应的记忆帧、以及由所述空间-时间记忆网络针对所述相应的记忆帧计算的相应的记忆分割掩模,
(b)通过将所述相应的记忆帧和所述相应的记忆分割掩模级联,生成经级联的输入,以及
(c)将所述经级联的输入输入到所述空间-时间记忆网络的记忆编码器,以及
(d)用所述记忆编码器将所述经级联的输入编码成所述个体记忆特征图,
将所述个体记忆特征图嵌入到个体记忆键图的集合和个体记忆值图的集合中,其中每个个体记忆键图具有比对应的个体记忆值图更小的维度,
将所述个体记忆键图的集合组合成所述记忆键图,以及
将所述个体记忆值图的集合组合成所述记忆值图。


6.根据权利要求5所述的非暂态计算机可读介质,其中将所述个体记忆键图的集合组合成所述记忆键图包括:沿所述个体记忆键图的集合中的时间维度堆叠所述个体记忆键图的集合,其中将所述个体记忆值图的集合组合成所述记忆值图包括:沿所述个体记忆值图的集合中的时间维度堆叠所述个体记忆值图的集合。


7.根据权利要求1所述的非暂态计算机可读介质,其中所述记忆帧的集合是来自所述视频内容的记忆帧的附加集合的子集,其中所述操作还包括:
标识超参数值,所述超参数值指示要被使用以对所述查询帧中的所述内容进行分类的中间记忆帧的数目;以及
基于所述超参数,选择所述记忆帧的集合。


8.根据权利要求7所述的非暂态计算机可读介质,其中所述超参数指示以下中的一项或多项:
所述记忆帧的集合的语义多样性;以...

【专利技术属性】
技术研发人员:李俊荣徐宁吴昇旭
申请(专利权)人:奥多比公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1