【技术实现步骤摘要】
用于定位视频内容中的目标对象的空间-时间记忆网络相关申请的交叉引用本公开要求于2018年10月12日提交的美国临时申请号62/744,919以及于2019年3月5日提交的美国非临时申请号16/293,126的优先权,其全部内容通过引用并入于此。
本公开总体上涉及用于视频回放系统的视频内容的自动处理。更具体地,但不作为限制,本公开涉及使用空间-时间记忆(memory)网络来定位视频内容中的一个或多个目标对象,以用于有助于视频编辑的分割或其他对象分类。
技术介绍
由于因特网上的共享视频内容的普及,对用不同视觉效果增强视频内容的视频编辑应用有更多的需求。自动视频编辑通常用商业交互工具来执行,新手用户需要大量时间来有效地使用该商业交互工具。在视频编辑器中,用户可能希望向视频添加一个或多个视觉效果,诸如改变背景的颜色、改变前景的颜色、添加插图等。视频编辑可以涉及标识目标特征,该目标特征要跨多个帧被编辑、将跨多个帧保持不变、或其一些组合。在一个示例中,视频编辑可以涉及将前景像素与背景像素分离。前景像素和背景像素的这种分离通常是用于其他视频编辑的初步步骤,其他视频编辑诸如操纵对象的颜色和添加视觉效果(例如,从可以被丢弃或保持不变的背景内容中分割要被编辑的前景对象)。例如,AfterEffectsCC提供了用于视频对象分割的“RotoBrush”工具。然而,现有的视频编辑器通常要求广泛的用户交互,当在视频帧中选择目标对象时,可以证明这些用户交互是繁琐且费力的。例如,视频编辑器工具(例如,RotoBrush)可 ...
【技术保护点】
1.一种非暂态计算机可读介质,其上储存有程序代码,所述程序代码在由一个或多个处理设备执行时使所述一个或多个处理设备执行包括以下操作的操作:/n通过将空间-时间记忆网络应用于描绘目标特征的查询帧,生成查询键图和查询值图;/n从记忆取回记忆键图和记忆值图,所述记忆键图和所述记忆值图从包括所述查询帧的、来自视频内容的记忆帧的集合而被计算;/n通过将相似性函数应用于所述记忆键图和所述查询键图,计算记忆权重;以及/n基于加权和,用所述空间-时间记忆网络将所述查询帧中的内容分类为描绘所述目标特征,所述加权和包括被应用于所述记忆值图中的记忆位置的所述记忆权重。/n
【技术特征摘要】
20181012 US 62/744,919;20190305 US 16/293,1261.一种非暂态计算机可读介质,其上储存有程序代码,所述程序代码在由一个或多个处理设备执行时使所述一个或多个处理设备执行包括以下操作的操作:
通过将空间-时间记忆网络应用于描绘目标特征的查询帧,生成查询键图和查询值图;
从记忆取回记忆键图和记忆值图,所述记忆键图和所述记忆值图从包括所述查询帧的、来自视频内容的记忆帧的集合而被计算;
通过将相似性函数应用于所述记忆键图和所述查询键图,计算记忆权重;以及
基于加权和,用所述空间-时间记忆网络将所述查询帧中的内容分类为描绘所述目标特征,所述加权和包括被应用于所述记忆值图中的记忆位置的所述记忆权重。
2.根据权利要求1所述的非暂态计算机可读介质,其中将所述查询帧中的所述内容分类为描绘所述目标特征包括:生成用于所述查询帧中的目标对象的分割掩模,其中第一记忆帧具有所述目标特征的第一选择,所述目标特征的第一选择基于(i)所述视频内容的真值帧中的所述目标特征的用户指定的选择以及(ii)针对第二记忆帧计算的、所述目标特征的第二选择而被计算,其中所述目标特征的所述用户指定的选择包括标识所述真值帧中的所述目标对象的一个或多个用户输入,其中生成所述分割掩模包括:
从所述加权和计算输出值图;以及
通过解码所述输出值图来构造所述分割掩模。
3.根据权利要求2所述的非暂态计算机可读介质,其中计算所述输出值图包括:将所述查询值图与所述加权和级联。
4.根据权利要求1所述的非暂态计算机可读介质,其中第一记忆帧具有所述目标特征的第一选择,所述目标特征的第一选择基于(i)所述视频内容的真值帧中的所述目标特征的用户指定的选择以及(ii)针对第二记忆帧计算的、所述目标特征的第二选择而被计算,其中将所述查询帧中的所述内容分类为描绘所述目标特征包括:生成经合并的掩模概率图,所述经合并的掩模概率图指示(i)所述查询帧中的像素是目标对象的第一概率以及(ii)所述查询帧中的像素是不同目标对象的第二概率,其中生成所述经合并的掩模概率图包括:
从所述加权和计算针对所述目标对象的第一掩模概率图;
从所述记忆取回附加的记忆键图和附加的记忆值图,所述附加的记忆键图和所述附加的记忆值图至少部分地使用所述真值帧中的所述不同目标对象的附加的用户指定的选择而被计算;
通过将相似性函数应用于所述附加的记忆键图和所述查询键图来计算附加的记忆权重;
从附加的加权和计算针对所述不同目标对象的第二掩模概率图,所述附加的加权和包括被应用于所述附加的记忆值图中的记忆位置的所述附加的记忆权重;以及
经由软聚合操作,合并所述第一掩模概率图和所述第二掩模概率图。
5.根据权利要求2所述的非暂态计算机可读介质,其中生成所述查询键图和所述查询值图包括:将所述空间-时间记忆网络的查询编码器和嵌入层应用于所述查询帧的特征,其中将所述查询编码器应用于所述查询帧的特征包括:向所述查询编码器输入没有任何分割掩模的所述查询帧,
其中所述操作还包括:在所述取回之前生成所述记忆键图和所述记忆值图,其中生成所述记忆键图和所述记忆值图包括:
分别计算针对所述记忆帧的集合的个体记忆特征图,其中计算针对相应的记忆帧的每个个体记忆特征图包括:
(a)访问所述相应的记忆帧、以及由所述空间-时间记忆网络针对所述相应的记忆帧计算的相应的记忆分割掩模,
(b)通过将所述相应的记忆帧和所述相应的记忆分割掩模级联,生成经级联的输入,以及
(c)将所述经级联的输入输入到所述空间-时间记忆网络的记忆编码器,以及
(d)用所述记忆编码器将所述经级联的输入编码成所述个体记忆特征图,
将所述个体记忆特征图嵌入到个体记忆键图的集合和个体记忆值图的集合中,其中每个个体记忆键图具有比对应的个体记忆值图更小的维度,
将所述个体记忆键图的集合组合成所述记忆键图,以及
将所述个体记忆值图的集合组合成所述记忆值图。
6.根据权利要求5所述的非暂态计算机可读介质,其中将所述个体记忆键图的集合组合成所述记忆键图包括:沿所述个体记忆键图的集合中的时间维度堆叠所述个体记忆键图的集合,其中将所述个体记忆值图的集合组合成所述记忆值图包括:沿所述个体记忆值图的集合中的时间维度堆叠所述个体记忆值图的集合。
7.根据权利要求1所述的非暂态计算机可读介质,其中所述记忆帧的集合是来自所述视频内容的记忆帧的附加集合的子集,其中所述操作还包括:
标识超参数值,所述超参数值指示要被使用以对所述查询帧中的所述内容进行分类的中间记忆帧的数目;以及
基于所述超参数,选择所述记忆帧的集合。
8.根据权利要求7所述的非暂态计算机可读介质,其中所述超参数指示以下中的一项或多项:
所述记忆帧的集合的语义多样性;以...
【专利技术属性】
技术研发人员:李俊荣,徐宁,吴昇旭,
申请(专利权)人:奥多比公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。