当前位置: 首页 > 专利查询>奥多比公司专利>正文

用于高效数字对象分割的深度突出内容神经网络制造技术

技术编号:21061099 阅读:57 留言:0更新日期:2019-05-08 07:29
公开了用于利用一个或多个突出内容神经网络在数字视觉媒体中分割对象的系统、方法和非暂态计算机可读介质。具体地,在一个或多个实施例中,所公开的系统和方法训练一个或多个突出内容神经网络以高效地标识数字视觉媒体中的前景像素。此外,在一个或多个实施例中,所公开的系统和方法向移动设备提供经训练的突出内容神经网络,允许移动设备利用经训练的神经网络来直接地选择数字视觉媒体中的突出对象。此外,在一个或多个实施例中,所公开的系统和方法训练并提供多个突出内容神经网络,使得移动设备可以标识实时数字视觉媒体馈送中的对象(利用第一突出内容神经网络)并且标识静态数字图像中的对象(利用第二个突出内容神经网络)。

A Neural Network with Deep Outstanding Contents for Efficient Digital Object Segmentation

【技术实现步骤摘要】
用于高效数字对象分割的深度突出内容神经网络
技术介绍
近年来,已经看到在客户端计算设备上对数字视觉媒体的使用急剧增加。实际上,个体和企业越来越多地将膝上型计算机、平板计算机、智能手机、手持设备和其他移动技术用于涉及数字视觉媒体的各种任务。例如,个体和企业越来越多地利用智能手机来捕获、查看和修改数字视觉媒体,诸如肖像图像、“自拍”或数字视频。尽管传统的数字视觉媒体系统允许用户捕获和修改数字视觉媒体,但是它们也具有许多显著的缺点。例如,传统的数字视觉媒体系统可以利用相机来捕获数字视觉媒体,但是不能容易、快速或高效地从数字视觉媒体中描绘的其他像素中选择或分离个体对象。一些传统的数字视觉媒体系统通过手动跟踪个体周围的边界线来辅助用户分离在数字图像中描绘的对象。然而,依赖于手动跟踪的传统系统在准确性、速度和效率方面具有显著的缺点。实际上,应用这种传统系统通常需要大量时间并且仍然导致不准确的对象分割。其他传统的数字图像编辑系统通过应用机器学习分类模型来选择数字图像中的对象。具体地,传统的数字编辑系统可以应用分类模型,该分类模型将在数字图像中描绘的对象分类为多个对象类别中的一个,并且然后基于所确定的对象类别来对对象进行分割。不幸的是,这些传统工具也有许多缺点。作为初始问题,利用分类模型的传统系统是严格的并且在应用性方面受到限制。例如,利用分类模型的传统系统通常利用有限数量(例如,20或80)的分类类别。这些有限的数目远远不足以涵盖个体或企业在数字视觉媒体中经常遇到的各种对象。另外,利用分类模型的传统数字视觉媒体系统具有高计算性能要求,其使得它们不可能在移动设备上操作。实际上,在移动设备上应用这种分类模型需要比典型移动设备能够提供的更多的存储器和处理能力。此外,利用分类模型的传统数字视觉媒体系统不能跨多个数字图像实时操作。例如,传统的数字视觉媒体系统不能分割在实时数字视觉媒体馈送中描绘的对象(例如,来自智能手机相机的实况视频馈送)。关于标识数字视觉媒体中的对象存在这些和其他问题。
技术实现思路
利用允许利用突出内容神经网络来对在数字视觉媒体中描绘的对象进行高效且准确的分割的系统、方法和非暂态计算机可读介质,本文描述的一个或多个实施例提供了益处和/或解决了本领域中的前述或其他问题中的一个或多个。具体地,在一个或多个实施例中,所公开的系统利用突出内容神经网络来直接在移动设备上选择在数字图像内描绘的对象。例如,在一个或多个实施例中,所公开的系统训练突出内容神经网络以分割数字图像中的前景和背景像素。然后,所公开的系统将该经训练的突出内容神经网络提供给移动设备,以通过分割数字视觉媒体中的前景和背景像素来标识数字视觉媒体内的对象。此外,在一个或多个实施例中,所公开的系统训练并提供不同的突出内容神经网络,以应用于静态和实时实现中。以这种方式,所公开的系统可以利用移动设备的有限计算资源来标识静态数字图像或实时数字视觉媒体馈送中的无限类别的对象,同时保持或改进所得到的分割的准确性(即,在某些实现中,IoU准确度大于96%)。本公开的示例性实施例的附加特征和优点将在下面的描述中阐述,并且部分地将从描述中显而易见,或者可以通过这些示例性实施例的实践来学习。附图说明参考附图描述了具体实施方式,其中:图1图示了根据一个或多个实施例的深度突出对象分割系统可以操作的示例性环境的示意图;图2A图示了根据一个或多个实施例的训练突出内容神经网络的流程图;图2B-2C图示了根据一个或多个实施例的实时突出内容神经网络的示例性架构;图2D-2E图示了根据一个或多个实施例的静态突出内容神经网络的示例性架构;图3图示了根据一个或多个实施例的在移动设备上利用一个或多个突出内容神经网络的流程图;图4A-4D图示了根据一个或多个实施例的具有用于显示数字视觉媒体中的分割对象的图形用户界面的移动设备;图5图示了根据一个或多个实施例的基于来自经训练的对象分类神经网络的通道训练突出内容神经网络的流程图;图6图示了根据一个或多个实施例的基于来自优化突出内容神经网络的优化参数来训练一个或多个突出内容神经网络以在移动设备上操作的流程图;图7图示了根据一个或多个实施例的深度突出对象分割系统的示意图;图8图示了根据一个或多个实施例的用于训练突出内容神经网络以选择数字视觉媒体中的对象的一系列动作的流程图;图9图示了根据一个或多个实施例的用于分割数字视觉媒体内的突出对象的一系列动作的流程图。图10图示了根据一个或多个实施例的示例性计算设备的框图。具体实施方式本公开的一个或多个实施例包括深度突出对象分割系统,其利用突出内容神经网络来标识在数字视觉媒体中描绘的对象。实际上,在一个或多个实施例中,深度突出对象分割系统利用用于语义分割问题的新颖的、重构的方法。具体地,在一个或多个实施例中,给定数字图像,深度突出对象分割系统标识并分割数字图像中的突出前景像素以标识对象,而不是将对象分类为一个或多个类别,然后基于类别分割对象。例如,在一个或多个实施例中,深度突出对象分割系统利用突出内容神经网络(其比传统分类算法明显更紧凑和高效)来直接在移动设备上选择在数字视觉媒体中描绘的对象。具体地,在一个或多个实施例中,深度突出对象分割系统训练一个或多个突出内容神经网络以分割数字视觉媒体中的前景和背景像素,然后将一个或多个经训练的突出内容神经网络提供给移动设备。然后,深度突出对象分割系统可以利用移动设备上经训练的突出神经网络来分割实时数字视觉媒体馈送和/或静态数字图像中的对象。通过利用被训练以分割前景像素和背景像素的突出内容神经网络,深度突出对象分割系统可以解决上述传统系统中的许多问题。例如,深度突出对象分割系统不是严格限于固定数量的对象类别。相反,利用突出内容神经网络,深度突出对象分割系统可以选择在数字图像中描绘的任意对象(即,对应于无限数量的对象类别的对象)。因此,深度突出对象分割系统可以改进传统系统的灵活性。另外,在一个或多个实施例中,深度突出对象分割还改进了计算效率。深度突出对象分割系统可以训练和利用比传统分类模型小得多且较少计算密集度的一个或多个突出内容神经网络。通过训练高效分割前景像素(而不是分类和分割分类对象)的突出内容神经网络,深度突出对象分割系统需要较少的存储器和处理资源。实际上,作为这种改进的计算效率的结果,深度突出对象分割系统也可以更灵活地部署在各种计算设备上。例如,如上所述,深度突出对象分割系统可以将一个或多个突出内容神经网络直接应用于具有有限存储器和处理能力的移动设备(例如智能手机或平板计算机)。因此,尽管传统系统通常需要高功率服务器或其他计算设备来操作,但是深度突出对象分割系统可以允许移动设备标识和分割在数字图像中描绘的对象。此外,在一个或多个实施例中,深度突出对象分割系统在比传统系统更广泛的应用中标识数字图像中的对象。例如,经训练的突出内容神经网络可以利用移动设备不仅分割静态数字图像中的对象,而且可以直接在移动设备上执行数字视觉媒体馈送中的实时分割。因此,所公开的系统通过利用能够在移动设备的有限计算资源上操作的突出内容神经网络,直接在移动设备上提供静态和实时数字视觉媒体两者中的对象的准确选择。此外,深度突出对象分割系统可以在不牺牲准确度和/或处理速度的情况下提供这些益处。例如,与需本文档来自技高网
...

【技术保护点】
1.一种非暂态计算机可读介质,在其上存储有指令,所述指令在由至少一个处理器执行时,使得计算机系统:由移动设备接收描绘一个或多个突出对象的数字图像;访问所述移动设备上的突出内容神经网络,其中所述突出内容神经网络通过以下项而被训练:利用所述突出内容神经网络来预测训练数字图像的前景像素,并将所述训练数字图像的真相前景像素与所述训练数字图像的经预测的所述前景像素进行比较;通过将所述突出内容神经网络应用于所述数字图像,由所述移动设备标识在所述数字图像中被描绘的所述一个或多个突出对象;以及基于在所述数字图像中被描绘的、经标识的所述一个或多个突出对象来生成经修改的数字图像。

【技术特征摘要】
2017.10.31 US 15/799,3951.一种非暂态计算机可读介质,在其上存储有指令,所述指令在由至少一个处理器执行时,使得计算机系统:由移动设备接收描绘一个或多个突出对象的数字图像;访问所述移动设备上的突出内容神经网络,其中所述突出内容神经网络通过以下项而被训练:利用所述突出内容神经网络来预测训练数字图像的前景像素,并将所述训练数字图像的真相前景像素与所述训练数字图像的经预测的所述前景像素进行比较;通过将所述突出内容神经网络应用于所述数字图像,由所述移动设备标识在所述数字图像中被描绘的所述一个或多个突出对象;以及基于在所述数字图像中被描绘的、经标识的所述一个或多个突出对象来生成经修改的数字图像。2.根据权利要求1所述的非暂态计算机可读介质,其中所述数字图像是实时数字视觉媒体馈送的一部分。3.根据权利要求2所述的非暂态计算机可读介质,还包括指令,所述指令在由至少一个处理器执行时,使得所述计算机系统:访问所述移动设备上的第二突出内容神经网络,其中所述第二突出内容神经网络通过以下项而被训练:利用所述第二突出内容神经网络来预测第二训练数字图像的前景像素,并且将所述第二训练数字图像的真相前景像素与所述第二训练数字图像的经预测的所述前景像素进行比较;将所述第二突出内容神经网络应用于所述实时数字视觉媒体馈送,以标识在所述实时数字视觉媒体馈送中被描绘的所述一个或多个突出对象;以及基于在所述实时数字视觉媒体馈送中被描绘的、经标识的所述一个或多个突出对象来生成经修改的数字视觉媒体馈送。4.根据权利要求3所述的非暂态计算机可读介质,还包括指令,所述指令在由所述至少一个处理器执行时,使得所述计算机系统通过以下项来生成所述经修改的数字视觉媒体馈送:对所述实时数字视觉媒体馈送的背景像素和所述实时数字视觉媒体馈送中被描绘的、经标识的所述一个或多个突出对象进行分离;以及修改所述实时数字视觉媒体馈送的所述背景像素或者在所述实时数字视觉媒体馈送中被描绘的、经标识的所述一个或多个突出对象中的至少一个。5.根据权利要求3所述的非暂态计算机可读介质,其中所述第二突出内容神经网络具有比所述突出内容神经网络更快的处理速度。6.根据权利要求4所述的非态计算机可读介质,还包括指令,所述指令在由至少一个处理器执行时使得所述计算机系统:从所述实时数字视觉媒体馈送中捕获所述数字图像;将所述数字图像存储在所述移动设备上;以及通过将所述突出内容神经网络应用于来自所述实时数字视觉媒体馈送的、被存储在所述移动设备上的所述数字图像,来标识在所述数字图像中被描绘的所述一个或多个突出对象。7.根据权利要求1所述的非暂态计算机可读介质,还包括指令,所述指令在由所述至少一个处理器执行时使得所述计算机系统通过以下项生成所述经修改的数字图像:将所述数字图像的背景像素与所述数字图像中被描绘的、经标识的所述一个或多个突出对象进行分离。8.根据权利要求7所述的非暂态计算机可读介质,还包括指令,所述指令在由所述至少一个处理器执行时使得所述计算机系统:通过修改所述数字图像的所述背景像素或者经标识的所述一个或多个突出对象中的至少一个来生成所述经修改的数字图像。9.一种用于训练神经网络以标识数字视觉媒体内的对象的系统,包括:至少一个处理器;以及至少一个非暂态计算机可读存储介质,在其上存储有指令,所述指令在由所述至少一个处理器执行时,使得所述系统:通过利用所述第一突出内容神经网络来生成第一训练数字图像的经预测的前景像素、并且将所述第一训练数字图像的真相前景像素与所述第一训练数字图像的所述经预测的前景像素进行比较,来训练第一突出内容神经网络;通过利用所述第二突出内容神经网络来生...

【专利技术属性】
技术研发人员:卢昕林哲沈晓辉杨济美张健明JC·J·陈刘晨曦
申请(专利权)人:奥多比公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1