时空动作与角色定位制造技术

技术编号:24693980 阅读:50 留言:0更新日期:2020-06-27 12:48
一种在一序列帧中像素级定位角色和动作的方法,包括接收描述该动作和该角色的自然语言查询。该方法还包括接收该序列帧。该方法还包括基于自然语言查询在该序列帧中定位该动作和该角色。

Spatiotemporal action and role orientation

【技术实现步骤摘要】
【国外来华专利技术】时空动作与角色定位相关申请的交叉引用本申请要求于2018年11月13日提交的标题为“时空动作与角色定位”的美国专利申请No.16/189,974的权益,该专利申请要求于2017年11月14日提交的标题为“时空动作与角色定位”的美国临时专利申请No.62/586,071的权益,以上申请所公开的全部内容通过引用的方式明确地并入本文。
本公开的方面总体上涉及角色和动作的定位,更具体地,涉及基于自然语言查询的用于在一序列帧中定位角色和动作的系统和方法。
技术介绍
可以包括互连的一组人工神经元(例如神经元模型)的人工神经网络是一种计算设备,或者表示一种由计算设备执行的方法。人工神经网络(ANN)可以在一序列帧(诸如视频)上追踪目标。例如,目标追踪器可以在序列的初始帧处观察到目标的情况下,预测目标在视频序列上的位置。目标追踪(例如,对象追踪)可以用于互联网协议(IP)摄像机、物联网(IoT)、自主驾驶和/或服务机器人的各种应用中。对象追踪应用可以改善用于规划的目标路径的理解。例如,在自主驾驶期间,动作定位被使用以避免与行人和自行车骑手碰撞。常规的对象定位系统将对象在单个图像(例如帧)中定位。基于视频的第一帧中的定位,可以追踪通过多个帧的对象。在一些情况下,常规的对象定位系统基于自然语言查询来定位对象。例如,常规的对象定位系统可以接收查询:“穿红衫的女人”。在这个示例中,基于该查询,一个或多个穿红衫的女人在图像内被标识。具体地,常规的对象定位系统可以定位(例如,标识)和分类(例如,标签)该一个或多个穿红衫的女人。基于分类和定位,可以追踪通过后续帧来追踪一个或多个女人。诸如穿红色衬衫的一个或多个女人的被标识的角色(例如,对象),可以通过注释被标识的角色的定位的边界框而被标识。常规的对象定位系统仅限于在第一帧(例如,单个图像)中定位对象,然后基于在第一帧中的定位来定位通过后续帧的对象。在一些情况下,当在视频帧中存在具有相似外观的两个或更多个对象时,定位可能失败。例如,可能在一帧中存在两个穿红色衬衫的女人。在这个示例中,针对诸如“穿着红色衬衫跑步的女人”的查询,常规的对象定位系统不能从仅单个帧确定是否一个女人在走路,而另一个女人在跑步。因此,在这个示例中,定位可能失败(例如,标识不正确的女人)。希望的是改善依赖单个图像(例如,帧)的基于查询来定位角色和动作的系统。具体地,希望的是改善对象定位系统以通过区分由对象执行的动作来基于自然语言查询来定位视频中的对象。公开内容在本公开的一方面中,公开了一种用于在一序列帧中像素级定位角色和动作的方法。该方法包括接收描述动作和角色的自然语言查询。该方法还包括接收该序列帧。该方法还包括基于自然语言查询来在该序列帧中定位动作和角色。本公开的另一方面涉及包括用于接收描述动作和角色的自然语言查询的器件的装置。该装置还包括用于接收该序列帧的器件。该装置还包括基于自然语言查询的用于在该序列帧中定位动作和角色的器件。在本公开的另一方面中,非暂时性计算机可读介质记录了程序代码。程序代码用于在一序列帧中像素级定位角色和动作。该程序代码由处理器执行,并且包括接收描述动作和角色的自然语言查询的程序代码。该程序代码还包括接收该序列帧的程序代码。该程序代码还包括基于自然语言查询的用于在该序列帧中定位动作和角色的程序代码。本公开的另一方面涉及一种用于在一序列帧中像素级定位角色和动作的装置。该装置具有存储器和耦合到该存储器的一个或多个处理器。(一个或多个)处理器被配置为接收描述动作和角色的自然语言查询。(一个或多个)处理器还被配置为接收概序列帧。(一个或多个)处理器还被配置为基于自然语言查询来定位该序列帧中定位动作和角色。这相当广泛地概述了本公开的特征和技术优势,以便更好地理解以下详细描述。下面将描述本公开的附加特征和优点。由本领域技术人员应当理解的是,本公开可以容易地用作修改或设计用于实行与本公开相同目的其他结构的基础。由本领域技术人员还应当认识到的是,此类等效结构不背离在所附权利要求中阐述的本公开的教导。当结合附图考虑时,将从以下描述中更好地理解被认为是本公开的特征的新颖特征(包括其组织和操作方法二者),以及额外的目的和优点。然而,应明确理解的是,所提供的附图的每个附图仅用于说明和描述的目的,而不旨在限制本公开的限定。附图说明本公开的特征、性质和优点将从下文所阐述的详细描述变得更加明显,当结合附图参照时,在附图中相似的附图标记始终被对应地标识。图1图示了根据本公开的某些方面的使用包括通用处理器的片上系统(S^C)设计神经网络的示例实现方式。图2A、图2B和图2C是图示根据本公开的方面的神经网络的图。图2D是图示根据本公开的方面的示例性深度卷积网络(DCN)的图。图3是图示根据本公开的方面的深度卷积网络(DCN)的框图。图4是图示根据本公开的方面的在包括角色和动作定位模块的示例性装置中的不同模块/器件/部件的框图。图5是图示根据本公开的方面的定位管的示例。图6A、图6B和图6C图示了角色定位的示例。图7图示了了根据本公开的方面的分割角色和动作的示例。图8图示了根据本公开的方面的图示角色和动作定位模型的示例。图9图示了根据本公开的方面的用于基于自然语言查询的在一序列帧中像素级定位角色和动作的方法的流程图。具体实施方式下文结合附图阐述的详细描述旨在描述各种配置,而不是旨在表示本文所描述的概念的仅可以在这些配置中被实践。详细描述包括具体细节,目的是提供对各种概念的透彻理解。然而,对于本领域技术人员而言显而易见的是,这些概念可以在不具有这些具体细节的情况下被实践。在一些实例中,众所周知的结构和部件在框图的形式中示出以避免混淆这些概念。基于所述教导,本领域技术人员应当理解的是,本公开的范围旨在涵盖无论是独立于本公开的任何其他方面实现的还是与本公开的任何其他方面结合的本公开的任何方面。例如,可以使用所阐述的任何数目的方面来实现设备或实践方法。此外,本公开的范围旨在涵盖除了所阐述的公开的各个方面之外的使用其他结构、功能或结构和功能来实践的装置或方法。应当理解的是,本公开所公开的任何方面可以由权利要求的一个或多个元件实施。本文使用的词语“示例性”意味着“作为示例、实例或说明”。本文描述为“示例性”的任何方面不一定被解释为优选的或优于其他方面。尽管本文描述了特定方面,但是这些方面的许多变化和排列落在本公开的范围内。尽管提及了优选方面的一些益处和优点,但本公开的范围并不旨在限制于特定的益处、使用或目标。而是,本公开的方面旨在被广泛地适用于不同的技术、系统配置、网络和协议,其中一些在附图和以下对优选方面的描述的中由示例的方式示出。详细描述和附图仅仅是对本公开的说明,而不是限制由所附权利要求及其等效物限定的本公开的范围。本公开的各个方面涉及响应于自然语言查询(诸如,“穿着白衬衫和狗一起跑的人”(见图7))分割在一序列帧(例如视频)中执行本文档来自技高网...

【技术保护点】
1.一种在一序列帧中像素级定位角色和动作的方法,包括:/n接收描述所述动作和所述角色的自然语言查询;/n接收所述序列帧;以及/n基于所述自然语言查询,在所述序列帧中定位所述动作和所述角色。/n

【技术特征摘要】
【国外来华专利技术】20171114 US 62/586,071;20181113 US 16/189,9741.一种在一序列帧中像素级定位角色和动作的方法,包括:
接收描述所述动作和所述角色的自然语言查询;
接收所述序列帧;以及
基于所述自然语言查询,在所述序列帧中定位所述动作和所述角色。


2.根据权利要求1所述的方法,其中定位所述动作和所述角色包括:
基于所述自然语言查询,生成第一组动态过滤器;
基于所述第一组动态过滤器,将标签应用于在所述序列帧的每个帧中的每个像素;
基于所述标签,在每个帧中定位所述动作和所述角色。


3.根据权利要求2所述的方法,其中定位所述动作和所述角色还包括:
上采样所述序列帧的视觉表示的分辨率;
基于所述自然语言查询和所上采样的分辨率,生成第二组动态过滤器;以及
将所述上采样的视觉表示与所述第二组动态过滤器卷积以生成响应图。


4.根据权利要求3所述的方法,还包括:针对所述视觉表示的每个分辨率,重复所述上采样、所述生成以及所述卷积。


5.根据权利要求3所述的方法,其中所述第一组动态过滤器和所述第二组动态过滤器是二维过滤器或三维过滤器。


6.根据权利要求1所述的方法,还包括:基于所定位的动作和角色来控制装置。


7.一种用于在一序列帧中像素级定位角色和动作的装置,所述装置包括:
用于接收描述所述动作和所述角色的自然语言查询的器件;
用于接收所述序列帧的器件;以及
用于基于所述自然语言查询,在所述序列帧中定位所述动作和所述角色的器件。


8.根据权利要求7,其中用于定位所述动作和所述角色的所述器件包括:
用于基于所述自然语言查询生成第一组动态过滤器的器件;
用于基于所述第一组动态过滤器而将标签应用于在所述序列帧的每个帧中的每个像素的器件;以及
用于基于所述标签而在每个帧中定位所述动作和所述角色的器件。


9.根据权利要求8所述的装置,其中用于定位所述动作和所述角色的所述器件还包括:
用于上采样所述序列帧的视觉表示的分辨率的器件;
用于基于所述自然语言查询和所述上采样的分辨率而生成第二组动态过滤器的器件;以及
用于将所上采样的视觉表示与所述第二组动态过滤器卷积以生成响应图的器件。


10.根据权利要求9所述的装置,还包括:用于针对所述视觉表示的每个分辨率重复上采样、生成和卷积的器件。


11.根据权利要求9所述的装置,其中所述第一组动态过滤器和所述第二组动态过滤器是二维过滤器或三维过滤器。


12.根据权利要求7所述的装置,还包括:用于基于所定位的动作和角色来控制所述装置的器件。


13.一种用于在一序列帧中像素级定位角色和动作的装置,所述装置包括:
存储器;以及
耦合到所述存储器的至少一个处理器,所述至少一个处理器被配置为:
接收...

【专利技术属性】
技术研发人员:K·加弗里尔尤克A·戈德拉蒂李振扬C·G·M·斯诺克
申请(专利权)人:高通股份有限公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利