使用门控变压器神经网络处理视频内容制造技术

技术编号：41854522 阅读：19 留言：0更新日期：2024-06-27 18:30

本公开的某些方面提供了用于使用机器学习模型处理视频流的技术和装置。一种示例方法一般包括从该视频流的第一帧生成第一令牌组以及从该视频流的第二帧生成第二令牌组。基于来自该第一令牌组的令牌与该第二令牌组中的对应令牌的比较，标识与来自该第一帧的要重用的特征相关联的第一令牌集以及与来自该第二帧的要计算的特征相关联的第二令牌集。生成针对该第二帧的对应于该第二令牌集的部分的特征输出。将与该第一令牌集相关联的特征与所生成特征输出组合成该第二帧的表示。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

技术介绍

1、本公开的各方面涉及机器学习，并且更具体地涉及使用人工神经网络来处理视频内容。

2、在各种情况下，人工神经网络可用于处理视频内容，诸如标识所捕获的视频内容中的对象，估计在视频内容中检测到的人的姿态，或者对视频内容进行语义分割，以及基于标识所捕获的视频内容中的对象来执行各种操作。例如，在自主车辆应用中，人工神经网络可用于标识自主车辆正在行进的路径中的障碍物或其他对象，并且对这些障碍物或对象的标识可用于控制车辆以便避免与这些障碍物或对象碰撞(例如，通过绕过这些障碍物、在与对象碰撞之前停车等)。在监控应用中，人工神经网络可用于检测监控环境中的运动。

3、一般而言，可根据空间维度和时间维度来定义视频内容。可基于在视频内容中的给定空间位置处检测到的像素值的变化来在时间维度上检测随时间的运动。例如，背景内容可在时间维度上保持静态或基本上静态；然而，当(非伪装的)对象在时间维度上移动时，这些对象的空间位置可以改变。因此，进入某个区域的运动可被可视化为从静态像素值到与对象相关联的像素值的变化；同样，区域外的运动可被...

【技术保护点】

1.一种用于使用机器学习模型处理视频流的处理器实现的方法，所述处理器实现的方法包括：

2.根据权利要求1所述的方法，其中所述视频流的所述第二帧包括具有比所述第一帧更晚的时间戳的帧。

3.根据权利要求1所述的方法，其中：

4.根据权利要求3所述的方法，其中：

5.根据权利要求1所述的方法，其中：

6.根据权利要求1所述的方法，其中通过经由二元门输入所述第一令牌组和所述第二令牌组来标识所述第一令牌集和所述第二令牌集，所述二元门被训练以最小化作为用于生成与所述第一令牌集相关联的所述特征的多个层中的每个层的计算复杂性以及针对所述第二帧的...

【技术特征摘要】
【国外来华专利技术】

1.一种用于使用机器学习模型处理视频流的处理器实现的方法，所述处理器实现的方法包括：

2.根据权利要求1所述的方法，其中所述视频流的所述第二帧包括具有比所述第一帧更晚的时间戳的帧。

3.根据权利要求1所述的方法，其中：

4.根据权利要求3所述的方法，其中：

5.根据权利要求1所述的方法，其中：

6.根据权利要求1所述的方法，其中通过经由二元门输入所述第一令牌组和所述第二令牌组来标识所述第一令牌集和所述第二令牌集，所述二元门被训练以最小化作为用于生成与所述第一令牌集相关联的所述特征的多个层中的每个层的计算复杂性以及针对所述第二帧的对应于所述第二令牌组的所述部分生成的所述特征输出的函数的损失函数。

7.根据权利要求1所述的方法，所述方法还包括标识对应于所述视频流中的可移除数据的第三令牌组，其中所述特征输出排除对应于所述第三令牌组的特征。

8.根据权利要求7所述的方法，其中通过三元门来标识所述第一令牌组、所述第二令牌组和所述第三令牌组，所述三元门被训练以最小化：作为用于生成与所述第一令牌集相关联的所述特征的多个层中的每个层的计算复杂性以及针对所述第二帧的对应于所述第二令牌组的所述部分生成的所述特征输出的函数的损失函数；以及针对零状态、共享状态和计算状态中的每一者的正则化因子，在所述共享状态，所述第一令牌组中的令牌与所述第二令牌组中的对应令牌相同，在所述计算状态，所述第一令牌组中的令牌与所述第二令牌组中的令牌不同。

9.一种使用机器学习模型处理视频流的系统，所述系统包括包括：

10.根据权利要求9所述的系统，其中所述视频流的所述第二帧包括具有比所述第一帧更晚的时间戳的帧。

11.根据权利要求9所述的系统，其中：

12.根据权利要求11所述的系统，其中：

13.根据权利要求9所述的系统，其中：

14.根据权利要求9所述的系统，其中通过经由二元门输入所述第一令牌组和所述第二令牌组来标识所述第一令牌集和所述第二令牌集，所述二元门被训练以最小化作为用于生成与所述第一令牌集相关联的所述特征的多个层中的每个层的计算复杂性以及针对所述第二帧的对应于所述第二令牌组的所述部分生成的所述特征输出的函数的损失函数。

15.根据权利要求9所述的系统，其中所述处理器还被配置为使所述系统标识对应于所述视频流中的可移除数据的第三令牌组，其中所述特...

【专利技术属性】
技术研发人员：Y·李，B·慕斯，T·P·F·布兰克沃特，A·哈比比安，B·艾特沙米·贝诺狄，
申请(专利权)人：高通股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人