用于利用教师和学生框架训练机器学习模型的系统和方法技术方案

技术编号：41921803 阅读：14 留言：0更新日期：2024-07-05 14:21

用于训练具有教师和学生框架的对象检测机器学习模型的系统和方法。该训练旨在利用大量无标签的图像或视频帧以及少量有标签的图像或视频帧来进行半监督视频对象检测。例如，可以基于有标签视频数据并且利用经过预训练的权重来预训练对象检测机器学习模型，这用经过预训练的权重来初始化教师模型和学生模型。训练教师模型以生成无标签视频数据的伪标签。训练学生模型以生成无标签视频数据的预测的伪标签，其中学生模型的训练基于(i)有标签视频数据和(ii)与无标签视频数据相关联的伪标签。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及用于利用教师和学生框架来训练对象检测机器学习模型的系统和方法。

技术介绍

1、图像对象分类通常涉及处理图像(例如，静态图像)以确定一个或多个显著(例如，共同)对象的存在和位置，并输出标识图像中每个对象所在的像素的遮罩或边界框。还可以基于对象识别技术对表示检测到的对象的像素进行分类(例如，人、动物、车辆)。视频对象分类是类似的，但是视频是一段时间内的帧序列，其中每一帧定义一幅图像，并且其中对象在不同帧中的位置可能有所不同。例如，视频可以从初始帧开始，并以有序序列前进到后续帧。视频剪辑可以是整个视频或视频的一部分，从初始帧——例如参考帧——开始到后续帧，直到剪辑结束。出现在参考帧中的对象可以将位置从一个帧移动到另一个帧，例如，因为对象相对于相机在运动，相机相对于对象在运动，或者相机和对象都在移动。此外，当对象从一个帧移动到另一个帧时，该对象的分类的可靠性或确定性可能发生变化。出于许多原因，期望通过视频剪辑对对象进行准确和可靠的跟踪和分类。例如，在自主车辆的情况下，行人的位置对于操纵(例如，制动、转向)车辆以避免碰撞可能是重要的。检测和跟踪对象也可能具有其他目的。

2、对计算设备而言，通过视频检测、分类和跟踪对象有挑战性。使用利用监督学习技术训练的各种网络模型来标识和分类单个静态图像中的对象的图像处理技术是公知的。然而，从视频中的一个图像到下一个图像来标识和分类对象可能带来问题。已知的网络没有为这样的任务进行适当的训练。一个问题是用于监督学习的合适的训练数据不是广泛可用的。

技术实现思路

1、根据一个实施例，提供了一种训练对象检测机器学习模型的方法。该方法包括：接收从一个或多个相机导出的视频数据；从视频数据中提取有标签视频数据和无标签视频数据，其中有标签视频数据包括与视频数据中的一个或多个检测到的对象对应的标签；基于有标签视频数据来预训练对象检测机器学习模型，其中该预训练利用经过预训练的权重，并且其中该预训练用经过预训练的权重来初始化教师模型和学生模型两者；训练教师模型以生成无标签视频数据的伪标签，其中教师模型的训练基于无标签视频数据，其中教师模型利用基于经过预训练的权重来初始化的教师权重；训练学生模型以生成无标签视频数据的预测标签，其中学生模型的训练基于(i)有标签视频数据和(ii)与无标签视频数据相关联的伪标签，其中学生模型利用基于经过预训练的权重来初始化的学生权重，其中学生模型的训练的迭代使学生权重更新；基于预测标签和伪标签来更新学生权重；基于学生权重来更新教师权重；以及重复训练教师模型、训练学生模型、以及更新学生权重和教师权重的步骤，直到与教师权重和学生权重两者都收敛。

2、根据一个实施例，一种用于训练对象检测机器学习模型的系统，包括处理器和其上存储有指令的存储器，该指令当由处理器执行时使处理器执行以下操作：接收从一个或多个相机导出的视频数据；从视频数据中提取有标签视频数据和无标签视频数据，其中有标签视频数据包括与视频数据中的一个或多个检测到的对象对应的标签；基于有标签视频数据来预训练对象检测机器学习模型，其中该预训练利用经过预训练的权重，并且其中该预训练用经过预训练的权重来初始化教师模型和学生模型两者；训练教师模型以生成无标签视频数据的伪标签，其中教师模型的训练基于无标签视频数据，其中教师模型利用基于经过预训练的权重来初始化的教师权重；训练学生模型以生成无标签视频数据的预测标签，其中学生模型的训练基于(i)有标签视频数据和(ii)与无标签视频数据相关联的伪标签，其中学生模型利用基于经过预训练的权重来初始化的学生权重，其中学生模型的训练的迭代使学生权重更新；基于预测标签和伪标签来更新学生权重；基于学生权重来更新教师权重；以及重复对教师模型的训练、对学生模型的训练、以及对学生权重和教师权重的更新，直到与教师权重和学生权重两者都收敛。

3、根据一个实施例，一种训练对象检测机器学习模型的方法，包括：接收从一个或多个相机导出的视频数据；从视频数据中提取有标签视频数据和无标签视频数据，其中有标签视频数据包括与视频数据中的一个或多个检测到的对象对应的标签；基于有标签视频数据来预训练对象检测机器学习模型，其中该预训练利用经过预训练的权重，并且其中该预训练用经过预训练的权重来初始化教师模型和学生模型两者；以及进行以下操作直到收敛：训练教师模型以生成无标签视频数据的伪标签，其中教师模型的训练基于无标签视频数据，其中教师模型利用基于经过预训练的权重来初始化的教师权重；以及训练学生模型以生成无标签视频数据的预测标签，其中学生模型的训练基于(i)有标签视频数据和(ii)与无标签视频数据相关联的伪标签，其中学生模型利用基于经过预训练的权重来初始化的学生权重，其中学生模型的训练的迭代使学生权重更新。

本文档来自技高网...

【技术保护点】

1.一种训练对象检测机器学习模型的方法，所述方法包括：

2.根据权利要求1所述的方法，其中所述收敛产生经训练的对象检测机器学习模型，所述对象检测机器学习模型被配置为给无标签视频数据加标签。

3.根据权利要求1所述的方法，其中所述有标签视频数据和所述无标签视频数据中的每一个分别包括关键帧和与所述关键帧相邻的多个参考帧。

4.根据权利要求3所述的方法，进一步包括：

5.根据权利要求4所述的方法，进一步包括：

6.根据权利要求1所述的方法，其中所述教师权重的更新基于所述学生模型的当前权重的指数移动平均。

7.根据权利要求3所述的方法，其中所述伪标签包括与所述视频数据中的检测到的对象相关联的类别信息，以及关于检测到的对象的边界框。

8.根据权利要求7所述的方法，进一步包括：

9.根据权利要求8所述的方法，其中所述过滤包括：

10.根据权利要求9所述的方法，其中所述边界框的类别不确定性由下式来确定：

11.根据权利要求9所述的方法，进一步包括：

12.一种用于

13.根据权利要求12所述的系统，其中所述收敛产生经训练的对象检测机器学习模型，所述对象检测机器学习模型被配置为给无标签视频数据加标签。

14.根据权利要求12所述的系统，其中所述有标签视频数据和所述无标签视频数据中的每一个分别包括关键帧和与所述关键帧相邻的多个参考帧。

15.根据权利要求14所述的系统，其中所述指令进一步使所述处理器：

16.根据权利要求15所述的系统，其中所述指令进一步使所述处理器：

17.根据权利要求12所述的系统，所述教师权重的更新基于所述学生模型的当前权重的指数移动平均。

18.根据权利要求12所述的系统，其中所述伪标签包括与所述视频数据中的检测到的对象相关联的类别信息，以及关于检测到的对象的边界框。

19.一种训练对象检测机器学习模型的方法，所述方法包括：

20.根据权利要求19所述的方法，其中所述有标签视频数据和所述无标签视频数据中的每一个分别包括关键帧和与所述关键帧相邻的多个参考帧，并且其中所述方法进一步包括：

...

【技术特征摘要】