一种视频目标检测模型训练方法、装置、设备及介质制造方法及图纸

技术编号：38199536 阅读：9 留言：0更新日期：2023-07-21 16:40

本申请实施例提供了一种视频目标检测模型训练方法、装置、设备及介质，由于本申请实施例中，除了基于将图像样本集中已经标注标签的样本图像输入到原始视频目标检测模型中进行训练以外，还基于视频样本集中未标注标签的且置信度大于预设的第一阈值的目标参考帧，对该原始视频目标检测模型进行训练，即本申请采用半监督学习的方法，即使不将所有的视频帧进行标签标注，也能训练出高精度的视频目标检测模型，提高了目标检测的准确率。提高了目标检测的准确率。提高了目标检测的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种视频目标检测模型训练方法、装置、设备及介质

[0001]本申请涉及人工智能
，尤其涉及一种视频目标检测模型训练方法、装置、设备及介质。

技术介绍

[0002]伴随着目标跟踪检测技术的不断发展，视频目标检测技术作为目标跟踪检测技术的一个重要分支，在智能视频监控、无人驾驶、人机接口、视频人工智能分析等实际场景中具有广泛的应用。其中，该视频目标检测技术用于定位出视频序列中每一目标视频帧中出现的物体的类别以及物体在目标视频帧中的位置信息。
[0003]相关技术中，一般基于预先训练完成的视频目标检测模型，识别视频帧中出现的物体的类别以及物体在视频帧中的位置信息。在训练视频目标检测模型时，需要对训练该视频目标检测模型的视频帧进行标签标注，然而标注一个视频帧中的所有物体的位置和类别需要10秒左右，而一个10秒左右的视频大概由400
‑
600个视频帧组成，因此，视频帧的标签标注时间太长，标注的视频帧的数量太多，导致标注困难；若基于少量的标注完成的视频帧对视频目标检测模型进行训练，则导致视频目标检测模型的精度低，识别出的物体的类别以及位置信息的准确率低。

技术实现思路

[0004]本申请提供了一种视频目标检测模型训练方法、装置、设备及介质，用以解决现有技术中对视频帧标注工作量大，以及基于少量标注的视频帧对视频目标检测模型进行训练，导致视频目标检测模型的精度低，识别物体的准确率低的问题。
[0005]本申请提供了一种视频目标检测模型训练方法，所述方法包括：
[0006]...

【技术保护点】

【技术特征摘要】
1.一种视频目标检测模型训练方法，其特征在于，所述方法包括：针对预先保存的图像样本集中的任一样本图像，将该样本图像输入到原始视频目标检测模型中，获取该样本图像中每个物体的第一位置信息及物体归属类别的第一置信度；针对预先保存的视频样本集中的任一视频帧，将该视频帧输入到原始视频目标检测模型中，获取该视频帧中每个物体的第二位置信息及每个物体归属类别的第二置信度；若任意一个物体的所述第二置信度大于预设的第一阈值，将所述视频帧作为目标参考帧；将所述目标参考帧输入到原始视频目标检测模型中，获取所述目标参考帧中每个物体的第三位置信息及每个物体归属类别的第三置信度；根据每个样本图像的标签中标识的每个物体的目标位置信息及每个物体的目标类别的目标置信度，和对应的每个物体的所述第一位置信息及每个物体的所述第一置信度，确定第一损失值；根据所述目标参考帧中每个物体的第二位置信息及每个物体的第二置信度，和对应每个物体的所述第三位置信息及每个物体的第三置信度，确定第二损失值；根据所述第一损失值及所述第二损失值，对所述原始视频目标检测模型的参数进行更新。2.根据权利要求1所述的方法，其特征在于，将所述视频帧作为目标参考帧之后，所述方法还包括：根据与所述视频帧相邻的其他视频帧中每个物体对应的第二置信度，及所述其他视频帧与所述视频帧是否内容连续，确定是否将所述其他视频帧确定为目标参考帧。3.根据权利要求2所述的方法，其特征在于，所述根据与所述视频帧相邻的其他视频帧中每个物体对应的第二置信度，及所述其他视频帧与所述视频帧是否内容连续，确定是否将所述其他视频帧确定为目标参考帧包括：针对与所述视频帧相邻的前一其他视频帧或后一其他视频帧，若该其他视频帧非目标参考帧，该其他视频帧中任一物体对应的第二置信度小于所述预设的第一阈值大于预设的第二阈值，且所述其他视频帧与所述视频帧内容连续，则将该其他视频帧确定为目标参考帧。4.根据权利要求3所述的方法，其特征在于，所述方法还包括：将所述其他视频帧更新为所述视频帧，继续确定与该视频帧相邻的前一其他视频帧或后一其他视频帧是否为目标参考帧，直至该其他视频帧为目标参考帧，或该其他参考帧中每个物体的第二置信度都小于预设的第二阈值，或该其他视频帧与所述视频帧内容不连续。5.根据权利要求2或3所述的方法，其特征在于，确定所述其他视频帧与所述视频帧内容连续包括：判断所述其他视频帧中每个物体与所述视频帧中每个物体的交并比IOU中是否存在大于预设交并比阈值的目标交并比；若是，则所述其他视频帧与所述视频帧内容连续。6.根据权利要求1所述的方法，其特征在于，所述根据所述第一损失值及所述第二损失值，对所述原始视频目标检测模型的参数进行更新包括：根据所述第一损失值、第二损失值及分别对应的权重值的乘积和，对所述原始视频目标检测模型的参数进行更新。
7.一种视频目标检测模型训练装置，其特征在于，所述装置包括：获取模块，用于针对预先保存的图像样本集中的任一样本...

【专利技术属性】
技术研发人员：刘嘉成，贾成铕，王颖，
申请(专利权)人：中国电信股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人