一种视频数据集标注方法及装置制造方法及图纸

技术编号：29330737 阅读：18 留言：0更新日期：2021-07-20 17:48

本发明专利技术公开了一种视频数据集标注方法及装置。该方法包括：根据设定的动作类别选择规则确定数据集标签，该数据集标签表征短时间的瞬时动作和循环动作类型；根据所述数据集标签筛选出匹配的待标注视频；将待标注视频上传至标注工具平台进行动作行为检测和标注，以确定动作行为类型标签以及对应的起始帧和结束帧位置。本发明专利技术对于动作行为的边界定义更加精确，并且标注效率和标注质量均有显著提高。

全部详细技术资料下载

【技术实现步骤摘要】
一种视频数据集标注方法及装置
本专利技术涉及计算机视觉
，更具体地，涉及一种视频数据集标注方法及装置。
技术介绍
近年来，视频理解在视频内容分析，智能监控，人机交互等领域得到了广泛应用。在视频行为理解中，基于深度学习，有两类比较重要的任务，一类是视频行为分类，其主要是针对修剪过的视频，按照其中的人类行为进行分类。另一类是视频行为检测，目的是在长视频中定位一个动作的开始时间和结束时间。视频行为检测作为视频理解的重要部分，在计算机视觉界已得到了广泛研究。相比于行为分类，行为检测难度更高，现有的行为检测方法通常是首先生成可能存在动作的片段提案，然后再对其进行分类。然而，因为边界的定义较为模糊，统一视频中可能还会存在多个动作同时进行的情况，导致对动作的准确检测具有巨大挑战。不同于行为识别，行为检测要求进行精确的动作片段检测，而对于真实场景下的动作产生，往往边界不是十分确定，尤其是动作的终止，并且对动作完整性的判断也相对困难。由于视频本身边界不明确、以及现有时序检测标注工具相对简陋，导致现有的视频时序检测数据集大多是弱标定方式，这也导致了目前行为检测平均精准度偏低。经分析，现有的视频标注方案主要存在以下缺陷：1)、相关视频时序检测数据集标签定义较为粗粒度，不同标签的时序时长相差较大并且不同标签的边界定义不明晰，无法更为直观地明晰起止边界定义。2)、现有的视频标注工具主要针对目标检测工作，而非对一段未修剪的视频进行行为段的起止时间标注。此外，现有的视频标注工具功能相对简单，界面相对简陋。对于...

【技术保护点】
1.一种视频数据集标注方法，包括以下步骤：/n步骤S1：根据设定的动作类别选择规则确定数据集标签，该数据集标签表征短时间的瞬时动作和循环动作类型；/n步骤S2：根据所述数据集标签筛选出匹配的待标注视频；/n步骤S3：将待标注视频上传至标注工具平台进行动作行为检测和标注，以确定动作行为类型标签以及对应的起始帧和结束帧位置。/n

【技术特征摘要】
1.一种视频数据集标注方法，包括以下步骤：
步骤S1：根据设定的动作类别选择规则确定数据集标签，该数据集标签表征短时间的瞬时动作和循环动作类型；
步骤S2：根据所述数据集标签筛选出匹配的待标注视频；
步骤S3：将待标注视频上传至标注工具平台进行动作行为检测和标注，以确定动作行为类型标签以及对应的起始帧和结束帧位置。

2.根据权利要求1所述的方法，其特征在于，所述根据设定的动作类别选择规则确定数据集标签包括：
选择通用场景下的常见标签，并排除非特定场景特定人群类的标签；
排除动作定义宽泛的标签；
排除通过交互对象的差异性区分而非人类姿态变化的不同而分类的标签；
排除在每个动作中都通用的基础身体状态标签；
对于可拆分的动作进行拆分，以获得细粒度标签。

3.根据权利要求1所述的方法，其特征在于，步骤S2包括：
根据所述数据集标签搜集相关视频，并进行查重和筛选，其中查重通过对视频第一帧和最后一帧的哈希值的汉明距离来计算相似性；
根据相似性结果确定待处理视频是否通过查重检测。

4.根据权利要求1所述的方法，其特征在于，所述标注工具平台设有起始帧选择区域、视频选择区域、标签选择区域、结果显示区域以及视频播放区域，其中，所述起始帧选择区域用于供用户标注起始帧与结束帧；所述视频选择区域用于供用于选择待标注的一个或多个视频；所述标签选择区域用于供用户标注动作行为标签；所述结果显示区域用于向用户显示标注起始时间；所述视频播放区域用于向用户显示待标注视频的连续多帧图像，以供标注动作行为的起始帧。

5.根据权利要求4所述的方法，其特征在于，步骤...

【专利技术属性】
技术研发人员：马筱，乔宇，王利民，
申请(专利权)人：中国科学院深圳先进技术研究院，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人