一种基于卷积神经网络的视频实例分割方法及设备技术

技术编号:23401478 阅读:54 留言:0更新日期:2020-02-22 13:36
本申请的目的是提供一种基于卷积神经网络的视频实例分割方法及设备,本申请通过获取视频序列并确定待检测目标对象;通过跟踪器对视频序列进行目标对象的跟踪,得到视频序列中的目标对象的跟踪结果;判断跟踪结果是否大于跟踪阈值,若是,则将跟踪结果确定为目标对象的分类结果,若否,则对视频序列重新进行分类检测,以得到目标对象的重分类结果,通过对视频序列中的目标对象进行跟踪得到跟踪结果,并对跟踪结果进行分类结果准确度判定,若不符合准确度要求则对视频序列重新进行分类检测,以得到更为精确的视频序列的目标对象的分类结果,实现了对整个视频序列的目标对象的分类,提高了视频实例分割处理的性能和视频分割的准确度。

A method and equipment of video instance segmentation based on convolutional neural network

【技术实现步骤摘要】
一种基于卷积神经网络的视频实例分割方法及设备
本申请涉及计算机领域,尤其涉及一种基于卷积神经网络的视频实例分割方法及设备。
技术介绍
现有技术中,目前大多数的检测算法主要适用于图像场景,而现实中存在丰富的视频输入场景。对于这种场景,直接将图像检测算法迁移过来会带来较大的精度损失。一般来说,将图像检测算法直接应用于视频场景中将会使召回率(recall)大幅度降低,视频场景中的运动模糊等特殊属性使得检测目标的模态和静止图像的样本分布非常不一致。同时,如果在视频中进行像素级的跟踪分割也是非常具有挑战性的。对于视频跟踪,需要大量的视频集的标注样本,而大规模的视频标注成本非常昂贵。即如何通过数据增强的方式,生成具有多样性的训练样本,以及如何在视频序列中进行数据增强研究有很重要的价值。因此,提高整个视频实例分割处理性能和视频分割的精确度,同时减少投入成本,得到一个优化的视频实例分割方法是本领域技术人员需要继续研究的方向。
技术实现思路
本申请的一个目的是提供一种基于卷积神经网络的视频实例分割方法及设备,以解决现有技术中如何克服视频实例分割的缺陷,提高整个视频实例分割处理性能和视频分割的准确度的问题。根据本申请的一个方面,提供了一种基于卷积神经网络的视频实例分割方法包括:获取视频序列并确定待检测目标对象;通过跟踪器对所述视频序列进行所述目标对象的跟踪,得到所述视频序列中的目标对象的跟踪结果;判断所述跟踪结果是否大于跟踪阈值,若是,则将所述跟踪结果确定为所述目标对象的分类结果,若否,则对所述视频序列重新进行分类检测,以得到所述目标对象的重分类结果。进一步地,上述基于卷积神经网络的视频实例分割方法中,所述对所述视频序列重新进行分类检测,以得到所述目标对象的重分类结果,包括:对所述视频序列中的每一帧视频图像依序进行目标对象的检测、分割和裁剪,得到所述视频序列对应的轨迹片段图像,其中,所述轨迹片段图像包括每一帧所述视频图像对应的目标对象片段图像;将所述视频序列对应的轨迹片段图像输入至卷积神经网络CNN中进行所述CNN前向传递,得到每一帧所述目标对象片段图像中的目标对象的预测分类结果,所述预测分类结果包括至少一个预测分类及各所述预测分类的预测值;基于所有目标对象片段图像中的目标对象的预测分类结果,分别计算各所述预测分类的预测平均值;基于所述视频序列中的目标对象对应的各所述预测分类的预测平均值,得到所述目标对象的重分类结果。进一步地,上述基于卷积神经网络的视频实例分割方法中,所述基于所述视频序列中的目标对象对应的各所述预测分类的预测平均值,得到所述目标对象的重分类结果,包括:将所述视频序列中的目标对象对应的各所述预测分类的预测平均值中的、最高预测平均值对应的预测分类确定为所述目标对象的重分类结果。进一步地,上述基于卷积神经网络的视频实例分割方法中还包括:通过检测器对所述视频序列的每一帧视频图像依序进行所述目标对象的检测、分割,得到所述视频序列中的目标对象的检测结果;对检测分割得到的目标对象所在区域进行预设比例的扩展后,进行预设范围的图像裁剪,得到所述视频序列中包含所述目标对象的每一帧所述视频图像对应的对齐图像。进一步地,上述基于卷积神经网络的视频实例分割方法中还包括:获取网络图像的训练集、检测集及具有至少两个对象类别的检测分割图像集;基于分类的损失函数对所述训练集进行图像分类训练,得到初始卷积神经网络CNN检测模型;利用所述检测集对所述初始卷积神经网络CNN检测模型进行检测任务上的迁移学习,得到迁移学习后的检测模型;利用所述检测分割图像集对所述迁移学习后的检测模型进行微调,形成所述检测器。进一步地,上述基于卷积神经网络的视频实例分割方法中还包括:获取网络图像的所述训练集和所述检测集及具有至少两个对象类别的跟踪视频;基于分类的损失函数对所述训练集进行图像分类训练,得到初始卷积神经网络CNN跟踪模型;利用所述检测集对所述初始卷积神经网络CNN跟踪模型进行跟踪任务上的迁移学习,得到迁移学习后的跟踪模型;利用所述跟踪视频对所述迁移学习后的跟踪模型进行微调,形成所述跟踪器。进一步地,上述基于卷积神经网络的视频实例分割方法中还包括:将所述检测结果和所述跟踪结果进行重叠匹配,得到所述检测结果和所述跟踪结果之间的匹配率;判断所述匹配率是否小于所述匹配率阈值;若是,则基于所述视频序列及所述目标对象进行初始化处理,得到一个新的跟踪器;若否,则基于所述检测结果对所述跟踪器进行修正,得到修正后的跟踪器。进一步地,上述基于卷积神经网络的视频实例分割方法中所述训练集和所述检测集均分别包括至少两个训练样本图像;其中,所述方法还包括:确定所述训练样本图像中至少一个训练目标及各所述训练目标所在的区域;基于所述训练样本图像的掩膜标签,将所述训练样本图像中的至少一个所述训练目标所在区域分别进行填充;将填充后的所述训练目标对象所在区域分别移动至所述训练集和所述检测集中的、不包含所述训练目标的训练样本图像中,得到对应的新的训练样本图像;基于所述新的练样本图像对所述训练集和所述检测集进行更新。根据本申请的另一方面,还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行时,使所述处理器实现如上述任一项所述的方法。根据本申请的另一方面,还提供了一种基于卷积神经网络的视频实例分割设备,该设备包括:一个或多个处理器;计算机可读介质,用于存储一个或多个计算机可读指令,当所述一个或多个计算机可读指令被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述中任一项所述的方法。与现有技术相比,本申请通过获取视频序列并确定待检测目标对象;通过跟踪器对所述视频序列进行所述目标对象的跟踪,得到所述视频序列中的目标对象的跟踪结果;判断所述跟踪结果是否大于跟踪阈值,若是,则将所述跟踪结果确定为所述目标对象的分类结果,若否,则对所述视频序列重新进行分类检测,以得到所述目标对象的重分类结果,通过对所述视频序列中的目标对象进行跟踪得到跟踪结果,并对所述跟踪结果进行分类结果准确度(跟踪阈值)判定,若不符合准确度要求则对所述视频序列重新进行分类检测,以得到更为精确的视频序列的目标对象的分类结果,实现了对整个视频序列的目标对象的分类,提高了视频实例分割处理的性能和视频分割的准确度。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1示出根据本申请一个方面的一种基于卷积神经网络的视频实例分割方法的流程图;图2示出根据本申请一个方面的一种基于卷积神经网络的视频实例分割方法中的跟踪器的训练流程图;图3示出根据本申请一个方面的一种基于卷积神经网络的视频本文档来自技高网...

【技术保护点】
1.一种基于卷积神经网络的视频实例分割方法,其特征在于,所述方法包括:/n获取视频序列并确定待检测目标对象;/n通过跟踪器对所述视频序列进行所述目标对象的跟踪,得到所述视频序列中的目标对象的跟踪结果;/n判断所述跟踪结果是否大于跟踪阈值,/n若是,则将所述跟踪结果确定为所述目标对象的分类结果,/n若否,则对所述视频序列重新进行分类检测,以得到所述目标对象的重分类结果。/n

【技术特征摘要】
1.一种基于卷积神经网络的视频实例分割方法,其特征在于,所述方法包括:
获取视频序列并确定待检测目标对象;
通过跟踪器对所述视频序列进行所述目标对象的跟踪,得到所述视频序列中的目标对象的跟踪结果;
判断所述跟踪结果是否大于跟踪阈值,
若是,则将所述跟踪结果确定为所述目标对象的分类结果,
若否,则对所述视频序列重新进行分类检测,以得到所述目标对象的重分类结果。


2.根据权利要求1所述的方法,其特征在于,所述对所述视频序列重新进行分类检测,以得到所述目标对象的重分类结果,包括:
对所述视频序列中的每一帧视频图像依序进行目标对象的检测、分割和裁剪,得到所述视频序列对应的轨迹片段图像,其中,所述轨迹片段图像包括每一帧所述视频图像对应的目标对象片段图像;
将所述视频序列对应的轨迹片段图像输入至卷积神经网络CNN中进行所述CNN前向传递,得到每一帧所述目标对象片段图像中的目标对象的预测分类结果,所述预测分类结果包括至少一个预测分类及各所述预测分类的预测值;
基于所有目标对象片段图像中的目标对象的预测分类结果,分别计算各所述预测分类的预测平均值;
基于所述视频序列中的目标对象对应的各所述预测分类的预测平均值,得到所述目标对象的重分类结果。


3.根据权利要求2所述的方法,其中,所述基于所述视频序列中的目标对象对应的各所述预测分类的预测平均值,得到所述目标对象的重分类结果,包括:
将所述视频序列中的目标对象对应的各所述预测分类的预测平均值中的、最高预测平均值对应的预测分类确定为所述目标对象的重分类结果。


4.根据权利要求1所述的方法,其中,所述方法还包括:
通过检测器对所述视频序列的每一帧视频图像依序进行所述目标对象的检测、分割,得到所述视频序列中的目标对象的检测结果;
对检测分割得到的目标对象所在区域进行预设比例的扩展后,进行预设范围的图像裁剪,得到所述视频序列中包含所述目标对象的每一帧所述视频图像对应的对齐图像。


5.根据权利要求4所述的方法,其中,所述方法还包括:
获取网络图像的训练集、检测集及具有至少两个对象类别的检测分割图像集;
基于分类的损失函数对所述训练集进行图像分类训练,得到初始卷积神经网络CNN...

【专利技术属性】
技术研发人员:何毅杨晓云
申请(专利权)人:中科智云科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1