【技术实现步骤摘要】
基于在线增强检测的视频文字目标追踪方法与电子设备
本专利技术属于计算机视觉
,更具体地,涉及一种基于在线增强检测的视频文字目标追踪方法与电子设备。
技术介绍
视频目标追踪是计算机视觉和机器人领域的重要研究方向,视频目标追踪要求计算机能够在连续的视频序列中快速且准确地定位目标并匹配不同帧中目标间关系,其子任务目标定位和目标匹配在整个追踪系统中起着关键性作用。近年来针对图像上的文字检测与识别技术有了很大的进步,但针对视频中的文字目标的研究和方法较少,多数方法针对静态图片进行文字检测与识别研究,而视频中文字目标的研究充满挑战和困难。为了更好的分析理解视频内容,对视频中的文字目标进行追踪具有较大的意义和价值,且在自动驾驶领域、交通标志检测等领域有着广泛的用途。由于实际场景复杂多变、文字尺度范围较大、文字目标遮挡、运动模糊等因素影响,视频文字目标追踪任务存在较大的难度和挑战性,且文字目标不同于一般目标,其具有特殊的性质,如文字目标形态固定、文字目标尺度变化较小、文字目标包含重要的语义信息等,这对视频文字目标追踪任务存在一定的帮助 ...
【技术保护点】
1.一种基于在线增强检测的视频文字目标追踪方法,其特征在于,包括如下步骤:/n(1)在训练数据集上,根据视频序列中文字目标的位置、目标身份ID,离线训练文字目标检测与特征提取网络以及基于孪生网络的跟踪器,包含以下子步骤:/n(1.1)通过视频帧和其对应的文字目标包围盒标注信息,离线训练一个基于分割的文字检测网络;/n(1.2)在(1.1)训练的检测网络基础上,通过迁移学习的方式利用视频文字训练集训练文字目标特征提取分支;/n(1.3)通过视频帧和其对应的文字目标包围盒坐标与身份信息,离线训练一个基于孪生网络的跟踪器;/n(2)通过摄像机采集视频,并将视频逐帧输入视频文字目标 ...
【技术特征摘要】
1.一种基于在线增强检测的视频文字目标追踪方法,其特征在于,包括如下步骤:
(1)在训练数据集上,根据视频序列中文字目标的位置、目标身份ID,离线训练文字目标检测与特征提取网络以及基于孪生网络的跟踪器,包含以下子步骤:
(1.1)通过视频帧和其对应的文字目标包围盒标注信息,离线训练一个基于分割的文字检测网络;
(1.2)在(1.1)训练的检测网络基础上,通过迁移学习的方式利用视频文字训练集训练文字目标特征提取分支;
(1.3)通过视频帧和其对应的文字目标包围盒坐标与身份信息,离线训练一个基于孪生网络的跟踪器;
(2)通过摄像机采集视频,并将视频逐帧输入视频文字目标追踪方法中,在线进行多文字目标的检测与匹配,包含以下子步骤:
(2.1)在线使用(1)训练好的文字检测与特征提取网络对当前帧进行文字目标的检测,并提取出每个文字目标区域所对应的特征向量;
(2.2)将当前帧检测到的文字目标与当前正在追踪的文字目标进行匹配,从文字目标的位置信息、形态特点以及特征向量三个方面判断不同帧中的文字目标是否属于同一身份;
(2.3)对于当前正在追踪的文字目标,如果在当前帧的检测结果中未成功匹配到文字,则利用(1.3)训练好的基于孪生网络的跟踪器在线预测其在当前帧中的位置,并结合文字检测的输出将置信度较高的预测结果作为当前帧检测结果的补充;
(2.4)将当前帧匹配到的文字目标作为当前正在追踪的文字目标,继续和下一帧的检测结果进行后续的匹配。
2.如权利要求1所述的基于在线增强检测的视频文字目标追踪方法,其特征在于,所述步骤(1.1)包括:
(1.1.1)已知当前帧图片It和当前帧图片上文字目标包围盒集合Bt,这里Bt={b1,b2,…,bn},其中bn表示图片It上第n个文字目标的包围盒,根据文字包围盒集合Bt所标注的位置信息,将文字包围盒区域内像素作为正样本,标注为1;将不属于文字包围盒区域内的像素作为负样本,标注为0;通过以上方式,制作图片It的文字区域分割训练标签其中N为像素个数,表示第t帧图片上第k个像素的标签;
(1.1.2)将当前帧图片It输入分割网络SegNet预测每个像素点属于文字区域的概率将每个像素的预测结果与对应的训练标签计算分割损失并求和,其损失定义为:
其中为图片It中第k个像素的标签,当该像素在文字包围盒区域内时标签为1,否则标签为0;为分割网络预测图片It第k个像素属于文字区域的概率;N为像素个数,优化目标是找到一组卷积神经网络参数使得分割任务损失loss最小,由此构建一个基于分割的文字检测网络。
3.如权利要求1或2所述的基于在线增强检测的视频文字目标追踪方法,其特征在于,所述步骤(1.2)包括:
(1.2.1)对于输入的连续两帧图片It-1、It,根据两张图片的标注信息得到文字目标的包围盒集合以及每个文字包围盒对应的身份信息集合其中m为第t-1帧的文字目标总数,n为第t帧文字目标总数,表示图片It-1上第m个文字目标的包围盒,表示图片It上第n个文字目标的包围盒,表示文字目标的身份信息,表示文字目标的身份信息,提取两张图片中l个文字三元组集合T={T1,T2,…,Tl},其中表示一个三元组由t-1帧中的第o个目标和t帧中的第p、q个目标包围盒组成,这三个文字目标对应的身份关系为即每个文字三元组中,前两个文字目标是不同视频图片上属于同一身份的文字目标,第三个是与前两个文字不属于同一身份的文字目标;
(1.2.2)在(1.1)离线训练的基于分割的文字检测网络SegNet的基础特征提取网络后添加文字目标特征提取分支,提取文字目标的背景特征和语义特征,对于基础特征提取网络的输出特征f,添加额外的卷积层进行高级文字特征提取得到f′,根据文字三元组集合T={T1,T2,…,Tl}利用RoIAlign操作从特征f′提取三元组特征集合F={F1,F2,…,Fl},其中三元组特征为t-1帧中的第o个目标的特征向量,为t帧中的第p、q个目标的特征向量,分别使用全连接神经网络和长短期记忆网络对三元组特征集合F={F1,F2,…,Fl}提取三元组背景特征集合Fb={Fb1,Fb2,…,Fbl}和三元组语义特征集合Fs={FS1,Fs2,…,Fsl},其中背景特征语义特征Fbl、Fsl与Fl代表的目标相对应,前两个为属于同一文字目标的特征向量,第三个为与前两个不属于同一文字目标的特征向量;
(1.2.3)将(1.2.2)提取的三元组背景特征集合Fb和三元组语义特征集合Fs合并,得到三元组特征向量集合Fu={Fu1,Fu2,…,Ful},其中表示综合了文字目标背景信息和语义信息的三元组特征向量,对每个三元组特征向量计算损失并求和,添加超参数Wscale、控制不同特性文字目标的损失大小,得到目标函数为:
其中表示三元组特征向量中属于同一身份的文字目标的特征向量的欧式距离;表示不属于同一身份的文字目标的特征向量间欧式距离;Wscale是衡量文字目标尺寸的权重,尺寸越小权重越大;是衡量文字目标间空间距离的权重,距离越远权重越大;优化目标是找到一组特征提取分支的参数使得loss最小。
4.如权利要求1或2所述的基于在线增强检测的视频文字目标追踪方法,其特征在于,所述步骤(1.3)包括:
(1.3.1)在一个视频序列中相隔50帧范围内随机选两帧图片Ii和Ij,并保证两帧图片中包含相同身份的文字目标,从中选取同一身份的一组文字目标包围盒bi、bj,其中bi为图片Ii中的文字目标包围盒,bj为图片Ij...
【专利技术属性】
技术研发人员:周瑜,张嘉剑,朱盈盈,卞飞飞,白翔,杨志博,王永攀,
申请(专利权)人:华中科技大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。