【技术实现步骤摘要】
一种视频横幅文本检测方法及系统
[0001]本专利技术涉及自然场景文本检测领域,更具体地,涉及一种视频横幅文本检测方法及系统。
技术介绍
[0002]随着深度学习迅速发展,基于深度学习的方法在自然文本检测领域也得到了广大的运用。运用文本检测技术设计视频图像文本检测网络,对视频中的横幅文本进行检测,通过对横幅内容的识别,判断该群体性事件是否会对公众安全造成影响,在事件变坏之前提前预警,保障公众出行安全,维护社会秩序,促进社会和谐发展。
[0003]然而自然场景文本检测技术在对视频中的横幅文本进行检测时,针对文本扭曲和文本部分被遮掩的场景文本检测效果较差。
[0004]通过对横幅的图像以及相关视频进行研究,发现横幅存在文本长宽比大,文本扭曲以及文本部分遮掩的问题。
技术实现思路
[0005]本专利技术针对现有技术中存在的技术问题,提供一种视频横幅文本检测方法及系统。
[0006]根据本专利技术的第一方面,提供了一种视频横幅文本检测方法,包括:
[0007]对获取的横幅视频进行编码, ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种视频横幅文本检测方法,其特征在于,包括:对获取的横幅视频进行编码,得到连续的视频帧图像,以及每一帧图像的各个宏块位置和位移矢量信息;提取每一帧图像的关键点信息,且将具有独立编码帧图像的关键点信息作为参考帧图像的关键点信息;将当前帧图像的关键点信息与当前帧图像的每一个宏块的位置进行匹配,找到每一个宏块所属的关键点信息,并基于当前帧图像的每一个宏块的位移矢量信息,对每一个宏块所属的关键点信息进行偏移操作;将当前帧图像中的关键点信息与参考帧图像中的关键点信息进行匹配,基于参考帧图像中的关键点信息对当前帧图像中的关键点信息进行关键点信息的补充,得到当前帧图像中完整的关键点信息;基于当前帧图像中完整的关键点信息,生成横幅视频文本框。2.根据权利要求1所述的视频横幅文本检测方法,其特征在于,所述提取每一帧图像的关键点信息,包括:通过Resnet骨干网络提取任一帧图像的深层特征信息和浅层特征信息,并基于FPN网络将所述深层特征信息和所述浅层特征信息进行融合,生成融合特征图;将所述融合特征图输入分割分支网络中,得到中心特征图和区域特征图,以及将所述融合特征图输入检测网络中,得到关键点概率图;分别对所述中心特征图和所述区域特征图进行二值化,得到二值化的中心特征图和二值化的区域特征图;将二值化的中心特征图作为一个掩模初步过滤所述关键点概率图,过滤后的关键点概率图中每个掩模区域中最大峰值点为中心点;将二值化的区域特征图作为掩模对所述关键点概率图进行过滤,所述关键点概率图中的关键点被划分为k个类别,提取每个类别关键点在不同掩模区域的最大峰值作为该类别关键点在该掩模区域关键点位置,并计算同一掩模区域内相邻关键点之间的偏移向量。3.根据权利要求2所述的视频横幅文本检测方法,其特征在于,所述将所述融合特征图输入检测网络中,得到关键点概率图,之后还包括:基于设定阈值得到关键点到设定阈值边界的距离,作为关键点的宽度信息。4.根据权利要求2所述的视频横幅文本检测方法,其特征在于,所述Resnet骨干网络包括第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层,所述通过Resnet骨干网络提取任一帧图像的深层特征信息和浅层特征信息,包括:通过第二卷积层、第三卷积层、第四卷积层和第五卷积层生成所述任一帧特征图的4个特征图,分别为C1、C2、C3和C4;通过1
×
1卷积层将每个特征图的信道数减少到256,减少后的特征图记为C
′2、C
′3、C
′4和C
′5。5.根据权利要求4所述的视频横幅文本检测方法,其特征在于,所述基于FPN网络将所述深层特征信息和浅层特征信息进行融合,得到融合特征图,包括:通过FPN网络对特征图C
′2、C
′3、C
′4和C
′5进行计算,得到4个新特征图P2、P3、P4和P5,每个新特征图都有256个通道,其计算方法为:
P5=C
′5;P4=0.5
×
C
′4+0.5Up
×2(P5);P3=0.5
技术研发人员:韩国松,谢红刚,肖进胜,姜迪,肖胜华,
申请(专利权)人:武汉网华科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。