一种基于深度学习的视频文字端到端检测与识别的方法技术

技术编号:29972130 阅读:111 留言:0更新日期:2021-09-08 09:50
本发明专利技术公开了一种基于深度学习的视频文字端到端检测与识别的方法,属于视频文字处理技术领域。本发明专利技术的步骤包括:对待识别的视频序列段,分别对每一视频帧图像进行图像尺寸归一化处理,以使得预处理后的图像尺寸与端到端的文字检测与识别网络的输入相匹配;将预处理后的图像依次输入至端到端的文字检测与识别网络,获取待识别的视频序列段的文字识别结果。本发明专利技术实现了视频文字端到端的检测与识别,规避了多模块目标不一致而导致误差累积等固有缺陷,减少了工程复杂度。还通过共享特征提取网络优化网络结构,同时由于使用了感受野较大的特征图输入到网络的识别分支中,相比于使用原图进行输入,特征图能够包含更大范围的信息,提高了识别准确率。提高了识别准确率。提高了识别准确率。

【技术实现步骤摘要】
一种基于深度学习的视频文字端到端检测与识别的方法


[0001]本专利技术涉及视频文字处理
,尤其涉及一种基于深度学习的视频文字端到端检测与识别方法。

技术介绍

[0002]年来,随着社会信息化数字化发展,多媒体信息的广泛传播使得如何从海量的视频、图像中提取信息成为了急切需要解决的问题。视频文字检测识别技术能很好的满足对于大量视频内容提取与审核等方面的需求。相比于人工,借助视频文字检测识别技术进行视频内容提取与审核等工作,能够大幅提高效率并降低人力成本。
[0003]其中,文字检测是指使用文字检测算法对输入的图像进行检测,判断输入图像中是否含有文字,如果图像中包含文字,则进一步地对其在图像中出现的位置进行定位。文字识别是指使用文字识别算法对输入图片中含有的文字信息进行识别,对于输入图片的要求较为严格,需要尽可能只包含含有文字的区域,因此往往是在文字检测成功的前提下进行的。
[0004]然而视频图像中的文字信息具有背景复杂、图像模糊、文字的字形字体多样性强、有时字形显示不完整等特点,这些特点注定了对视频文字进行检测与识别是一项本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的视频文字端到端检测与识别的方法,其特征在于,包括:步骤S1:对待识别的视频序列段,分别对每一视频帧图像进行图像尺寸归一化处理,以使得预处理后的图像尺寸与端到端的文字检测与识别网络的输入相匹配;步骤S2:将预处理后的图像依次输入至端到端的文字检测与识别网络,获取待识别的视频序列段的文字识别结果;所述端到端的文字检测与识别网络的网络结构包括共享特征提取网络、检测分支和识别分支;所述共享特征提取网络包括顺次连接的输入层、批归一化处理层、非线性激活层、最大池化层和至少四个大卷积层,并定义N表示共享特征提取网络的大卷积层数量;其中,每个大卷积层包括若干个顺次连接的瓶颈残差结构,且每个大卷积层包括的瓶颈残差结构的数量可调,所述瓶颈残差结构的输入到输出存在一个恒等映射,且每个瓶颈残差结构的末尾设置有通道注意力机制;在输入层、池化层和第2至第N

1个大卷积层的第一个瓶颈残差结构中分别对其输入特征图进行1/2的下采样,以及将第N个大卷积层的输出特征图与第N

1个大卷积层的输出特征图进行特征融合,得到特征图MN并作为检测分支的输入特征图,将特征图MN与第N

2至第1个大卷积层进行逐层的特征融合,得到特征图M2并作为识别分支的输入特征图;所述检测分支包括双向长短记忆网络层、卷积层和全连接层。特征图MN为检测分支双向长短记忆网络层的输入,所述双向长短记忆网络层的输出特征图为全连接层的输入特征图;全连接层后并行两个全连接层,并分别用于获取当前输入图像的文本框位置以及文本框置信度;所述识别分支包括顺次连接的至少三个大卷积层、至少两层双向长短记忆网络层、至少一层全连接层和一层字符类别概率输出层,其中,识别分支的每个大卷积层包括的瓶颈残差结构数量相同,该瓶颈残差结构与共享特征提取网络的瓶颈残差结构的网络结构相同;基于非极大值抑制处理对同一图像中的文本框进行冗余剔除处理,再基于当前的各文本框位置,在特征图M2中获取对应的文本区域,并对待识别的视频序列段的所有视频帧图像中的文本区域通过双线性插值将其尺寸缩放为指定尺寸后,再采用文本行拼接法拼接成文本行并作为识别分支的第一个大卷积层的输入特征图;待识别的视频序列段的文字识别结果为:基于识别分支输出的各个文本区域的字符类别概率,基于最大字符类别概率得到各文本区域的字符类别的编号,并基于字符类别的编号得到文本区域的文字,从而得到按照文本行中的文本区域序列所对应文字序列;对所述文字序列一次进行去重与去占位空字符处理,得到最终的识别结果。2.如权利要求1所述的方法,其特征在于,在共享特征提取网络的输入层、池化层和第2至第N

1个大卷积层的第一个瓶颈残差结构中分别对其输入特征图进行1/2的下采样,以及在识别分支的每个大卷积层的第一个瓶颈残差结构中对其输入特征图的高度进行1/2的下采样。3.如权利要求1所述的方法,其特征在于,所述瓶颈残差结构包括顺次连接的三个卷积块,每个卷积块包括顺次连接的批归一化处理层、非线性激活层和卷积层。
4.如权利要求4所述的方法,其特征在于,每个瓶颈残差结构包括的三个卷积层的卷积核大小依次为:1
×
1...

【专利技术属性】
技术研发人员:邓建华秦琪怡常为弘俞泉泉何佳霓杨杰李龙代铮郑凯文赵建恒陶泊昊苟晓攀肖正欣余坤陈翔蔡竟业
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1