一种视频文字检测方法、装置、设备及存储介质制造方法及图纸

技术编号:38997865 阅读:12 留言:0更新日期:2023-10-07 10:29
本申请公开了一种视频文字检测方法、装置、设备及存储介质,其中,所述方法包括:基于预设采样间隔获取三张单帧图像;利用特征提取网络获取图像一的初始特征图一、图像二的特征图二和图像三的初始特征图三;确定图像一与图像二的第一光流信息,和图像三与所述图像二的第二光流信息;将初始特征图一基于第一光流信息对齐至所述特征图二,得到特征图一;将初始特征图三基于第二光流信息对齐至所述特征图二,得到特征图三;基于特征图一的文字概率图一和权重一、特征图二的文字概率图二和权重二、特征图三的文字概率图三和权重三确定所述图像二的文字区域。这样,通过时空聚合的方式改善视频帧的特征学习,有效提升文字检测精度。度。度。

【技术实现步骤摘要】
一种视频文字检测方法、装置、设备及存储介质


[0001]本申请实施例涉及信息处理领域,涉及但不限于一种视频文字检测方法、装置、设备及存储介质。

技术介绍

[0002]现有技术方案对于视频文字的检测依据单帧图片的检测,方法是对视频帧进行间隔提取,再根据提取的图片进行文字检测;或者是依据视频的时间间隔提取视频图片,再进行文字检测。以上方法采用对视频中单独某一帧图片的文字进行检测。
[0003]对于视频中的文字检测,以上检测方法存在局限性。在视频中的文字因为视频移动而导致外形变化、光照变化、快速运动、模糊等等情况的发生,视频中的每一帧的文字信息不都适用于静态图片的检测,对于单帧图片的检测忽略了视频的时间上的特征变化。没有区分视频文字与图片文字的区别,静态图片的检测方式运用于视频上效果往往会恶化很多,使得文字检测精度较低。

技术实现思路

[0004]有鉴于此,本申请实施例提供一种视频文字检测方法、装置、设备及存储介质。
[0005]本申请实施例的技术方案是这样实现的:
[0006]第一方面,本申请实施例提供一种视频文字检测方法,所述方法包括:基于预设采样间隔获取三张单帧图像,其中,所述三张单帧图像包括图像一、图像二和图像三,所述图像二位于所述图像一和所述图像三中间;利用特征提取网络获取所述图像一的初始特征图一、所述图像二的特征图二和所述图像三的初始特征图三;确定所述图像一与所述图像二的第一光流信息,和所述图像三与所述图像二的第二光流信息;将所述初始特征图一基于所述第一光流信息对齐至所述特征图二,得到特征图一;将所述初始特征图三基于所述第二光流信息对齐至所述特征图二,得到特征图三;基于所述特征图一的文字概率图一和权重一、所述特征图二的文字概率图二和权重二、所述特征图三的文字概率图三和权重三确定所述图像二的文字区域。
[0007]第二方面,本申请实施例提供一种视频文字检测装置,所述装置包括:获取模块,用于基于预设采样间隔获取三张单帧图像,其中,所述三张单帧图像包括图像一、图像二和图像三,所述图像二位于所述图像一和所述图像三中间;
[0008]提取模块,用于利用特征提取网络获取所述图像一的初始特征图一、所述图像二的特征图二和所述图像三的初始特征图三;第一确定模块,用于确定所述图像一与所述图像二的第一光流信息,和所述图像三与所述图像二的第二光流信息;第一对齐模块,用于将所述初始特征图一基于所述第一光流信息对齐至所述特征图二,得到特征图一;第二对齐模块,用于将所述初始特征图三基于所述第二光流信息对齐至所述特征图二,得到特征图三;第二确定模块,用于基于所述特征图一的文字概率图一和权重一、所述特征图二的文字概率图二和权重二、所述特征图三的文字概率图三和权重三确定所述图像二的文字区域。
[0009]第三方面,本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。
[0010]第四方面,本申请实施例提供一种存储介质,存储有可执行指令,用于引起处理器执行时,实现上述方法。
[0011]本申请实施例中,首先基于预设采样间隔获取三张单帧图像,其中,所述三张单帧图像包括图像一、图像二和图像三,所述图像二位于所述图像一和所述图像三中间;然后利用特征提取网络获取所述图像一的初始特征图一、所述图像二的特征图二和所述图像三的初始特征图三;确定所述图像一与所述图像二的第一光流信息,和所述图像三与所述图像二的第二光流信息;将所述初始特征图一基于所述第一光流信息对齐至所述特征图二,得到特征图一;将所述初始特征图三基于所述第二光流信息对齐至所述特征图二,得到特征图三;最后基于所述特征图一的文字概率图一和权重一、所述特征图二的文字概率图二和权重二、所述特征图三的文字概率图三和权重三确定所述图像二的文字区域。这样,预先计算前后帧与当前帧的光流值,将提取的前后帧的特征映射到当前帧的特征中;补偿了前后帧因为运动导致的图片特征偏移,补充了当前帧的特征表达方式,利用权重进行聚合,有效提升了当前帧的文字检测精度。
附图说明
[0012]图1为本申请实施例提供的一种视频文字检测方法的流程示意图;
[0013]图2为本申请实施例提供的一种用于检测视频文字的模型架构示意图;
[0014]图3为本申请实施例提供的一种训练检测视频文字的模型的流程示意图;
[0015]图4为本申请实施例提供的一种用于检测视频文字的具体模型架构示意图;
[0016]图5为本申请实施例提供的一种视频文字检测装置的组成结构示意图;
[0017]图6为本申请实施例提供的电子设备的一种硬件实体示意图。
具体实施方式
[0018]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对申请实施例的具体技术方案做进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
[0019]在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
[0020]在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
[0021]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
[0022]对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语
进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
[0023]光流信息(Optical Flow or Optic Flow),是空间运动物体在观察成像平面上的像素运动的瞬时速度,是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。用来描述相对于观察者的运动所造成的观测目标、表面或边缘的运动。
[0024]VGG网络是对AlexNet经典卷积神经网络(Convolutional Neural Network,CNN)模型的改进,是经典的CNN模型,VGG网络的结构用的都是特别小的3乘3的卷积模版以及5个2乘2的池化层,并将卷积层的深度提升到了16至19层。
[0025]特征金字塔网络(Feature Pyramid Network,FPN)的目标是利用卷积网络本身带有的层次性语义特征,来构建特征金字塔。可以作为一种通用的特征提取器,在多个任务上带来了显著的性能提升。
[0026]本申请实施例提供一种视频文字检测方法,如图1所示,该方法包括:
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频文字检测方法,其特征在于,所述方法包括:基于预设采样间隔获取三张单帧图像,其中,所述三张单帧图像包括图像一、图像二和图像三,所述图像二位于所述图像一和所述图像三中间;利用特征提取网络获取所述图像一的初始特征图一、所述图像二的特征图二和所述图像三的初始特征图三;确定所述图像一与所述图像二的第一光流信息,和所述图像三与所述图像二的第二光流信息;将所述初始特征图一基于所述第一光流信息对齐至所述特征图二,得到特征图一;将所述初始特征图三基于所述第二光流信息对齐至所述特征图二,得到特征图三;基于所述特征图一的文字概率图一和权重一、所述特征图二的文字概率图二和权重二、所述特征图三的文字概率图三和权重三确定所述图像二的文字区域。2.如权利要求1所述的方法,其特征在于,所述将所述初始特征图一基于所述第一光流信息对齐至所述特征图二,得到特征图一,包括:基于所述第一光流信息,利用双线性差值算法结合所述初始特征图一和所述特征图二,得到特征图一;对应地,所述将所述初始特征图三基于所述第二光流信息对齐至所述特征图二,得到特征图三,包括:基于所述第二光流信息,利用所述双线性差值算法结合所述初始特征图三和所述特征图二,得到特征图三。3.如权利要求1所述的方法,其特征在于,所述基于所述特征图一的文字概率图一和权重一、所述特征图二的文字概率图二和权重二、所述特征图三的文字概率图三和权重三确定所述图像二的文字区域,包括:利用分类子网络分别检测所述特征图一、所述特征图二和所述特征图三,得到所述特征图一的文字概率图一、所述特征图二的文字概率图二和所述特征图三的文字概率图三;利用权重子网络分别获取所述特征图一的权重一、所述特征图二的权重二和所述特征图三的权重三;分别点乘所述权重一与所述权重二、点乘所述权重二与所述权重二和点乘所述权重三与所述权重二,得到所述特征图一的第一点乘相似度、所述特征图二的第二点乘相似度和所述特征图三的第三点乘相似度;基于所述特征图一的文字概率图一和第一点乘相似度、所述特征图二的文字概率图二和第二点乘相似度、所述特征图三的文字概率图三和第三点乘相似度确定所述图像二的目标概率图;基于所述目标概率图确定所述文字区域。4.如权利要求3所述的方法,其特征在于,所述基于所述特征图一的文字概率图一和第一点乘相似度、所述特征图二的文字概率图二和第二点乘相似度、所述特征图三的文字概率图三和第三点乘相似度确定所述图像二的目标概率图,包括:基于所述特征图一的文字概率图一和第一点乘相似度、所述特征图二的文字概率图二和第二点乘相似度、所述特征图三的文字概率图三和第三点乘相似度相应确定所述特征图一的第一聚合权重、所述特征图二的第二聚合权重和所述特征图三的第三聚合权重;
基于将所述第一聚合权重,所述第二聚合权重和所述第三聚合权重,对所述文字概率图一、所述文字概率图二和所述文字概率图三加权求和,得到所述目标概率图。5.如权利要求4所述的方法,其特征在于,所述基于所述特征图一的文字概率图一和第一点乘相似度、所述特征图二的文字概率...

【专利技术属性】
技术研发人员:姚成辉
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1