基于深度神经网络的网络视频字幕的快速提取方法技术

技术编号：21141973 阅读：15 留言：0更新日期：2019-05-18 05:24

本发明专利技术一种基于深度神经网络的网络视频字幕的快速提取方法。该方法具体为：将随机选取的背景图片合成含字幕的图片，进行处理得到字幕的图片的标签数据；建立字幕文本检测和文本识别模型，用合成训练数据训练字幕文本检测模型和字幕文本识别模型；将训练好的字幕文本检测模型和字幕文本识别模型组合在一起形成一个端到端的字幕提取算法，并加入多Batch的机制，加速字幕的提取速度。使得网络提取字幕的速度比没有多Batch加速机制时提高了两倍。在加入自动合成样本的数据层和多Batch加速机制后，我们的字幕提取方法的字符级识别准确率基本在0.98以上，行级识别准确率达到了平均达到了0.85，平均提取速度60ms/帧。

Fast Extraction of Network Video Subtitles Based on Deep Neural Network

全部详细技术资料下载

【技术实现步骤摘要】
基于深度神经网络的网络视频字幕的快速提取方法
本专利技术涉及计算机视觉领域的文本检测方法和文本识别方法，尤其涉及一种自动样本合成和多Batch加速的端到端的基于深度神经网络的网络视频字幕的快速提取方法。
技术介绍
近年来，深度神经网络由于其特征表示和鲁棒性的能力而推动了目标检测和目标识别的进步，并且基于DNN的方法已经实现了非常好的性能。在文本检测领域CTPN(Z.Tian,W.Huang,TongHe,etal.DetectingTextinNaturalImagewithConnectionistTextProposalNetwork.ECCV,2016)对水平和长文本的检测效果很好，在文本识别领域AttentionOCR(Lee,ChenYu,andS.Osindero."RecursiveRecurrentNetswithAttentionModelingforOCRintheWild."ComputerVisionandPatternRecognitionIEEE,2016:2231-2239.)的识别效果也不错。目前文本检测和识别主要基于一些开源的数据集来进行训练，这些开源数据集基本以英文为主，数据量不大；目前网上还没有更公开的网络视频字幕的检测和识别的数据集，这也成为基于深度学习方法的网络视频字幕提取的一个难点所在。网络视频由于视频帧数比较庞大，所以要求视频字幕的提取应该具有实时性，这样才能满足商用需求。近年来，基于深度学习的自然场景下文本检测和识别有了较大发展，但是基于深度学习的网络视频字幕的文本检测和识别的方法比较少，主要是由于目前缺乏公...

【技术保护点】
1.基于深度神经网络的网络视频字幕的快速提取方法，其特征在于，该提取方法包括：S1：将随机选取的背景图片合成含字幕的图片，进行处理，得到字幕的图片的标签数据；S2：建立字幕文本检测模型和字幕文本识别模型，将S1得到标签数据加入到字幕文本检测模型和字幕文本识别模型中进行训练；S3：建立多Batch加速机制；S4:将训练好的字幕文本检测模型和字幕文本识别模型组合在一起形成一个端到端的字幕提取算法，并加入多Batch的机制，加速字幕的提取速度。

【技术特征摘要】
1.基于深度神经网络的网络视频字幕的快速提取方法，其特征在于，该提取方法包括：S1：将随机选取的背景图片合成含字幕的图片，进行处理，得到字幕的图片的标签数据；S2：建立字幕文本检测模型和字幕文本识别模型，将S1得到标签数据加入到字幕文本检测模型和字幕文本识别模型中进行训练；S3：建立多Batch加速机制；S4:将训练好的字幕文本检测模型和字幕文本识别模型组合在一起形成一个端到端的字幕提取算法，并加入多Batch的机制，加速字幕的提取速度。2.根据权利要求1所述的提取方法，其特征在于，所述S1的具体步骤为：S1.1利用FFMPEG和OpenCV这两个工具库，将预先设置配置文本，配置文件包含ASS字幕需要属性设置信息，根据读取到的配置文件信息生成ASS字幕文与随机选取的背景图片进行处理，得到包含字幕的图片和其二值图片；S2.2：对二值图片在水平和竖直两个方向上做投影得到字幕文本行的位置，得到的字幕位置信息和字幕文本信息组成了训练样本，即标签数据。3.根据权利要求1所述的提取方法，其特征在于，所述S2的所述文本检测模型为开源的CTPN模型，即开源模型的基础上，将Anchor修改为[11,16,27,35,44,55,69,86,108,135]。4.根据权利要求2所述的提取方法，其特征在于，所述S2的具体步骤为：将S1得到的标签数据分别加入到字幕文本检测模型和字幕文本识别模型的训练代码中去...

【专利技术属性】
技术研发人员：殷绪成，张世学，侯杰波，朱超，
申请(专利权)人：北京科技大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人