一种视频中字幕字符的识别方法及装置制造方法及图纸

技术编号:24889760 阅读:30 留言:0更新日期:2020-07-14 18:16
本发明专利技术提供了一种视频中字幕字符的识别方法及装置,方法包括:获取原始视频帧,裁剪掉所述原始视频帧的上部预设区域,得到第一预设尺寸的待识别视频帧;将待识别视频帧输入字幕位置检测模型中进行处理,得到字幕在待识别视频帧中的位置;根据字幕在待识别视频帧中的位置,对待识别视频帧进行裁剪,并将裁剪后得到的图像的尺寸调整为第二预设尺寸得到字幕图像;将字幕图像输入字符识别模型中进行处理,由于字符识别模型是对改进后的CRNN模型训练得到的,利用改进后的CRNN模型中的densenet对字幕图像进行特征提取,提高特征提取的准确性,然后将提取的特征输入1*1卷积层,1*1卷积层相对于耗时较长的循环层处理速度较快,提高了字符识别的处理速度。

【技术实现步骤摘要】
一种视频中字幕字符的识别方法及装置
本专利技术涉及字符识别
,更具体的,涉及一种视频中字幕字符的识别方法及装置。
技术介绍
视频中的字幕字符是视频内容的重要载体之一,反映了视频内容的语义信息,为海量视频信息的管理和检索提供了重要的线索,因此,识别视频中字幕字符具有重大意义。目前视频绝大多数都嵌入硬字幕,即字幕与视频片源融合,无法直接对字幕字符进行识别,需要对视频帧中的背景与字幕字符整体作为对象进行识别,然而视频帧中背景复杂,字幕字体效果繁多,字幕字符识别速度慢、准确率低,字幕字符识别效率低下。
技术实现思路
有鉴于此,本专利技术提供了一种视频中字幕字符的识别方法,提高了视频中字幕字符的识别效率。为了实现上述专利技术目的,本专利技术提供的具体技术方案如下:一种视频中字幕字符的识别方法,包括:获取原始视频帧,并裁剪掉所述原始视频帧的上部预设区域,得到第一预设尺寸的待识别视频帧;将所述待识别视频帧输入到字幕位置检测模型中进行处理,得到字幕在所述待识别视频帧中的位置,所述字幕位置检测模型是利用所述第一预设尺寸的训练样本对yolov3tiny网络模型进行训练得到的;根据字幕在所述待识别视频帧中的位置,对所述待识别视频帧进行裁剪,并将裁剪后得到的图像的尺寸调整为第二预设尺寸,得到字幕图像;将所述字幕图像输入到字符识别模型中进行处理,得到所述字幕图像的字符识别结果,所述字符识别模型是利用所述第二预设尺寸的训练样本对改进后的CRNN模型进行训练得到的,所述改进后的CRNN模型包括卷积层、1*1卷积层和转录层,其中,所述卷积层包括densenet网络结构,以替换CRNN模型中的基础网络结构backbone。可选的,生成所述第一预设尺寸的训练样本,包括:获取视频帧集合,所述视频帧集合包括预设数量的视频帧;裁剪掉所述视频帧集合中每个视频帧的顶部预设区域和底部预设区域,得到背景图集合;在预设字符库中随机提取所述预设数量的字符,所述预设数量的字符的长度在预设长度范围内;在预设字体库中随机提取所述预设数量的字体;分别将所述预设数量的字体叠加到所述预设数量的字符中,得到所述预设数量的字幕;分别将所述预设数量的字幕绘制到所述背景图集合中的每个背景图中,并记录每个字幕在相应背景图中的位置,得到包含字幕的图像集合;将包含字幕的图像集合中的每个图像的尺寸调整为所述第一预设尺寸,得到所述第一预设尺寸的训练样本。可选的,生成所述第二预设尺寸的训练样本,包括:在所述分别将所述预设数量的字幕绘制到所述背景图集合中的每个背景图中之后,记录每个背景图中相应字幕的字符标签;将包含字幕的图像集合中的每个图像的尺寸调整为所述第二预设尺寸,得到所述第二预设尺寸的训练样本,所述第二预设尺寸为所述预设数量的字幕尺寸的平均尺寸。可选的,所述预设字符库包括中文字符、英文字符、数字字符和符号。可选的,所述将所述字幕图像输入到字符识别模型中进行处理,得到所述字幕图像的字符识别结果,包括:将所述字幕图像输入到所述字符识别模型中的所述卷积层,使所述卷积层中的densenet网络结构对所述字幕图像进行特征提取,并将提取到的特征发送到所述1*1卷积层,使所述1*1卷积层进行特征融合得到特征图,将特征图的尺寸调整为CRNN模型中循环层的输出尺寸,并将调整后的特征图发送到所述转录层,使所述转录层对特征图进行处理,得到所述字幕图像的字符识别结果。一种视频中字幕字符的识别装置,包括:视频帧裁剪单元,用于获取原始视频帧,并裁剪掉所述原始视频帧的上部预设区域,得到第一预设尺寸的待识别视频帧;字幕位置检测单元,用于将所述待识别视频帧输入到字幕位置检测模型中进行处理,得到字幕在所述待识别视频帧中的位置,所述字幕位置检测模型是利用所述第一预设尺寸的训练样本对yolov3tiny网络模型进行训练得到的;视频帧裁剪单元,用于根据字幕在所述待识别视频帧中的位置,对所述待识别视频帧进行裁剪,并将裁剪后得到的图像的尺寸调整为第二预设尺寸,得到字幕图像;字符识别单元,用于将所述字幕图像输入到字符识别模型中进行处理,得到所述字幕图像的字符识别结果,所述字符识别模型是利用所述第二预设尺寸的训练样本对改进后的CRNN模型进行训练得到的,所述改进后的CRNN模型包括卷积层、1*1卷积层和转录层,其中,所述卷积层包括densenet网络结构,以替换CRNN模型中的基础网络结构backbone。可选的,所述装置还包括第一训练样本生成单元,用于:获取视频帧集合,所述视频帧集合包括预设数量的视频帧;裁剪掉所述视频帧集合中每个视频帧的顶部预设区域和底部预设区域,得到背景图集合;在预设字符库中随机提取所述预设数量的字符,所述预设数量的字符的长度在预设长度范围内;在预设字体库中随机提取所述预设数量的字体;分别将所述预设数量的字体叠加到所述预设数量的字符中,得到所述预设数量的字幕;分别将所述预设数量的字幕绘制到所述背景图集合中的每个背景图中,并记录每个字幕在相应背景图中的位置,得到包含字幕的图像集合;将包含字幕的图像集合中的每个图像的尺寸调整为所述第一预设尺寸,得到所述第一预设尺寸的训练样本。可选的,所述装置还包括第二训练样本生成单元,用于:在所述分别将所述预设数量的字幕绘制到所述背景图集合中的每个背景图中之后,记录每个背景图中相应字幕的字符标签;将包含字幕的图像集合中的每个图像的尺寸调整为所述第二预设尺寸,得到所述第二预设尺寸的训练样本,所述第二预设尺寸为所述预设数量的字幕尺寸的平均尺寸。可选的,所述预设字符库包括中文字符、英文字符、数字字符和符号。可选的,所述字符识别单元,具体用于:将所述字幕图像输入到所述字符识别模型中的所述卷积层,使所述卷积层中的densenet网络结构对所述字幕图像进行特征提取,并将提取到的特征发送到所述1*1卷积层,使所述1*1卷积层进行特征融合得到特征图,将特征图的尺寸调整为CRNN模型中循环层的输出尺寸,并将调整后的特征图发送到所述转录层,使所述转录层对特征图进行处理,得到所述字幕图像的字符识别结果。相对于现有技术,本专利技术的有益效果如下:本专利技术公开的一种视频中字幕字符的识别方法,字符识别模型是对改进后的CRNN模型训练得到的,改进后的CRNN模型中将CRNN模型中的卷积层中的基础网络结构backbone替换为densenet网络结构,并将循环层替换为1*1卷积层,因此,在利用字符识别模型对字幕图像的识别过程中,先将字幕图像利用densenet网络结构进行特征提取,从而提高特征提取的准确性,然后将提取的特征输入到1*1卷积层,1*1卷积层相对于耗时较长的循环层处理速度较快,进一步提高了字符识别的处理速度。进一步,通过将裁剪后的视频帧输入到字幕位置检测模型,降低了字幕位置检测模型的数据处理量,提高了字幕本文档来自技高网...

【技术保护点】
1.一种视频中字幕字符的识别方法,其特征在于,包括:/n获取原始视频帧,并裁剪掉所述原始视频帧的上部预设区域,得到第一预设尺寸的待识别视频帧;/n将所述待识别视频帧输入到字幕位置检测模型中进行处理,得到字幕在所述待识别视频帧中的位置,所述字幕位置检测模型是利用所述第一预设尺寸的训练样本对yolov3tiny网络模型进行训练得到的;/n根据字幕在所述待识别视频帧中的位置,对所述待识别视频帧进行裁剪,并将裁剪后得到的图像的尺寸调整为第二预设尺寸,得到字幕图像;/n将所述字幕图像输入到字符识别模型中进行处理,得到所述字幕图像的字符识别结果,所述字符识别模型是利用所述第二预设尺寸的训练样本对改进后的CRNN模型进行训练得到的,所述改进后的CRNN模型包括卷积层、1*1卷积层和转录层,其中,所述卷积层包括densenet网络结构,以替换CRNN模型中的基础网络结构backbone。/n

【技术特征摘要】
1.一种视频中字幕字符的识别方法,其特征在于,包括:
获取原始视频帧,并裁剪掉所述原始视频帧的上部预设区域,得到第一预设尺寸的待识别视频帧;
将所述待识别视频帧输入到字幕位置检测模型中进行处理,得到字幕在所述待识别视频帧中的位置,所述字幕位置检测模型是利用所述第一预设尺寸的训练样本对yolov3tiny网络模型进行训练得到的;
根据字幕在所述待识别视频帧中的位置,对所述待识别视频帧进行裁剪,并将裁剪后得到的图像的尺寸调整为第二预设尺寸,得到字幕图像;
将所述字幕图像输入到字符识别模型中进行处理,得到所述字幕图像的字符识别结果,所述字符识别模型是利用所述第二预设尺寸的训练样本对改进后的CRNN模型进行训练得到的,所述改进后的CRNN模型包括卷积层、1*1卷积层和转录层,其中,所述卷积层包括densenet网络结构,以替换CRNN模型中的基础网络结构backbone。


2.根据权利要求1所述的方法,其特征在于,生成所述第一预设尺寸的训练样本,包括:
获取视频帧集合,所述视频帧集合包括预设数量的视频帧;
裁剪掉所述视频帧集合中每个视频帧的顶部预设区域和底部预设区域,得到背景图集合;
在预设字符库中随机提取所述预设数量的字符,所述预设数量的字符的长度在预设长度范围内;
在预设字体库中随机提取所述预设数量的字体;
分别将所述预设数量的字体叠加到所述预设数量的字符中,得到所述预设数量的字幕;
分别将所述预设数量的字幕绘制到所述背景图集合中的每个背景图中,并记录每个字幕在相应背景图中的位置,得到包含字幕的图像集合;
将包含字幕的图像集合中的每个图像的尺寸调整为所述第一预设尺寸,得到所述第一预设尺寸的训练样本。


3.根据权利要求2所述的方法,其特征在于,生成所述第二预设尺寸的训练样本,包括:
在所述分别将所述预设数量的字幕绘制到所述背景图集合中的每个背景图中之后,记录每个背景图中相应字幕的字符标签;
将包含字幕的图像集合中的每个图像的尺寸调整为所述第二预设尺寸,得到所述第二预设尺寸的训练样本,所述第二预设尺寸为所述预设数量的字幕尺寸的平均尺寸。


4.根据权利要求1所述的方法,其特征在于,所述预设字符库包括中文字符、英文字符、数字字符和符号。


5.根据权利要求1所述的方法,其特征在于,所述将所述字幕图像输入到字符识别模型中进行处理,得到所述字幕图像的字符识别结果,包括:
将所述字幕图像输入到所述字符识别模型中的所述卷积层,使所述卷积层中的densenet网络结构对所述字幕图像进行特征提取,并将提取到的特征发送到所述1*1卷积层,使所述1*1卷积层进行特征融合得到特征图,将特征图的尺寸调整为CRNN模型中循环层的输出尺寸,并将调整后的特征图发送到所述转录层,使所述转录层对特征图进行处理,得到所述字幕图像的字符识别结果。


6....

【专利技术属性】
技术研发人员:杨杰宋施恩金义彬肖恺吟卢海波
申请(专利权)人:湖南快乐阳光互动娱乐传媒有限公司
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1