【技术实现步骤摘要】
一种视频中字幕字符的识别方法及装置
本专利技术涉及字符识别
,更具体的,涉及一种视频中字幕字符的识别方法及装置。
技术介绍
视频中的字幕字符是视频内容的重要载体之一,反映了视频内容的语义信息,为海量视频信息的管理和检索提供了重要的线索,因此,识别视频中字幕字符具有重大意义。目前视频绝大多数都嵌入硬字幕,即字幕与视频片源融合,无法直接对字幕字符进行识别,需要对视频帧中的背景与字幕字符整体作为对象进行识别,然而视频帧中背景复杂,字幕字体效果繁多,字幕字符识别速度慢、准确率低,字幕字符识别效率低下。
技术实现思路
有鉴于此,本专利技术提供了一种视频中字幕字符的识别方法,提高了视频中字幕字符的识别效率。为了实现上述专利技术目的,本专利技术提供的具体技术方案如下:一种视频中字幕字符的识别方法,包括:获取原始视频帧,并裁剪掉所述原始视频帧的上部预设区域,得到第一预设尺寸的待识别视频帧;将所述待识别视频帧输入到字幕位置检测模型中进行处理,得到字幕在所述待识别视频帧中的位置,所述字幕位置检测模型是利用所述第一预设尺寸的训练样本对yolov3tiny网络模型进行训练得到的;根据字幕在所述待识别视频帧中的位置,对所述待识别视频帧进行裁剪,并将裁剪后得到的图像的尺寸调整为第二预设尺寸,得到字幕图像;将所述字幕图像输入到字符识别模型中进行处理,得到所述字幕图像的字符识别结果,所述字符识别模型是利用所述第二预设尺寸的训练样本对改进后的CRNN模型进行训练得到的, ...
【技术保护点】
1.一种视频中字幕字符的识别方法,其特征在于,包括:/n获取原始视频帧,并裁剪掉所述原始视频帧的上部预设区域,得到第一预设尺寸的待识别视频帧;/n将所述待识别视频帧输入到字幕位置检测模型中进行处理,得到字幕在所述待识别视频帧中的位置,所述字幕位置检测模型是利用所述第一预设尺寸的训练样本对yolov3tiny网络模型进行训练得到的;/n根据字幕在所述待识别视频帧中的位置,对所述待识别视频帧进行裁剪,并将裁剪后得到的图像的尺寸调整为第二预设尺寸,得到字幕图像;/n将所述字幕图像输入到字符识别模型中进行处理,得到所述字幕图像的字符识别结果,所述字符识别模型是利用所述第二预设尺寸的训练样本对改进后的CRNN模型进行训练得到的,所述改进后的CRNN模型包括卷积层、1*1卷积层和转录层,其中,所述卷积层包括densenet网络结构,以替换CRNN模型中的基础网络结构backbone。/n
【技术特征摘要】
1.一种视频中字幕字符的识别方法,其特征在于,包括:
获取原始视频帧,并裁剪掉所述原始视频帧的上部预设区域,得到第一预设尺寸的待识别视频帧;
将所述待识别视频帧输入到字幕位置检测模型中进行处理,得到字幕在所述待识别视频帧中的位置,所述字幕位置检测模型是利用所述第一预设尺寸的训练样本对yolov3tiny网络模型进行训练得到的;
根据字幕在所述待识别视频帧中的位置,对所述待识别视频帧进行裁剪,并将裁剪后得到的图像的尺寸调整为第二预设尺寸,得到字幕图像;
将所述字幕图像输入到字符识别模型中进行处理,得到所述字幕图像的字符识别结果,所述字符识别模型是利用所述第二预设尺寸的训练样本对改进后的CRNN模型进行训练得到的,所述改进后的CRNN模型包括卷积层、1*1卷积层和转录层,其中,所述卷积层包括densenet网络结构,以替换CRNN模型中的基础网络结构backbone。
2.根据权利要求1所述的方法,其特征在于,生成所述第一预设尺寸的训练样本,包括:
获取视频帧集合,所述视频帧集合包括预设数量的视频帧;
裁剪掉所述视频帧集合中每个视频帧的顶部预设区域和底部预设区域,得到背景图集合;
在预设字符库中随机提取所述预设数量的字符,所述预设数量的字符的长度在预设长度范围内;
在预设字体库中随机提取所述预设数量的字体;
分别将所述预设数量的字体叠加到所述预设数量的字符中,得到所述预设数量的字幕;
分别将所述预设数量的字幕绘制到所述背景图集合中的每个背景图中,并记录每个字幕在相应背景图中的位置,得到包含字幕的图像集合;
将包含字幕的图像集合中的每个图像的尺寸调整为所述第一预设尺寸,得到所述第一预设尺寸的训练样本。
3.根据权利要求2所述的方法,其特征在于,生成所述第二预设尺寸的训练样本,包括:
在所述分别将所述预设数量的字幕绘制到所述背景图集合中的每个背景图中之后,记录每个背景图中相应字幕的字符标签;
将包含字幕的图像集合中的每个图像的尺寸调整为所述第二预设尺寸,得到所述第二预设尺寸的训练样本,所述第二预设尺寸为所述预设数量的字幕尺寸的平均尺寸。
4.根据权利要求1所述的方法,其特征在于,所述预设字符库包括中文字符、英文字符、数字字符和符号。
5.根据权利要求1所述的方法,其特征在于,所述将所述字幕图像输入到字符识别模型中进行处理,得到所述字幕图像的字符识别结果,包括:
将所述字幕图像输入到所述字符识别模型中的所述卷积层,使所述卷积层中的densenet网络结构对所述字幕图像进行特征提取,并将提取到的特征发送到所述1*1卷积层,使所述1*1卷积层进行特征融合得到特征图,将特征图的尺寸调整为CRNN模型中循环层的输出尺寸,并将调整后的特征图发送到所述转录层,使所述转录层对特征图进行处理,得到所述字幕图像的字符识别结果。
6....
【专利技术属性】
技术研发人员:杨杰,宋施恩,金义彬,肖恺吟,卢海波,
申请(专利权)人:湖南快乐阳光互动娱乐传媒有限公司,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。