【技术实现步骤摘要】
视频处理和字幕检测模型的方法及装置
[0001]本公开涉及人工智能领域,具体涉及计算机视觉和深度学习技术,具体可用于智感超清场景下。
技术介绍
[0002]随着科技的进步,社会的快速发展,身处信息时代的人们,每天都会接收到大量的信息。视频是信息传递的主要方式之一。来自不同国家、不同地区、不同语种的视频信息,可能会因为文化差异、语种不同等因素,造成信息传递有误。于是,字幕的辅助作用就很有意义了。各类视频可以通过字幕翻译或者字幕再编辑,转换为居民能够理解的视频信息。如果能将字幕从视频流中较为方便的提取出来,转化为能够编辑的文本文件,将为字幕翻译和字幕处理工作减轻很大的负担。
[0003]现有的技术方案主要依赖图像文字识别和语音转文字技术得到字幕区域,但是视频中的文字并不都是字幕,仅依靠文字识别和语音转文字技术容易将非字幕的文字误检测为字幕。
技术实现思路
[0004]本公开提供了一种视频处理和训练字幕检测模型的方法、装置、设备、存储介质以及计算机程序产品。
[0005]根据本公开的第一方面,提供了 ...
【技术保护点】
【技术特征摘要】
1.一种视频处理方法,包括:获取待处理的视频文件;从所述视频文件提取出视频帧集合和音频片段集合,其中,每个音频片段对应一个视频帧;将所述视频帧集合和所述音频片段集合输入预先训练的字幕检测模型,输出仅保留字幕区域的图像集合;基于所述图像集合确定出所述视频帧集合中每个视频帧的字幕区域。2.根据权利要求1所述的方法,其中,所述方法还包括:将目标视频帧中的字幕区域进行擦除,得到残缺图像;将所述残缺图像输入图像修复模型,得到无字幕的目标视频帧。3.根据权利要求1所述的方法,其中,所述方法还包括:将目标视频帧对应的仅保留字幕区域的图像进行二值化处理,得到字幕内容的掩码图;基于所述掩码图将目标视频帧中的字幕内容进行擦除,得到残缺图像;将所述残缺图像输入图像修复模型,得到无字幕的目标视频帧。4.根据权利要求2或3所述的方法,其中,所述方法还包括:在所述无字幕的目标视频帧中添加重新编辑后的字幕。5.根据权利要求1所述的方法,其中,所述方法还包括:对于所述图像集合中的每张图像,从该图像的字幕区域识别出字幕内容;记录每条字幕内容对应的视频帧在所述视频文件中位置。6.一种训练字幕检测模型的方法,包括:获取样本集,其中,所述样本集中的样本包括样本图像、样本音频以及样本图像上字幕区域的标注信息;执行以下训练步骤:从所述样本集中选取样本;将选取的样本中的样本图像和样本音频输入字幕检测模型,得到预测的字幕区域;基于预测的字幕区域与选取的样本的标注信息计算损失值;若所述损失值小于目标值,则确定出所述字幕检测模型训练完成。7.根据权利要求6所述的方法,其中,所述方法还包括:若所述损失值不小于目标值,则调整所述字幕检测模型中的相关参数,继续执行上述训练步骤。8.一种视频处理装置,包括:获取单元,被配置成获取待处理的视频文件;提取单元,被配置成从所述视频文件提取出视频帧集合和音频片段集合,其中,每个音频片段对应一个视频帧;检测单元,被配置成将所述视频帧集合和所述音频片段集合输入预先训练的字幕检测模型,输出仅保留字幕区域的图像集合;确定单元,被配置成基于所述图像集合确定出所述视频帧集合中每个视频帧的字幕区域。9.根据权利要求8所述的装置,其中,所述装置还...
【专利技术属性】
技术研发人员:郑贺,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。