一种生成视频字幕的方法、装置、电子设备和存储介质制造方法及图纸

技术编号:29967187 阅读:34 留言:0更新日期:2021-09-08 09:36
本发明专利技术涉及生成视频字幕的方法、装置、电子设备和存储介质,该方法包括:获取需要生成视频字幕的视频和音频流;识别视频的图片流中每一帧图片的目标区域的文本信息;根据文本信息识别音频流得到语音识别结果和对应的时间戳;根据语音识别结果、时间戳和图片帧数生成视频字幕。本申请实施例中通过从视频图片流中的目标区域提取文本信息,即先利用图像识别技术确定目标区域,后确定目标区域的文本信息,可降低其他文字信息对于用户话术焦点的干扰,为自动语音识别提供实时、准确的语言信息,能够实现快速定位当前谈话主题,从而提升语音识别准确率,另外基于音频流确定的语音识别结果和时间戳,可以实时生成视频字幕,因此能够大大提升视频字幕的准确率,改善用户体验。改善用户体验。改善用户体验。

【技术实现步骤摘要】
一种生成视频字幕的方法、装置、电子设备和存储介质


[0001]本专利技术涉及字幕处理
,具体涉及一种生成视频字幕的方法、装置、电子设备和存储介质。

技术介绍

[0002]目前,在需要生成字幕的带屏应用场景中,需要将说话人所说内容准确并及时地展示在屏幕上,以便观众能够更好的对其所说的内容进行接收和理解。特别是一些实时上屏的场景下,基于ASR技术的语音实时转写发挥了巨大作用。但是,在一些领域性比较强的场景下(比如在某个学科研讨会上,或者某个行业的演讲报告上,或者某个视频公开课上等),ASR识别结果往往不尽如人意,从而影响了用户体验。为了改善ASR在特定领域的识别效果,目前一般的做法是,事先确定该特定领域,并搜集领域相关的语料和热词等相关信息,然后据此先离线训练好一个定制版的模型。
[0003]在实际语音识别过程中,将定制模型搭配上通用的基础模型进行使用,引擎内部进行权值判断,输出最优的识别结果。需要提前确定涉及到的领域,并搜集相关信息进行定制模型的训练。定制模型只是尽可能搜集相关信息,难以让ASR随着讲话主题的改变,对不同主题都进行精准识别。当讲话主题偏离预先主题时,识别效果更会直线下降。

技术实现思路

[0004]本专利技术提供一种生成视频字幕的方法、装置、电子设备和存储介质,能够解决领域性较强的场景下视频字幕准确率不高的技术问题。
[0005]本专利技术解决上述技术问题的技术方案如下:
[0006]第一方面,本专利技术实施例提供了一种生成视频字幕的方法,包括:
[0007]获取需要生成视频字幕的视频和音频流;
[0008]识别视频的图片流中每一帧图片的目标区域的文本信息;
[0009]根据文本信息识别音频流得到语音识别结果和对应的时间戳;
[0010]根据语音识别结果、时间戳和图片帧数生成视频字幕。
[0011]在一些实施例中,上述方法中识别视频的图片流中每一帧图片的目标区域的文本信息,包括:
[0012]识别视频的图片流中每一帧图片中是否存在目标区域;
[0013]若识别结果为图片中存在所述目标区域;
[0014]确定目标区域的坐标位置;
[0015]截取目标区域;
[0016]对目标区域中的文字进行处理得到文本信息。
[0017]在一些实施例中,上述方法中对目标区域的文字进行处理包括:
[0018]定位目标区域中的文字;
[0019]识别目标区域的文字;
[0020]将目标区域的文字规范化;
[0021]增强目标区域的文字。
[0022]在一些实施例中,上述方法中将目标区域的文字规范化,至少包括:
[0023]去掉多余的空格、无用的图形和符号。
[0024]在一些实施例中,上述方法还包括:将文本信息输入自动语音识别引擎中进行训练得到自适应语言模型。
[0025]在一些实施例中,上述方法中识别音频流得到语音识别结果和对应的时间戳,包括:
[0026]根据基础声学模型、基础语言模型及所述自适应语言模型进行解码,得到语音识别结果及对应的时间戳信息。
[0027]在一些实施例中,上述方法中截取所述目标区域,包括:根据坐标位置截取目标区域。
[0028]第二方面,本专利技术实施例还提供了一种生成视频字幕的装置,包括:
[0029]获取模块:用于获取需要生成视频字幕的视频和音频流;
[0030]第一识别模块:用于识别所述视频的图片流中每一帧图片的目标区域的文本信息;
[0031]第二识别模块:用于根据文本信息识别所述音频流得到语音识别结果和对应的时间戳;
[0032]生成模块:用于根据所述语音识别结果、所述时间戳和图片帧数生成视频字幕。
[0033]在一些实施例中,上述装置中第一识别模块还用于:
[0034]识别视频的图片流中每一帧图片中是否存在目标区域;
[0035]若识别结果为图片中存在所述目标区域;
[0036]确定目标区域的坐标位置;
[0037]截取目标区域;
[0038]对目标区域中的文字进行处理得到文本信息。
[0039]在一些实施例中,上述装置中对目标区域的文字进行处理包括:
[0040]定位目标区域中的文字;
[0041]识别目标区域的文字;
[0042]将目标区域的文字规范化;
[0043]增强目标区域的文字。
[0044]在一些实施例中,上述装置中将目标区域的文字规范化,至少包括:
[0045]去掉多余的空格、无用的图形和符号。
[0046]在一些实施例中,上述装置中还包括:训练模块,用于将文本信息输入自动语音识别引擎中进行训练得到自适应语言模型。
[0047]在一些实施例中,上述装置中第二识别模块还用于:
[0048]根据基础声学模型、基础语言模型及自适应语言模型进行解码,得到语音识别结果及对应的时间戳信息。
[0049]在一些实施例中,上述装置中截取目标区域,包括:根据坐标位置截取目标区域。
[0050]第三方面,本专利技术实施例还提供了一种电子设备,包括:处理器和存储器;
[0051]所述处理器通过调用所述存储器存储的程序或指令,用于执行如上所述任一项所述一种生成视频字幕的方法。
[0052]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如上所述任一项所述一种生成视频字幕的方法。
[0053]本专利技术的有益效果是:获取需要生成视频字幕的视频和音频流;识别视频的图片流中每一帧图片的目标区域的文本信息;根据文本信息识别音频流得到语音识别结果和对应的时间戳;根据语音识别结果、时间戳和图片帧数生成视频字幕。本申请实施例中通过从视频图片流中的目标区域提取文本信息,即先利用图像识别技术确定目标区域,后确定目标区域的文本信息,可降低其他文字信息对于用户话术焦点的干扰,为自动语音识别提供实时、准确的语言信息,能够实现快速定位当前谈话主题,从而提升语音识别准确率,另外基于音频流确定的语音识别结果和时间戳,可以实时生成视频字幕,因此能够大大提升视频字幕的准确率,改善用户体验。
附图说明
[0054]图1为本专利技术实施例提供的一种生成视频字幕的方法图之一;
[0055]图2为本专利技术实施例提供的一种生成视频字幕的方法图之二;
[0056]图3为本专利技术实施例提供的一种生成视频字幕的装置图;
[0057]图4为本专利技术实施例提供的一种电子设备的示意性框图。
具体实施方式
[0058]以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。
[0059]为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,所描述的实施例是本公开的一部分实施例,而本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生成视频字幕的方法,其特征在于,包括:获取需要生成视频字幕的视频和音频流;识别所述视频的图片流中每一帧图片的目标区域的文本信息;根据所述文本信息识别所述音频流得到语音识别结果和对应的时间戳;根据所述语音识别结果、所述时间戳和图片帧数生成视频字幕。2.根据权利要求1所述的生成视频字幕的方法,其特征在于,所述识别所述视频的图片流中每一帧图片的目标区域的文本信息,包括:识别所述视频的图片流中每一帧图片中是否存在目标区域;若识别结果为所述图片中存在所述目标区域;确定所述目标区域的坐标位置;截取所述目标区域;对所述目标区域中的文字进行处理得到文本信息。3.根据权利要求2所述的生成视频字幕的方法,其特征在于,所述对所述目标区域的文字进行处理包括:定位所述目标区域中的文字;识别所述目标区域的文字;将所述目标区域的文字规范化;增强所述目标区域的文字。4.根据根据权利要求3所述的生成视频字幕的方法,其特征在于,所述将所述目标区域的文字规范化,至少包括:去掉多余的空格、无用的图形和符号。5.根据根据权利要求1所述的生成视频字幕的方法,其特征在于,所述方法还包括:将所述文本信息输入自动语音识别引擎中进行...

【专利技术属性】
技术研发人员:蒋莹范红亮梁家恩
申请(专利权)人:深圳云知声信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1