一种生成视频字幕的方法、装置、电子设备和存储介质制造方法及图纸

技术编号：29967187 阅读：34 留言：0更新日期：2021-09-08 09:36

本发明专利技术涉及生成视频字幕的方法、装置、电子设备和存储介质，该方法包括：获取需要生成视频字幕的视频和音频流；识别视频的图片流中每一帧图片的目标区域的文本信息；根据文本信息识别音频流得到语音识别结果和对应的时间戳；根据语音识别结果、时间戳和图片帧数生成视频字幕。本申请实施例中通过从视频图片流中的目标区域提取文本信息，即先利用图像识别技术确定目标区域，后确定目标区域的文本信息，可降低其他文字信息对于用户话术焦点的干扰，为自动语音识别提供实时、准确的语言信息，能够实现快速定位当前谈话主题，从而提升语音识别准确率，另外基于音频流确定的语音识别结果和时间戳，可以实时生成视频字幕，因此能够大大提升视频字幕的准确率，改善用户体验。改善用户体验。改善用户体验。

全部详细技术资料下载

【技术实现步骤摘要】
一种生成视频字幕的方法、装置、电子设备和存储介质

[0001]本专利技术涉及字幕处理
，具体涉及一种生成视频字幕的方法、装置、电子设备和存储介质。

技术介绍

[0002]目前，在需要生成字幕的带屏应用场景中，需要将说话人所说内容准确并及时地展示在屏幕上，以便观众能够更好的对其所说的内容进行接收和理解。特别是一些实时上屏的场景下，基于ASR技术的语音实时转写发挥了巨大作用。但是，在一些领域性比较强的场景下(比如在某个学科研讨会上，或者某个行业的演讲报告上，或者某个视频公开课上等)，ASR识别结果往往不尽如人意，从而影响了用户体验。为了改善ASR在特定领域的识别效果，目前一般的做法是，事先确定该特定领域，并搜集领域相关的语料和热词等相关信息，然后据此先离线训练好一个定制版的模型。
[0003]在实际语音识别过程中，将定制模型搭配上通用的基础模型进行使用，引擎内部进行权值判断，输出最优的识别结果。需要提前确定涉及到的领域，并搜集相关信息进行定制模型的训练。定制模型只是尽可能搜集相关信息，难以让ASR随着讲话主题的改变，对不同主题都进行精准识别。当讲话主题偏离预先主题时，识别效果更会直线下降。

技术实现思路

[0004]本专利技术提供一种生成视频字幕的方法、装置、电子设备和存储介质，能够解决领域性较强的场景下视频字幕准确率不高的技术问题。
[0005]本专利技术解决上述技术问题的技术方案如下：
[0006]第一方面，本专利技术实施例提供了一种生成视频字幕的方法，包括：
[...

【技术保护点】

【技术特征摘要】
1.一种生成视频字幕的方法，其特征在于，包括：获取需要生成视频字幕的视频和音频流；识别所述视频的图片流中每一帧图片的目标区域的文本信息；根据所述文本信息识别所述音频流得到语音识别结果和对应的时间戳；根据所述语音识别结果、所述时间戳和图片帧数生成视频字幕。2.根据权利要求1所述的生成视频字幕的方法，其特征在于，所述识别所述视频的图片流中每一帧图片的目标区域的文本信息，包括：识别所述视频的图片流中每一帧图片中是否存在目标区域；若识别结果为所述图片中存在所述目标区域；确定所述目标区域的坐标位置；截取所述目标区域；对所述目标区域中的文字进行处理得到文本信息。3.根据权利要求2所述的生成视频字幕的方法，其特征在于，所述对所述目标区域的文字进行处理包括：定位所述目标区域中的文字；识别所述目标区域的文字；将所述目标区域的文字规范化；增强所述目标区域的文字。4.根据根据权利要求3所述的生成视频字幕的方法，其特征在于，所述将所述目标区域的文字规范化，至少包括：去掉多余的空格、无用的图形和符号。5.根据根据权利要求1所述的生成视频字幕的方法，其特征在于，所述方法还包括：将所述文本信息输入自动语音识别引擎中进行...

【专利技术属性】
技术研发人员：蒋莹，范红亮，梁家恩，
申请(专利权)人：深圳云知声信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人