System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 视频字幕提取方法、装置、设备及存储介质制造方法及图纸_技高网

视频字幕提取方法、装置、设备及存储介质制造方法及图纸

技术编号:40464325 阅读:6 留言:0更新日期:2024-02-22 23:18
本公开提供一种视频字幕提取方法、装置、设备及存储介质,所述方法包括:获取待提取字幕的视频;对所述视频提取多帧图像,对所述多帧图像中每帧图像分别进行文本识别,基于识别到的每帧图像中包含的文本以及每帧图像的时间戳,得到第一字幕序列;所述第一字幕序列包含:携带有时间戳的多个第一语句;对所述视频中的语音进行语音转文本处理,得到第二字幕序列;所述第二字幕序列包含:携带有时间戳的多个第二语句;对所述第二字幕序列进行如下修正处理,得到所述视频的字幕:比较每一对携带相同时间戳的第一语句和第二语句,将经过比较确定出的相似的一对语句中的第二语句替换为第一语句。

【技术实现步骤摘要】

本公开涉及视频处理,尤其涉及视频字幕提取方法、装置、设备及存储介质


技术介绍

1、视频字幕是指在视频播放过程中,将视频中人物声音以文字形式呈现出来的信息。在一些场景下,需要从视频中提取人物声音转换为视频字幕,然而,已有的视频字幕提取方案提取的字幕质量不高。


技术实现思路

1、为克服相关技术中存在的问题,本公开提供了视频字幕提取方法、装置、设备及存储介质。

2、根据本说明书实施例的第一方面,提供一种视频字幕提取方法,所述方法包括:

3、获取待提取字幕的视频;

4、对所述视频提取多帧图像,对所述多帧图像中每帧图像分别进行文本识别,基于识别到的每帧图像中包含的文本以及每帧图像的时间戳,得到第一字幕序列;其中,所述第一字幕序列包含:携带有时间戳的多个第一语句;

5、对所述视频中的语音进行语音转文本处理,得到第二字幕序列;其中,所述第二字幕序列包含:携带有时间戳的多个第二语句;

6、对所述第二字幕序列进行如下修正处理,得到所述视频的字幕:比较每一对携带相同时间戳的第一语句和第二语句,将经过比较确定出的相似的一对语句中的第二语句替换为第一语句。

7、根据本说明书实施例的第二方面,提供一种视频字幕提取装置,所述装置包括:

8、视频获取模块,用于:获取待提取字幕的视频;

9、第一文本处理模块,用于:对所述视频提取多帧图像,对所述多帧图像中每帧图像分别进行文本识别,基于识别到的每帧图像中包含的文本以及每帧图像的时间戳,得到第一字幕序列;其中,所述第一字幕序列包含:携带有时间戳的多个第一语句;

10、第二文本处理模块,用于:对所述视频中的语音进行语音转文本处理,得到第二字幕序列;其中,所述第二字幕序列包含:携带有时间戳的多个第二语句;

11、修正模块,用于:对所述第二字幕序列进行如下修正处理,得到所述视频的字幕:比较每一对携带相同时间戳的第一语句和第二语句,将经过比较确定出的相似的一对语句中的第二语句替换为第一语句。

12、根据本说明书实施例的第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现前述第一方面所述视频字幕提取方法实施例的步骤。

13、根据本说明书实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述第一方面所述视频字幕提取方法实施例的步骤。

14、本说明书的实施例提供的技术方案可以包括以下有益效果:

15、本说明书实施例中,融合了基于ocr(optical character recognition,光学字符识别)的第一字幕序列和基于asr(automatic speech recognition,自动语音识别)的第二字幕序列来得到视频的字幕;其中,基于ocr的第一字幕序列可能包含了非字幕文本,但文本的准确度较高;而基于asr的第二字幕序列不会包含非字幕文本,但文本的准确度较低;如果来自于ocr的第一语句与来自于asr的第二语句相似度很高,说明来自于ocr的第一语句就是字幕文本,而由于ocr识别的文本准确度较高,因此采用ocr的第一语句替换掉第二字幕序列中的该第二语句,实现了对第二字幕序列中识别错误的文字的修正,因此能够得到高质量的视频字幕。

16、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

本文档来自技高网...

【技术保护点】

1.一种视频字幕提取方法,所述方法包括:

2.根据权利要求1所述的方法,所述比较每一对携带相同时间戳的第一语句和第二语句,将经过比较确定出的相似的一对语句中的第二语句替换为第一语句,包括:

3.根据权利要求1或2所述的方法,所述对所述多帧图像中每帧图像分别进行文本识别,包括:

4.根据权利要求3所述的方法,所述获取所述多帧图像中每帧图像的字幕位置区域,包括:

5.根据权利要求4所述的方法,所述识别出所述每帧图像的至少一个文本框中的无效文本框并去除,包括:

6.根据权利要求2所述的方法,所述多帧图像为按时间先后顺序排列的多帧图像;所述基于识别到的每帧图像中包含的文本以及每帧图像的时间信息,得到第一字幕序列,包括:

7.根据权利要求6所述的方法,所述比较所述多帧图像中每一对相邻图像的字幕文本,将所述每一对相邻图像的字幕文本中存在重复的文本进行去重,包括:

8.一种视频字幕提取装置,所述装置包括:

9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现权利要求1至7任一所述方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至7任一所述方法的步骤。

...

【技术特征摘要】

1.一种视频字幕提取方法,所述方法包括:

2.根据权利要求1所述的方法,所述比较每一对携带相同时间戳的第一语句和第二语句,将经过比较确定出的相似的一对语句中的第二语句替换为第一语句,包括:

3.根据权利要求1或2所述的方法,所述对所述多帧图像中每帧图像分别进行文本识别,包括:

4.根据权利要求3所述的方法,所述获取所述多帧图像中每帧图像的字幕位置区域,包括:

5.根据权利要求4所述的方法,所述识别出所述每帧图像的至少一个文本框中的无效文本框并去除,包括:

6.根据权利要求2所述的方法,所述多帧图像为按时间先后顺序排列的多帧图像;所...

【专利技术属性】
技术研发人员:王荣生刘传宝苑爱泉
申请(专利权)人:拉扎斯网络科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1