一种端到端字幕生成方法、装置、电子设备和存储介质制造方法及图纸

技术编号:39158773 阅读:10 留言:0更新日期:2023-10-23 15:01
本申请公开了一种端到端字幕生成方法、装置、电子设备和存储介质,该方法和装置应用于电子设备,具体为获取待生成字幕的原始音视频材料;基于预先训练的语音识别模型对原始音视频材料中的音频数据进行识别处理,得到包括多个字符的文本材料;对文本材料进行断句处理,得到包括多个单句的第一优先权列表;基于预设的单句长度阈值对第一优先权列表进行处理,得到字幕文件,字幕文件包括多个符合字幕显示特点的字幕断句。本方案可以基于电子设备自动完成字幕文件,而无需人工操作,从而节省了大量的人力物力,且提高了效率。且提高了效率。且提高了效率。

【技术实现步骤摘要】
一种端到端字幕生成方法、装置、电子设备和存储介质


[0001]本申请涉及视频制作
,更具体地说,涉及一种端到端字幕生成方法、装置、电子设备和存储介质。

技术介绍

[0002]当前的互联网信息时代,不管是短视频还是直播,都离不开人作为主体,在这种媒体互动场景下,在主播和观众间的信息传递最重要的媒介就是语音信息和文字,有些文字需要与语音信息的内容相匹配。如果想要让主播的语音信息更加准确、快速地传递到观众,就需要基于文字信息的字幕添加到视频上。而传统字幕制作方法是通过人工方式输入文本并逐句对齐添加到视频上,需要耗费大量的人力物力,且效率较低。

技术实现思路

[0003]有鉴于此,本申请提供一种端到端字幕生成方法、装置、电子设备和存储介质,用于降低字幕制作的人力物力消耗,并提高字幕制作的效率。
[0004]为了实现上述目的,现提出的方案如下:一种端到端字幕生成方法,应用于电子设备,所述端到端字幕生成方法包括步骤:获取待生成字幕的原始音视频材料;基于预先训练的语音识别模型对所述原始音视频材料中的音频数据进行识别处理,得到包括多个字符的文本材料;对所述文本材料进行断句处理,得到包括多个单句的第一优先权列表;基于预设的单句长度阈值对所述第一优先权列表进行处理,得到字幕文件,所述字幕文件包括多个符合字幕显示特点的字幕断句。
[0005]可选的,所述基于预先训练的语音识别模型对所述原始音视频材料中的音频数据进行识别处理,得到包括多个字符的文本材料,包括步骤:将所述原始音视频材料中的音频数据进行分段处理,得到多个音频片段;将每个所述音频片段输入所述语音识别模型进行处理,得到所述文本材料。
[0006]可选的,所述对所述文本材料进行断句处理,得到包括多个单句的第一优先权列表,包括步骤:识别所述文本材料中每个字符在所述原始音视频材料中对应的起始时间和结束时间;根据所述起始时间和所述结束时间对所述文本材料进行断句处理,将所述文本材料处理为包括多个单句的第一优先级列表;在每个所述单句的合适位置配置标点符号。
[0007]可选的,所述基于预设的单句长度阈值对所述第一优先权列表进行处理,得到字幕文件,所述字幕文件包括多个符合字幕显示特点的字幕断句,包括步骤:配置单句最短阈值和单句最长阈值;
基于所述单句最短阈值和所述单句最长阈值依次对所述单句进行归并处理,得到所述字幕断句,所述字幕断句大于或等于所述单句最短阈值,且小于所述单句最长阈值。
[0008]可选的,所述端到端字幕生成方法还包括步骤:对每个所述字幕断句进行优化处理,以使所述字幕断句符合人类阅读习惯。
[0009]可选的,端到端字幕生成方法还包括步骤:确定与所述语音识别模型的应用场景相匹配的特殊数据集;构建自制字典库,所述字典库包括所述特殊数据集和通用数据集;利用所述特殊数据集和所述通用数据集执行模型训练,得到所述语音识别模型。
[0010]一种端到端字幕生成装置,应用于电子设备,所述端到端字幕生成装置包括:音视频获取模块,被配置为获取待生成字幕的原始音视频材料;文本识别模块,被配置为基于预先训练的语音识别模型对所述原始音视频材料中的音频数据进行识别处理,得到包括多个字符的文本材料;断句处理模块,被配置为对所述文本材料进行断句处理,得到包括多个单句的第一优先权列表;生成执行模块,被配置为基于预设的单句长度阈值对所述第一优先权列表进行处理,得到字幕文件,所述字幕文件包括多个符合字幕显示特点的字幕断句。
[0011]可选的,还包括:字幕优化模块,被配置为对每个所述字幕断句进行优化处理,以使所述字幕断句符合人类阅读习惯。
[0012]可选的,还包括:数据获取模块,被配置为确定与所述语音识别模型的应用场景相匹配的特殊数据集;字典构建模块,被配置为构建自制字典库,所述字典库包括所述特殊数据集和通用数据集;模型训练模块,被配置为利用所述特殊数据集和所述通用数据集执行模型训练,得到所述语音识别模型。
[0013]一种电子设备,包括至少一个处理器和与所述处理器连接的存储器,其中:所述存储器用于存储计算机程序或指令;所述处理器用于执行所述计算机程序或指令,以使所述电子设备实现如上所述的端到端字幕生成方法。
[0014]一种存储介质,应用于电子设备,所述存储介质承载有一个或多个计算机程序,所述一个或多个计算机程序能够被所述电子设备执行,以使所述电子设备实现如上所述的端到端字幕生成方法。
[0015]从上述的技术方案可以看出,本申请公开了一种端到端字幕生成方法、装置、电子设备和存储介质,该方法和装置应用于电子设备,具体为获取待生成字幕的原始音视频材料;基于预先训练的语音识别模型对原始音视频材料中的音频数据进行识别处理,得到包括多个字符的文本材料;对文本材料进行断句处理,得到包括多个单句的第一优先权列表;基于预设的单句长度阈值对第一优先权列表进行处理,得到字幕文件,字幕文件包括多个符合字幕显示特点的字幕断句。本方案可以基于电子设备自动完成字幕文件,而无需人工
操作,从而节省了大量的人力物力,且提高了效率。
附图说明
[0016]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1为本申请实施例的一种端到端字幕生成方法的流程图;图2为本申请实施例的另一种端到端字幕生成方法的流程图;图3为本申请实施例的文本识别模型的模型训练的流程图;图4为本申请实施例的一种端到端字幕生成装置的框图;图5为本申请实施例的另一种端到端字幕生成装置的框图;图6为本申请实施例的又一种端到端字幕生成装置的框图;图7为本申请实施例的一种电子设备的框图。
具体实施方式
[0018]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
[0019]图1为本申请实施例的一种端到端字幕生成方法的流程图。
[0020]如图1所示,本实施例提供的端到端字幕生成方法应用于电子设备,用于基于原始的音视频材料生成与其同步的字幕文件,该电子设备可以理解为具有数据计算能力和信息处理能力的计算机、服务器、智能终端或其他嵌入式设备等,该端到端字幕生成方法包括如下步骤:S101、获取待生成字幕的原始音视频材料。
[0021]原始音视频材料可以为音频材料,也可以为带有音频的视频材料。如果是带有音频的视频材料时,则首先用用ffmpeg将其转换为wav的音频材料,将其作为进一步处理的原始数据。
[0022]S102、基于语音识别模型对原始音视频材料进行处理。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种端到端字幕生成方法,应用于电子设备,其特征在于,所述端到端字幕生成方法包括步骤:获取待生成字幕的原始音视频材料;基于预先训练的语音识别模型对所述原始音视频材料中的音频数据进行识别处理,得到包括多个字符的文本材料;对所述文本材料进行断句处理,得到包括多个单句的第一优先权列表;基于预设的单句长度阈值对所述第一优先权列表进行处理,得到字幕文件,所述字幕文件包括多个符合字幕显示特点的字幕断句。2.如权利要求1所述的端到端字幕生成方法,其特征在于,所述基于预先训练的语音识别模型对所述原始音视频材料中的音频数据进行识别处理,得到包括多个字符的文本材料,包括步骤:将所述原始音视频材料中的音频数据进行分段处理,得到多个音频片段;将每个所述音频片段输入所述语音识别模型进行处理,得到所述文本材料。3.如权利要求1所述的端到端字幕生成方法,其特征在于,所述对所述文本材料进行断句处理,得到包括多个单句的第一优先权列表,包括步骤:识别所述文本材料中每个字符在所述原始音视频材料中对应的起始时间和结束时间;根据所述起始时间和所述结束时间对所述文本材料进行断句处理,将所述文本材料处理为包括多个单句的第一优先级列表;在每个所述单句的合适位置配置标点符号。4.如权利要求1所述的端到端字幕生成方法,其特征在于,所述基于预设的单句长度阈值对所述第一优先权列表进行处理,得到字幕文件,所述字幕文件包括多个符合字幕显示特点的字幕断句,包括步骤:配置单句最短阈值和单句最长阈值;基于所述单句最短阈值和所述单句最长阈值依次对所述单句进行归并处理,得到所述字幕断句,所述字幕断句大于或等于所述单句最短阈值,且小于所述单句最长阈值。5.如权利要求1所述的端到端字幕生成方法,其特征在于,所述端到端字幕生成方法还包括步骤:对每个所述字幕断句进行优化处理,以使所述字幕断句符合人类阅读习惯。6.如权利要求1~5任一项所述的端到端字幕生...

【专利技术属性】
技术研发人员:赵子厚杨松杨波
申请(专利权)人:飞狐信息技术天津有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1