一种端到端字幕生成方法、装置、电子设备和存储介质制造方法及图纸

技术编号：39158773 阅读：10 留言：0更新日期：2023-10-23 15:01

本申请公开了一种端到端字幕生成方法、装置、电子设备和存储介质，该方法和装置应用于电子设备，具体为获取待生成字幕的原始音视频材料；基于预先训练的语音识别模型对原始音视频材料中的音频数据进行识别处理，得到包括多个字符的文本材料；对文本材料进行断句处理，得到包括多个单句的第一优先权列表；基于预设的单句长度阈值对第一优先权列表进行处理，得到字幕文件，字幕文件包括多个符合字幕显示特点的字幕断句。本方案可以基于电子设备自动完成字幕文件，而无需人工操作，从而节省了大量的人力物力，且提高了效率。且提高了效率。且提高了效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种端到端字幕生成方法、装置、电子设备和存储介质

[0001]本申请涉及视频制作
，更具体地说，涉及一种端到端字幕生成方法、装置、电子设备和存储介质。

技术介绍

[0002]当前的互联网信息时代，不管是短视频还是直播，都离不开人作为主体，在这种媒体互动场景下，在主播和观众间的信息传递最重要的媒介就是语音信息和文字，有些文字需要与语音信息的内容相匹配。如果想要让主播的语音信息更加准确、快速地传递到观众，就需要基于文字信息的字幕添加到视频上。而传统字幕制作方法是通过人工方式输入文本并逐句对齐添加到视频上，需要耗费大量的人力物力，且效率较低。

技术实现思路

[0003]有鉴于此，本申请提供一种端到端字幕生成方法、装置、电子设备和存储介质，用于降低字幕制作的人力物力消耗，并提高字幕制作的效率。
[0004]为了实现上述目的，现提出的方案如下：一种端到端字幕生成方法，应用于电子设备，所述端到端字幕生成方法包括步骤：获取待生成字幕的原始音视频材料；基于预先训练的语音识别模型对所述原始音视频材料中的音频数据进行识别处理，得到包括多个字符的文本材料；对所述文本材料进行断句处理，得到包括多个单句的第一优先权列表；基于预设的单句长度阈值对所述第一优先权列表进行处理，得到字幕文件，所述字幕文件包括多个符合字幕显示特点的字幕断句。
[0005]可选的，所述基于预先训练的语音识别模型对所述原始音视频材料中的音频数据进行识别处理，得到包括多个字符的文本材料，包括步骤：将所述原始音视频材料中的音频数据进行分段...

【技术保护点】

【技术特征摘要】
1.一种端到端字幕生成方法，应用于电子设备，其特征在于，所述端到端字幕生成方法包括步骤：获取待生成字幕的原始音视频材料；基于预先训练的语音识别模型对所述原始音视频材料中的音频数据进行识别处理，得到包括多个字符的文本材料；对所述文本材料进行断句处理，得到包括多个单句的第一优先权列表；基于预设的单句长度阈值对所述第一优先权列表进行处理，得到字幕文件，所述字幕文件包括多个符合字幕显示特点的字幕断句。2.如权利要求1所述的端到端字幕生成方法，其特征在于，所述基于预先训练的语音识别模型对所述原始音视频材料中的音频数据进行识别处理，得到包括多个字符的文本材料，包括步骤：将所述原始音视频材料中的音频数据进行分段处理，得到多个音频片段；将每个所述音频片段输入所述语音识别模型进行处理，得到所述文本材料。3.如权利要求1所述的端到端字幕生成方法，其特征在于，所述对所述文本材料进行断句处理，得到包括多个单句的第一优先权列表，包括步骤：识别所述文本材料中每个字符在所述原始音视频材料中对应的起始时间和结束时间；根据所述起始时间和所述结束时间对所述文本材料进行断句处理，将所述文本材料处理为包括多个单句的第一优先级列表；在每个所述单句的合适位置配置标点符号。4.如权利要求1所述的端到端字幕生成方法，其特征在于，所述基于预设的单句长度阈值对所述第一优先权列表进行处理，得到字幕文件，所述字幕文件包括多个符合字幕显示特点的字幕断句，包括步骤：配置单句最短阈值和单句最长阈值；基于所述单句最短阈值和所述单句最长阈值依次对所述单句进行归并处理，得到所述字幕断句，所述字幕断句大于或等于所述单句最短阈值，且小于所述单句最长阈值。5.如权利要求1所述的端到端字幕生成方法，其特征在于，所述端到端字幕生成方法还包括步骤：对每个所述字幕断句进行优化处理，以使所述字幕断句符合人类阅读习惯。6.如权利要求1~5任一项所述的端到端字幕生...

【专利技术属性】
技术研发人员：赵子厚，杨松，杨波，
申请(专利权)人：飞狐信息技术天津有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人