视频的语音生成方法、设备和存储介质技术

技术编号：42822901 阅读：42 留言：0更新日期：2024-09-24 21:00

本发明专利技术涉及语音处理技术领域，公开了一种视频的语音生成方法、设备和存储介质，该方法通过获取用户于用户端界面中上传的待配音视频，并确定目标配音模式，进而对该视频进行语音识别，得到原始语音文本，并将其转换成与目标语言类型对应的文本，得到翻译文本，进而在目标配音模式为模型配音的情况下，确定对应的领域类型和情绪类型，基于对应的声音合成模型生成对应的配音语音数据，进而通过用户端界面展示配音语音数据，并根据情绪调整操作数据调整配音语音数据的情绪，最后生成视频配音文件，通过用户端界面展示以供用户导出，可以帮助用户快速生成符合用户需求的配音，解决传统视频配音过程中存在的成本高、配音匹配度低、耗时长的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音处理，尤其涉及一种视频的语音生成方法、设备和存储介质。

技术介绍

1、随着全球数字内容创作的迅速增长，视频制作的需求日益增加。然而，在传统的视频配音过程中，各流程操作相对独立，需要用户先从视频中提取出文本，进而再通过搜索引擎等方式对文本进行翻译，最终由用户录入翻译后的文本后进行上传。

2、由此可知，传统的视频配音方法中各流程操作之间独立，存在着人工成本高、配音匹配度低以及耗时长等问题。

3、有鉴于此，特提出本专利技术。

技术实现思路

1、为了解决上述技术问题，本专利技术提供了一种视频的语音生成方法、设备和存储介质，解决传统视频配音过程中存在的成本高、配音匹配度低、耗时长的问题，提高用户视频配音效果以及操作便捷性，实现了高效、精准的视频配音，满足用户个性化需求。

2、本专利技术实施例提供了一种视频的语音生成方法，该方法包括：

3、获取用户于用户端界面中上传的待配音视频，并确定所述待配音视频的目标配音模式；

4、对所...

【技术保护点】

1.一种视频的语音生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述得到翻译文本之后，还包括：

3.根据权利要求1所述的方法，其特征在于，基于与所述领域类型和所述情绪类型对应的声音合成模型，生成所述翻译文本对应的配音语音数据，包括：

4.根据权利要求1所述的方法，其特征在于，在通过所述用户端界面展示所述配音语音数据的同时，还包括：

5.根据权利要求1所述的方法，其特征在于，在通过所述用户端界面展示所述配音语音数据之后，还包括：

6.根据权利要求1所述的方法，其特征在于，获取用户于所述用户端界面中反馈的...

【技术特征摘要】

1.一种视频的语音生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述得到翻译文本之后，还包括：

3.根据权利要求1所述的方法，其特征在于，基于与所述领域类型和所述情绪类型对应的声音合成模型，生成所述翻译文本对应的配音语音数据，包括：

4.根据权利要求1所述的方法，其特征在于，在通过所述用户端界面展示所述配音语音数据的同时，还包括：

5.根据权利要求1所述的方法，其特征在于，在通过所述用户端界面展示所述配音语音数据之后，还包括：

【专利技术属性】
技术研发人员：温雪怡，胡开宝，张凯，刘坚，
申请(专利权)人：上海外国语大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人