用于语音处理的方法、装置、设备和存储介质制造方法及图纸

技术编号：35352127 阅读：14 留言：0更新日期：2022-10-26 12:22

根据本公开的实施例，提供了用于语音处理的方法、装置、设备和存储介质。在该方法中，针对原语言的多个原文本单元中的各原文本单元，确定相应的语音单元的第一时间戳，多个原文本单元是基于原语言的原语音生成的；确定多个原文本单元与目标语言的多个目标文本单元的对齐信息，多个目标文本单元是从多个原文本单元翻译的；基于第一时间戳和对齐信息，针对多个目标文本单元中的各目标文本单元，确定相应的语音单元的第二时间戳；以及基于多个目标文本单元和第二时间戳，生成目标语言的目标语音。以此方式，提高了语音转换的效率和效果，提高了用户体验。了用户体验。了用户体验。

全部详细技术资料下载

【技术实现步骤摘要】
用于语音处理的方法、装置、设备和存储介质

[0001]本公开的示例实施例总体涉及计算机领域，特别地涉及用于语音处理的方法、装置、设备和计算机可读存储介质。

技术介绍

[0002]利用语音合成技术，可以将用户提供的文本合成语音。所合成的语音可供用户用于配音、朗读、交互等等各种活动。译制片和同声传译是语音合成的两种常见应用场景。在译制片的制作过程中，通常将电影中某种语言(例如，英文)的原声，使用另一种语言(例如，中文)进行翻译并录制，最终将原语音进行覆盖。同声传译与译制片类似，也是对原语音进行翻译，再由翻译官读出翻译语言的音频。这两种场景都需要翻译人员参与，而且对实时性要求较高。

技术实现思路

[0003]在本公开的第一方面，提供了一种语音处理的方法。该方法包括针对原语言的多个原文本单元中的各原文本单元，确定相应的语音单元的第一时间戳，多个原文本单元是基于原语言的原语音生成的；确定多个原文本单元与目标语言的多个目标文本单元的对齐信息，多个目标文本单元是从多个原文本单元翻译的；基于第一时间戳和对齐信息，针对多个目标文本单元中的各目标文本单元，确定相应的语音单元的第二时间戳；以及基于多个目标文本单元和第二时间戳，生成目标语言的目标语音。
[0004]在本公开的第二方面，提供了一种语音处理的装置。该装置包括第一定时模块，被配置为针对原语言的多个原文本单元中的各原文本单元，确定相应的语音单元的第一时间戳，多个原文本单元是基于原语言的原语音生成的；对齐模块，被配置为确定多个原文本单元与目标语言的多个目标文本...

【技术保护点】

【技术特征摘要】
1.一种语音处理的方法，包括：针对原语言的多个原文本单元中的各原文本单元，确定相应的语音单元的第一时间戳，所述多个原文本单元是基于所述原语言的原语音生成的；确定所述多个原文本单元与目标语言的多个目标文本单元的对齐信息，所述多个目标文本单元是从所述多个原文本单元翻译的；基于所述第一时间戳和所述对齐信息，针对所述多个目标文本单元中的各目标文本单元，确定相应的语音单元的第二时间戳；以及基于所述多个目标文本单元和所述第二时间戳，生成所述目标语言的目标语音。2.根据权利要求1所述的方法，其中确定所述第二时间戳包括：将所述多个目标文本单元转换为所述目标语言的参考语音；以及基于所述第一时间戳和所述对齐信息，根据所述参考语音中各参考语音单元的参考时间戳，来确定所述第二时间戳。3.根据权利要求2所述的方法，还包括：针对所述多个参考语音单元中与一组目标文本单元相对应的一组参考语音单元，基于所述对齐信息，确定与所述一组目标文本单元对齐的一组原文本单元；以及基于所述一组目标文本单元的目标文本单元数目以及所述一组原文本单元中各原文本单元的相应语音单元的第一时间戳，调整所述一组参考语音单元中各参考语音单元的所述参考时间戳。4.根据权利要求1所述的方法，其中确定所述第一时间戳包括：在用户界面上呈现所述第一时间戳；接收用户对所述第一时间戳的第一修改；以及基于所述第一修改，调整所述第一时间戳。5.根据权利要求1所述的方法，其中确定所述第二时间戳包括：在用户界面上呈现所述第二时间戳；接收用户对所述第二时间戳的第二修改；以及基于所述第二修改，调整所述第二时间戳。6.根据权利要求1所述的方法，其中确定所述对齐信息包括：在用户界面上呈现所述对齐信息；接收用户对所述对齐信息的第三修改；以及基于所述第三修改，调整所述对齐信息。7.一种语音处理的装置，包括：第一定时模块，被配置为针对原语言的多个原文本单元中的各原文本单元，确定相应的语音单元的第一时间戳，所述多个原文本单元是基于所述原语言的原语音生成的；对齐模块，被配置为确定所述多个原文本单元与目标语言的多个目标文本单元的对齐信息，所述多个...

【专利技术属性】
技术研发人员：章峻珲，马泽君，
申请(专利权)人：北京有竹居网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人