一种语音转换方法、装置、电子设备和存储介质制造方法及图纸

技术编号：30139977 阅读：19 留言：0更新日期：2021-09-23 15:00

本发明专利技术涉及一种语音转换方法、装置、电子设备和存储介质，该方法应用于将源发音人的语音转换为目标发音人的语音，包括：获取源发音人的语音，根据源发音人的语音确定源发音人的文本；将源发音人的文本输入至目标发音人的语音合成模型和时长强制对齐模型中合成目标发音人的语音；其中，谱特征预测模块中包括时长模型以及声学特征模块。本申请通过时长强制对齐模型对源发音人的语音做强制对齐，得到源发音人的强制对齐时长信息，使用强制对齐的时长信息对时长模型预测的时长做调整，得到调整后的时长信息，并根据调整后的时长信息合成目标发音人的语音，使得转换后语音的语速与输入语音保持一致，从而使得转换后语音的发音风格与源发音人保持一致。源发音人保持一致。源发音人保持一致。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音转换方法、装置、电子设备和存储介质

[0001]本专利技术涉及语音转换
，具体涉及一种语音转换方法、装置、电子设备和存储介质。

技术介绍

[0002]目前，说话人转换技术，就是以源发音人的语音作为输入，将语音音色转换为目标发音人音色，同时保持说话内容不变。现有的技术方案，大都同时需要源发音人和目标发音人的训练数据，很多系统还必须要有平行数据(即两个发音人必须朗读相同的文本内容)。由于数据获取的困难，这大大限制了语音转换技术的使用场景。另一类采用ASR+TTS技术方案，使用ASR系统从源发音人录音中获取发音文本，然后送给目标发音人的TTS系统做合成。该方案不需要源发音人的训练数据，也不需要做与源发音人有关的模型训练，可以实现一套模型支持任意源发音人到特定目标发音人的语音转换。
[0003]目前的ASR+TTS语音转换方案可以实现任意源发音人到特定目标发音人的语音转换，但是这些系统无法根据源发音人的输入语音来控制目标发音人的发音风格，导致转换前后语音的发音风格存在明显差异。

技术实现思路

[0004]本专利技术提供一种语音转换方法、装置、电子设备和存储介质，能够解决上述语音转换过程中前后语音的发音风格存在明显差异的技术问题。
[0005]本专利技术解决上述技术问题的技术方案如下：
[0006]第一方面，本专利技术实施例提供了一种语音转换方法，应用于将源发音人的语音转换为目标发音人的语音，包括：
[0007]获取源发音人的语音，根据所述源发音人的语音确定源发音人...

【技术保护点】

【技术特征摘要】
1.一种语音转换方法，应用于将源发音人的语音转换为目标发音人的语音，其特征在于，包括：获取源发音人的语音，根据所述源发音人的语音确定源发音人的文本；将所述源发音人的文本输入至目标发音人的语音合成模型和时长强制对齐模型中合成目标发音人的语音；其中，所述目标发音人的语音合成模型包括：前端模块、谱特征预测模块、神经网络声码器；所述谱特征预测模块中包括时长模型以及声学特征模块。2.根据权利要求1所述的一种语音转换方法，其特征在于，所述将所述源发音人的语音和源发音人的文本输入至目标发音人的语音合成模型和时长强制对齐模型中合成目标发音人的语音，包括：将所述源发音人的文本输入至所述前端模块中输出上下文相关信息；从所述源发音人的语音中提取所述源发音人的声学特征；将所述上下文相关信息输入至所述时长模型中得到每个音素的预测时长；将所述源发音人的声学特征、所述上下文相关信息输入至所述时长强制对齐模型中得到每个音素的强制对齐时长；使用所述每个音素的强制对齐时长调整所述每个音素的预测时长得到调整后的时长；将所述上下文相关信息、所述调整后的时长输入至所述声学特征模块中输出每一帧的声学特征；将所述每一帧的声学特征输入至所述神经网络声码器中得到目标发音人的语音。3.根据权利要求1所述的一种语音转换方法，其特征在于，所述训练时长强制对齐模型的步骤包括：获取多个语音和多个文本对；根据所述多个文本确定第一上下文相关信息；提取所述多个语音中的梅尔倒谱特征，非周期谱特征和对数基频特征；所述梅尔倒谱特征，所述非周期谱特征和所述对数基频特征及所述梅尔倒谱特征，所述非周期谱特征和所述对数基频特征的差分特征构成第一声学特征；根据所述第一上下文相关信息和所述第一声学特征训练隐马尔可夫模型得到所述时长强制对齐模型。4.根据权利要求2所述的一种语音转换方法，其特征在于，所述上下文相关信息至少包括：拼音信...

【专利技术属性】
技术研发人员：贺来朋，孙见青，梁家恩，
申请(专利权)人：云知声智能科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人