一种语音转换方法、装置、电子设备和存储介质制造方法及图纸

技术编号:30139977 阅读:19 留言:0更新日期:2021-09-23 15:00
本发明专利技术涉及一种语音转换方法、装置、电子设备和存储介质,该方法应用于将源发音人的语音转换为目标发音人的语音,包括:获取源发音人的语音,根据源发音人的语音确定源发音人的文本;将源发音人的文本输入至目标发音人的语音合成模型和时长强制对齐模型中合成目标发音人的语音;其中,谱特征预测模块中包括时长模型以及声学特征模块。本申请通过时长强制对齐模型对源发音人的语音做强制对齐,得到源发音人的强制对齐时长信息,使用强制对齐的时长信息对时长模型预测的时长做调整,得到调整后的时长信息,并根据调整后的时长信息合成目标发音人的语音,使得转换后语音的语速与输入语音保持一致,从而使得转换后语音的发音风格与源发音人保持一致。源发音人保持一致。源发音人保持一致。

【技术实现步骤摘要】
一种语音转换方法、装置、电子设备和存储介质


[0001]本专利技术涉及语音转换
,具体涉及一种语音转换方法、装置、电子设备和存储介质。

技术介绍

[0002]目前,说话人转换技术,就是以源发音人的语音作为输入,将语音音色转换为目标发音人音色,同时保持说话内容不变。现有的技术方案,大都同时需要源发音人和目标发音人的训练数据,很多系统还必须要有平行数据(即两个发音人必须朗读相同的文本内容)。由于数据获取的困难,这大大限制了语音转换技术的使用场景。另一类采用ASR+TTS技术方案,使用ASR系统从源发音人录音中获取发音文本,然后送给目标发音人的TTS系统做合成。该方案不需要源发音人的训练数据,也不需要做与源发音人有关的模型训练,可以实现一套模型支持任意源发音人到特定目标发音人的语音转换。
[0003]目前的ASR+TTS语音转换方案可以实现任意源发音人到特定目标发音人的语音转换,但是这些系统无法根据源发音人的输入语音来控制目标发音人的发音风格,导致转换前后语音的发音风格存在明显差异。

技术实现思路

[0004]本专利技术提供一种语音转换方法、装置、电子设备和存储介质,能够解决上述语音转换过程中前后语音的发音风格存在明显差异的技术问题。
[0005]本专利技术解决上述技术问题的技术方案如下:
[0006]第一方面,本专利技术实施例提供了一种语音转换方法,应用于将源发音人的语音转换为目标发音人的语音,包括:
[0007]获取源发音人的语音,根据所述源发音人的语音确定源发音人的文本;
[0008]将所述源发音人的文本输入至目标发音人的语音合成模型和时长强制对齐模型中合成目标发音人的语音;
[0009]其中,所述目标发音人的语音合成模型包括:前端模块、谱特征预测模块、神经网络声码器;所述谱特征预测模块中包括时长模型以及声学特征模块。
[0010]在一些实施例中,上述语音转换方法中,将源发音人的语音和源发音人的文本输入至目标发音人的语音合成模型和时长强制对齐模型中合成目标发音人的语音,包括:
[0011]将源发音人的文本输入至所述前端模块中输出上下文相关信息;
[0012]从源发音人的语音中提取所述源发音人的声学特征;
[0013]将上下文相关信息输入至时长模型中得到每个音素的预测时长;
[0014]将源发音人的声学特征、上下文相关信息输入至时长强制对齐模型中得到每个音素的强制对齐时长;
[0015]使用每个音素的强制对齐时长调整每个音素的预测时长得到调整后的时长;
[0016]将上下文相关信息、调整后的时长输入至声学特征模块中输出每一帧的声学特
征;
[0017]将每一帧的声学特征输入至神经网络声码器中得到目标发音人的语音。
[0018]在一些实施例中,上述语音转换方法中,训练时长强制对齐模型的步骤包括:
[0019]获取多个语音和多个文本对;
[0020]根据多个文本确定第一上下文相关信息;
[0021]提取多个语音中的梅尔倒谱特征,非周期谱特征和对数基频特征;
[0022]梅尔倒谱特征,非周期谱特征和对数基频特征及梅尔倒谱特征,非周期谱特征和对数基频特征的差分特征构成第一声学特征;
[0023]根据第一上下文相关信息和第一声学特征训练隐马尔可夫模型得到时长强制对齐模型。
[0024]在一些实施例中,上述语音转换方法中,上下文相关信息至少包括:拼音信息、分词、词性、韵律停顿和句中位置。
[0025]在一些实施例中,上述语音转换方法中,根据源发音人的语音确定源发音人的文本,包括:
[0026]获取多个语音和多个文本对;
[0027]训练多个语音和多个文本对得到语音识别模型;
[0028]将源发音人的语音输入至语音识别模型中输出源发音人的文本。
[0029]在一些实施例中,上述语音转换方法中,使用每个音素的强制对齐时长调整每个音素的预测时长得到调整后的时长,包括:
[0030]采用韵律短语停顿方法停顿至少一次;
[0031]统计韵律短语内,每个音素的强制对齐时长和每个音素的预测时长的比例,将所述比例作为时长调整系数;
[0032]将所述韵律短语中每个音素的预测时长都乘以时长调整系数,得到的时长为调整后的时长。
[0033]在一些实施例中,上述语音转换方法中,目标发音人的语音合成模型的训练步骤如下:
[0034]获取目标发音人的多个语音和文本对;
[0035]训练目标发音人的多个语音和文本对得到目标发音人的语音合成模型。
[0036]第二方面,本专利技术实施例提供了一种语音转换装置,应用于将源发音人的语音转换为目标发音人的语音,包括:
[0037]获取模块和确定模块:用于获取源发音人的语音,根据源发音人的语音确定源发音人的文本;
[0038]输入模块和合成模块:用于将源发音人的文本输入至目标发音人的语音合成模型中合成目标发音人的语音;
[0039]其中,目标发音人的语音合成模型包括:前端模块、谱特征预测模块和神经网络声码器;谱特征预测模块中包括时长强制对齐模型和声学特征模块。
[0040]第三方面,本专利技术实施例还提供了一种电子设备,包括:处理器和存储器;
[0041]所述处理器通过调用所述存储器存储的程序或指令,用于执行如上所述任一项所述一种语音转换方法。
[0042]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如上所述任一项所述一种语音转换方法。
[0043]本专利技术的有益效果是:应用于将源发音人的语音转换为目标发音人的语音,包括:获取源发音人的语音,根据源发音人的语音确定源发音人的文本;将源发音人的文本输入至目标发音人的语音合成模型和时长强制对齐模型中合成目标发音人的语音;其中,目标发音人的语音合成模型包括:前端模块、谱特征预测模块、神经网络声码器;谱特征预测模块中包括时长模型以及声学特征模块。本申请实施例中通过时长强制对齐模型对源发音人的语音做强制对齐,得到源发音人的强制对齐时长信息,使用强制对齐的时长信息对时长模型预测的时长做调整,得到调整后的时长信息,并根据调整后的时长信息合成目标发音人的语音,使得转换后语音的语速与输入语音保持一致,从而使得转换后语音的发音风格与源发音人保持一致。
附图说明
[0044]图1为本专利技术实施例提供的一种语音转换方法图一;
[0045]图2为本专利技术实施例提供的一种语音转换方法图二;
[0046]图3为本专利技术实施例提供的一种语音转换方法图三;
[0047]图4为本专利技术实施例提供的一种语音转换方法图四;
[0048]图5为本专利技术实施例提供的一种语音转换方法图五;
[0049]图6为本专利技术实施例提供的一种语音转换装置图;
[0050]图7为本专利技术实施例提供的一种电子设备的示意性本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音转换方法,应用于将源发音人的语音转换为目标发音人的语音,其特征在于,包括:获取源发音人的语音,根据所述源发音人的语音确定源发音人的文本;将所述源发音人的文本输入至目标发音人的语音合成模型和时长强制对齐模型中合成目标发音人的语音;其中,所述目标发音人的语音合成模型包括:前端模块、谱特征预测模块、神经网络声码器;所述谱特征预测模块中包括时长模型以及声学特征模块。2.根据权利要求1所述的一种语音转换方法,其特征在于,所述将所述源发音人的语音和源发音人的文本输入至目标发音人的语音合成模型和时长强制对齐模型中合成目标发音人的语音,包括:将所述源发音人的文本输入至所述前端模块中输出上下文相关信息;从所述源发音人的语音中提取所述源发音人的声学特征;将所述上下文相关信息输入至所述时长模型中得到每个音素的预测时长;将所述源发音人的声学特征、所述上下文相关信息输入至所述时长强制对齐模型中得到每个音素的强制对齐时长;使用所述每个音素的强制对齐时长调整所述每个音素的预测时长得到调整后的时长;将所述上下文相关信息、所述调整后的时长输入至所述声学特征模块中输出每一帧的声学特征;将所述每一帧的声学特征输入至所述神经网络声码器中得到目标发音人的语音。3.根据权利要求1所述的一种语音转换方法,其特征在于,所述训练时长强制对齐模型的步骤包括:获取多个语音和多个文本对;根据所述多个文本确定第一上下文相关信息;提取所述多个语音中的梅尔倒谱特征,非周期谱特征和对数基频特征;所述梅尔倒谱特征,所述非周期谱特征和所述对数基频特征及所述梅尔倒谱特征,所述非周期谱特征和所述对数基频特征的差分特征构成第一声学特征;根据所述第一上下文相关信息和所述第一声学特征训练隐马尔可夫模型得到所述时长强制对齐模型。4.根据权利要求2所述的一种语音转换方法,其特征在于,所述上下文相关信息至少包括:拼音信...

【专利技术属性】
技术研发人员:贺来朋孙见青梁家恩
申请(专利权)人:云知声智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1