用于语音转换的可控说话者音频表示的方法及装置制造方法及图纸

技术编号：40482035 阅读：8 留言：0更新日期：2024-02-26 19:15

本公开涉及一种用于语音转换的可控说话者音频表示的方法及装置，上述方法包括：基于机器学习模型，对目标说话对象的音频进行特征提取，得到作为目标说话对象音色参考基准的说话者表示向量；获取编码空间中用于编码说话者音色的基础编码向量；基于上述基础编码向量，对上述说话者表示向量进行跨模态特征表示和计算残差，并对逐轮累积的残差进行跨模态特征表示，将各轮次的跨模态特征表示的累加结果确定为说话者音色表示向量。由于脱离了不同音色特征采用基础编码向量进行各类音色的表示，具有广泛的适用性，有助于提升语音转换方法或语音转换模型面对训练未出现过的说话者的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及语音处理和人工智能，尤其涉及一种用于语音转换的可控说话者音频表示的方法及装置。

技术介绍

1、随着人工智能技术的发展，衍生出来很多新技术，例如语音转换技术，将说话人a的音色转换为说话人b的音色，这一转换过程是将说话人a的音色特征转换为说话人b的音色特征的过程。

2、在实现本公开构思的过程中，专利技术人发现相关技术中至少存在如下技术问题：在构建语音转换模型的过程中，需要各种音色对应的被转换对象和转换后对象对应的训练数据进行训练，如果训练完成的语音转换模型在遇到训练中尚未碰到过的转换后对象进行语音转换处理，通常语音转换后的音色存在与期望音色相似度差的问题。

技术实现思路

1、为了解决上述技术问题或者至少部分地解决上述技术问题，本公开的实施例提供了一种用于语音转换的可控说话者音频表示的方法及装置。

2、第一方面，本公开的实施例提供一种用于语音转换的可控说话者音频表示的方法。上述音频表示的方法包括：基于机器学习模型，对目标说话对象的音频进行特征提取，得到作为目标说话对象音色参考基准的说话者表示向量；获取编码空间中用于编码说话者音色的基础编码向量；基于上述基础编码向量，对上述说话者表示向量进行跨模态特征表示和计算残差，并对逐轮累积的残差进行跨模态特征表示，将各轮次的跨模态特征表示的累加结果确定为说话者音色表示向量。

3、根据本公开的实施例，基于上述基础编码向量，对上述说话者表示向量进行跨模态特征表示和计算残差，并对逐轮累积的残差进行跨模态特征表示

4、根据本公开的实施例，基于机器学习模型，对目标说话对象的音频进行特征提取，得到作为目标说话对象音色参考基准的说话者表示向量，包括：对目标说话对象的音频进行分帧处理；基于说话者编码模型，对上述音频的每一帧进行编码处理，得到每一帧对应的编码结果；计算上述音频各帧的编码结果的均值，上述均值作为目标说话对象音色参考基准的说话者表示向量。

5、根据本公开的实施例，上述音频为梅尔频谱。

6、根据本公开的实施例，获取编码空间中用于编码说话者音色的基础编码向量，包括：将多个残差表示学习网络层作为用于编码说话者音色的基础编码向量；初始状态下，每个残差表示学习网络层为预设维度下的随机初始化向量。

7、第二方面，本公开的实施例提供一种语音转换的方法。上述语音转换的方法包括：获取待转换说话对象的第一音频中的目标说话内容；获取目标说话对象的第二音频；上述目标说话对象为音色转换处理的转换后对象；基于上述音频表示的方法，对上述目标说话对象的第二音频进行表示，得到目标说话者音色表示向量；将上述目标说话内容与上述目标说话者音色表示向量进行合成，得到以上述目标说话对象的音色呈现的目标说话内容。

8、根据本公开的实施例，上述语音转换的方法包括：对上述基础编码向量的组合和组合内各个基础编码向量的权重系数进行调控，生成调控说话者音色表示向量；将上述目标说话内容与上述调控说话者音色表示向量进行合成，得到以调控说话者音色呈现的目标说话内容。

9、第三方面，本公开的实施例提供一种用于语音转换的可控说话者音频表示的装置。上述音频表示的装置包括：特征提取模块、向量获取模块和处理模块。上述特征提取模块用于基于机器学习模型，对目标说话对象的音频进行特征提取，得到作为目标说话对象音色参考基准的说话者表示向量。上述向量获取模块用于获取编码空间中用于编码说话者音色的基础编码向量。上述处理模块用于基于上述基础编码向量，对上述说话者表示向量进行跨模态特征表示和计算残差，并对逐轮累积的残差进行跨模态特征表示，将各轮次的跨模态特征表示的累加结果确定为说话者音色表示向量。

10、第四方面，本公开的实施例提供一种语音转换的装置。上述语音转换的装置包括：内容获取模块、音频获取模块、音频表示模块和语音合成模块。上述内容获取模块用于获取待转换说话对象的第一音频中的目标说话内容。上述音频获取模块用于获取目标说话对象的第二音频；上述目标说话对象为音色转换处理的转换后对象。上述音频表示模块用于对上述目标说话对象的第二音频进行表示，得到目标说话者音色表示向量；上述音频表示模块采用上述音频表示的方法或上述音频表示的装置实现。上述语音合成模块用于将上述目标说话内容与上述目标说话者音色表示向量进行合成，得到以上述目标说话对象的音色呈现的目标说话内容。

11、第五方面，本公开的实施例提供了一种电子设备。上述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现如上所述的用于语音转换的可控说话者音频表示的方法或语音转换的方法。

12、第六方面，本公开的实施例提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序，上述计算机程序被处理器执行时实现如上所述的用于语音转换的可控说话者音频表示的方法或语音转换的方法。

13、本公开实施例提供的上述技术方案至少具有如下优点的部分或全部：

14、考虑到当前的语音转换方法或语音转换模型在遇到未见过的说话者时语音转换效果差，具有有限的鲁棒性，提供了一种音频表示的方法，通过基于机器学习模型，对目标说话对象的音频进行特征提取，得到用于表示目标说话对象音色的说话者表示向量，这一说话者表示向量作为参考基准，用于后续基于基础编码向量的多层残差进行跨模态特征学习，通过基于上述基础编码向量，对上述说话者表示向量进行跨模态特征表示和计算残差，并对逐轮累积的残差进行跨模态特征表示，将各轮次的跨模态特征表示的累加结果确定为说话者音色表示向量，通过多层残差逼近的方式得到的说话者音色表示向量与作为参考基准的说话者表示向量非常接近，能够有效作为语音转换方法或语音转换模型中转换后对象的音色表示，而且由于脱离了不同音色特征采用基础编码向量进行各类音色的表示，具有广泛的适用性，有助于提升语音转换方法或语音转换模型面对训练未出现过的说话者的鲁棒性。

本文档来自技高网...

【技术保护点】

1.一种用于语音转换的可控说话者音频表示的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，基于所述基础编码向量，对所述说话者表示向量进行跨模态特征表示和计算残差，并对逐轮累积的残差进行跨模态特征表示，将各轮次的跨模态特征表示的累加结果确定为说话者音色表示向量，包括：

3.根据权利要求1所述的方法，其特征在于，基于机器学习模型，对目标说话对象的音频进行特征提取，得到作为目标说话对象音色参考基准的说话者表示向量，包括：

4.根据权利要求3所述的方法，其特征在于，所述音频为梅尔频谱。

5.根据权利要求1所述的方法，其特征在于，获取编码空间中用于编码说话者音色的基础编码向量，包括：

6.一种语音转换的方法，其特征在于，包括：

7.根据权利要求6所述的方法，其特征在于，包括：

8.一种用于语音转换的可控说话者音频表示的方法的装置，其特征在于，包括：

9.一种语音转换的装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的方法。

...

【技术特征摘要】

1.一种用于语音转换的可控说话者音频表示的方法，其特征在于，包括：

4.根据权利要求3所述的方法，其特征在于，所述音频为梅尔频谱。

5.根据权利要求1所述的方法，其特征在于，获取编...

【专利技术属性】
技术研发人员：陶建华，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人