一种声音变换系统、方法及应用技术方案

技术编号：26532801 阅读：37 留言：0更新日期：2020-12-01 14:17

本发明专利技术提出一种非平行语料训练的语音转换方案，摆脱对平行文本的依赖，解决在资源、设备有限的条件下难以实现语音转换的技术问题,包括一种声音变换系统、方法及所应的终端，与现有技术相比，具有以下优点：训练好的说话人独立的语音识别模型可用于任意的源说话人，即说话人独立；音频的瓶颈特征相比语音后验概率特征更加抽象，既能反映说话内容并和说话人音色解耦，同时又和音素类别的绑定没有那么紧密，不是明确的一一对应关系，一定程度上缓解了ASR识别错误导致发音不准的问题。使用瓶颈特征作声音变换得到的音频，发音的准确率明显高于语音后验概率方法，并且音色没有显著区别；利用迁移学习方式，可以大幅度缩小训练语料的依赖。

全部详细技术资料下载

【技术实现步骤摘要】
一种声音变换系统、方法及应用
本专利技术涉及语音计算算法领域，尤其涉及一种声音变换系统、方法及所应用的终端。
技术介绍
随着计算机技术的不断发展，人工智能领域的不断深耕，以语音交互为目的的语音机器人逐渐进入大众视野当中。语音机器人的出现改变了现有电话业务的工作性质，目前语音机器人应用房产、教育、金融、旅游等行业中执行语音交互的功能，从而代替人工与用户进行语音交互。为优化客户体验，利用语音转换技术变换语音机器人声音特征是其中一个重要改进方向。语音转换技术是语音信号处理的一个研究分支，它涵盖了说话人识别、语音识别及语音合成等领域的内容，拟在保留原有的语义信息不变的情况下改变语音的个性化信息，使特定说话人(即源说话人)的语音听起来像另一个特定说话人(即目标说话人)的语音。语音转换的主要任务包括提取两个特定说话人语音的特征参数并进行映射转换，然后将变换后的参数解码重构成转换后的语音。在此过程中要保证得到的转换后语音的听觉质量和转换后个性特征是否精确。语音转换技术的研究经过多年发展，语音转换领域已经涌现出多种不同的方法...

【技术保护点】
1.一种声音变换系统，包括：/n说话人独立的语音识别模型，至少包括瓶颈层，所述说话人独立的语音识别模型配置为，将输入的源语音的梅尔倒谱特征通过所述瓶颈层变换为源语音的瓶颈特征；/n注意力变声网络，其配置为，将源语音的瓶颈特征变换为与目标语音相符的梅尔倒谱特征；/n神经网络声码器，其配置为，将与目标语音相符的梅尔倒谱特征转化为语音输出。/n

【技术特征摘要】
1.一种声音变换系统，包括：
说话人独立的语音识别模型，至少包括瓶颈层，所述说话人独立的语音识别模型配置为，将输入的源语音的梅尔倒谱特征通过所述瓶颈层变换为源语音的瓶颈特征；
注意力变声网络，其配置为，将源语音的瓶颈特征变换为与目标语音相符的梅尔倒谱特征；
神经网络声码器，其配置为，将与目标语音相符的梅尔倒谱特征转化为语音输出。

2.根据权利要求1所述的声音变换系统，其特征在于，所述说话人独立的语音识别模型配置为，将输入的源语音的梅尔倒谱特征通过所述瓶颈层变换为源语音的瓶颈特征，并将所述源语音瓶颈特征由所述瓶颈层输出至注意力变声网络。

3.一种声音变换方法，包括：
把源语音的梅尔倒谱特征变换为源语音瓶颈特征；
把源语音的瓶颈特征变换为与目标语音相符的梅尔倒谱特征；
将与目标语音相符的梅尔倒谱特征转化为语音输出。

4.一种声音变换系统的训练方法，其应用于训练权利要求1所述的声音变换系统，其特征在于，所述说话人独立的语音识别模型的训练方法包括：
把多人语音识别训练语料中的文字转换成的字符编码的编号和多人语音识别训练语料的梅尔倒谱特征一起输入说话人独立的语音识别模型，运行反向传播算法进行迭代优化，直到说话人独立的语音识别模型收敛。

5.根据权利要求4所述的一种声音变换系统的训练方法，其特征在于，还包括：对所述多人语音识别训练语料进行多人语音识别训练语料预处理，所述多人语音识别训练语料预处理包括去空白和归一化。

6.一种声音变换系统的训练方法...

【专利技术属性】
技术研发人员：司马华鹏，毛志强，龚雪飞，
申请(专利权)人：南京硅基智能科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人