【技术实现步骤摘要】
一种声音变换系统、方法及应用
本专利技术涉及语音计算算法领域,尤其涉及一种声音变换系统、方法及所应用的终端。
技术介绍
随着计算机技术的不断发展,人工智能领域的不断深耕,以语音交互为目的的语音机器人逐渐进入大众视野当中。语音机器人的出现改变了现有电话业务的工作性质,目前语音机器人应用房产、教育、金融、旅游等行业中执行语音交互的功能,从而代替人工与用户进行语音交互。为优化客户体验,利用语音转换技术变换语音机器人声音特征是其中一个重要改进方向。语音转换技术是语音信号处理的一个研究分支,它涵盖了说话人识别、语音识别及语音合成等领域的内容,拟在保留原有的语义信息不变的情况下改变语音的个性化信息,使特定说话人(即源说话人)的语音听起来像另一个特定说话人(即目标说话人)的语音。语音转换的主要任务包括提取两个特定说话人语音的特征参数并进行映射转换,然后将变换后的参数解码重构成转换后的语音。在此过程中要保证得到的转换后语音的听觉质量和转换后个性特征是否精确。语音转换技术的研究经过多年发展,语音转换领域已经涌现出多种不同的方法 ...
【技术保护点】
1.一种声音变换系统,包括:/n说话人独立的语音识别模型,至少包括瓶颈层,所述说话人独立的语音识别模型配置为,将输入的源语音的梅尔倒谱特征通过所述瓶颈层变换为源语音的瓶颈特征;/n注意力变声网络,其配置为,将源语音的瓶颈特征变换为与目标语音相符的梅尔倒谱特征;/n神经网络声码器,其配置为,将与目标语音相符的梅尔倒谱特征转化为语音输出。/n
【技术特征摘要】
1.一种声音变换系统,包括:
说话人独立的语音识别模型,至少包括瓶颈层,所述说话人独立的语音识别模型配置为,将输入的源语音的梅尔倒谱特征通过所述瓶颈层变换为源语音的瓶颈特征;
注意力变声网络,其配置为,将源语音的瓶颈特征变换为与目标语音相符的梅尔倒谱特征;
神经网络声码器,其配置为,将与目标语音相符的梅尔倒谱特征转化为语音输出。
2.根据权利要求1所述的声音变换系统,其特征在于,所述说话人独立的语音识别模型配置为,将输入的源语音的梅尔倒谱特征通过所述瓶颈层变换为源语音的瓶颈特征,并将所述源语音瓶颈特征由所述瓶颈层输出至注意力变声网络。
3.一种声音变换方法,包括:
把源语音的梅尔倒谱特征变换为源语音瓶颈特征;
把源语音的瓶颈特征变换为与目标语音相符的梅尔倒谱特征;
将与目标语音相符的梅尔倒谱特征转化为语音输出。
4.一种声音变换系统的训练方法,其应用于训练权利要求1所述的声音变换系统,其特征在于,所述说话人独立的语音识别模型的训练方法包括:
把多人语音识别训练语料中的文字转换成的字符编码的编号和多人语音识别训练语料的梅尔倒谱特征一起输入说话人独立的语音识别模型,运行反向传播算法进行迭代优化,直到说话人独立的语音识别模型收敛。
5.根据权利要求4所述的一种声音变换系统的训练方法,其特征在于,还包括:对所述多人语音识别训练语料进行多人语音识别训练语料预处理,所述多人语音识别训练语料预处理包括去空白和归一化。
6.一种声音变换系统的训练方法...
【专利技术属性】
技术研发人员:司马华鹏,毛志强,龚雪飞,
申请(专利权)人:南京硅基智能科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。