当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于双声纹特征向量和序列到序列建模的多对多语音转换方法技术

技术编号:26691812 阅读:38 留言:0更新日期:2020-12-12 02:44
本发明专利技术涉及语音合成,语音转换领域,更具体地,涉及一种基于双声纹特征向量和序列到序列建模的多对多语音转换方法。本发明专利技术用多说话人的语音合成技术生成大量的平行预料,这为模型的训练提供了极大的方便。然后使用序列到序列的神经网络对输入的源说话人特征建模映射到目标说话人特征。为了实现多对多的语音转换,本发明专利技术使用说话人验证任务的模型产生表征说话人身份的声纹特征向量。源说话人和目标说话人的声纹特征向量作为辅助信心加入序列到序列的模型中去。经过模型训练测试,本发明专利技术能够取得不错的效果。

【技术实现步骤摘要】
一种基于双声纹特征向量和序列到序列建模的多对多语音转换方法
本专利技术涉及语音合成,语音转换领域,更具体地,涉及一种基于双声纹特征向量和序列到序列建模的多对多语音转换方法。
技术介绍
随着人工智能领域的快速发展,智能语音交互,个性化语音生成等技术吸引了人们的广泛关注。语音转换作为其中的一项重要技术,涉及信号处理、深度学习、语音学等多方面学科领域,是目前语音交互的热点和难点。语音转换通常是指把源说话人的个性化特征转换成目标说话人的个性化特征,保持说话的内容不变。个性化特征包括语音的频谱、韵律等信息,本质是使转换后的语音在听觉上像目标说话人的语音。传统的语音转换方法是对源和目标说话人语音进行统计理论分析,通过参数映射方式实现。方法从线性映射到非线性映射,数据从平行语料到平行语料过渡。但是,需要大量的平行语料。平行语料的获取难度大,成本高,这给技术应用造成极大困难和不便;多数方法是一对一的语音转换,对于多对多的语音转换,需要重复训练,效率不高。专利CN103886859B,公开日为2014.06.25,公开了一种一对多码书映射本文档来自技高网...

【技术保护点】
1.一种基于双声纹特征向量和序列到序列建模的多对多语音转换方法,其特征在于,包括以下步骤:/nS1.数据增强:采用文字到语音的多说话人语音合成模块生成平行语料;/nS2.语音信号的特征提取:对于生成的平行语料,进行提取原音频和目标音频的声学特征;/nS3.对说话人的身份特征进行编码,得到代表说话人身份的声纹特征向量;/nS4.利用序列到序列的语音转换模型对步骤S2的声学特征和步骤S3的声纹特征向量进行训练,序列到序列的语音转换模型采用的是编码器和解码器的神经网络进行训练的,在训练阶段,语音转换模型的输入是步骤S2提取的源说话人语音声学特征和步骤S3提取的目标说话人身份编码声纹特征向量,输出的是...

【技术特征摘要】
1.一种基于双声纹特征向量和序列到序列建模的多对多语音转换方法,其特征在于,包括以下步骤:
S1.数据增强:采用文字到语音的多说话人语音合成模块生成平行语料;
S2.语音信号的特征提取:对于生成的平行语料,进行提取原音频和目标音频的声学特征;
S3.对说话人的身份特征进行编码,得到代表说话人身份的声纹特征向量;
S4.利用序列到序列的语音转换模型对步骤S2的声学特征和步骤S3的声纹特征向量进行训练,序列到序列的语音转换模型采用的是编码器和解码器的神经网络进行训练的,在训练阶段,语音转换模型的输入是步骤S2提取的源说话人语音声学特征和步骤S3提取的目标说话人身份编码声纹特征向量,输出的是目标说话人的mel谱,最终让语音转换模型学会源说话人声学特征映射到目标说话人的声学特征;在测试阶段,直接输入源说话人的mel谱和任意目标说话人声纹特征向量,语音转换模型自动转换成任意目标说话人的mel谱;
S5.采用声码器模块对步骤S3的mel谱进行转换,输出重构语音的时域波形。


2.根据权利要求1所述的基于双声纹特征向量和序列到序列建模的多对多语音转换方法,其特征在于,所述的步骤S1中,语音合成模块是建立在Tacotron2基础上的端到端多说话人合成;所述的语音合成模块具体包括以下步骤:
S11.输入一串文字,经过文字转音素的前端处理转换成音素,作为Tacotron2的真正输入;
S12.Tacotron2将输入的音素经过词嵌入层得到高维字符特征,然后依次经过卷积神经网络,循环神经网络编码成高维信息,最后经过带有注意力机制的解码器,一次一步自回归的解码成mel谱;且得到的mel谱不转换成音频。


3.根据权利要求2所述的基于双声纹特征向量和序列到序列建模的多对多语音转换方法,其特征在于,所述的步骤S3中声学特征选择梅尔频谱;所述的梅尔频谱特征的提取具体包括以下步骤:
S21.每条语音信号先降采样到16k,经过预加重、分帧、加窗处理;
S22.对语音信号序列进行短时傅里叶变换,得到幅度谱;
S23.对生成的频率频谱图通过梅尔滤波器组得到梅尔频谱,对频谱结果取模,再取10倍的对数值,转换成db大小,最后通过一个滤波器组得到mel谱。


4.根据权利要求3所述的基于双声纹特征向量和序列到序列建模的多对多语音转换方法,其特征在于,所述的步骤S3中,是在说话人识别中对说话者的语音进行提取声纹特征向量;说话人识别任务与文本无关,说话人的音频输入到模型中后,被模型自动分类成是哪一个说话人。


5.根据权利要求4所述的基于双声纹特征向量和序列到序列建模的多对多语音转换方法,其特征在于,说话人识别包括训练阶段和测试阶段,所述的训练阶段包括:
S311.语音信号经过预加重,分帧加窗,短时傅里叶变换,再经过梅尔滤波器组得到mel谱;
S312.卷积神经网络对mel谱进行深层次的特征提取,输出一个固定维度的声纹特征向量;
S313.利用判别器判断是哪一个人说话;
所述的测试阶段包括:
S321.某个人的语音信号经过预加重,分帧加窗,短时傅里叶变换,再经过梅尔滤波器组得到mel谱;
S322.卷积神经网络对mel谱提取高层次的固定维度的声纹特征向量,输出这个声纹特征向量,能够表征说话人身份信息。


6.根据权利要求5所述...

【专利技术属性】
技术研发人员:杨耀根张东
申请(专利权)人:中山大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1