语音转换方法、系统、装置及存储介质制造方法及图纸

技术编号:24421712 阅读:39 留言:0更新日期:2020-06-06 14:27
本申请公开了一种语音转换方法,所述方法包括:获取待转换语音,提取所述待转换语音的声学特征;从源向量池中获取与所述待转换语音对应的源向量,从目标向量池中选取目标语音对应的目标向量;将所述待转换语音的声学特征、所述待转换语音对应的源向量和所述目标语音对应的目标向量作为语音转换模型的输入,获取所述语音转换模型输出的目标语音声学特征;采用声码器对所述目标语音声学特征进行转换得到目标语音。通过语音转换模型得到目标语音声学特征,再对目标语音声学特征进行转换得到目标语音,使得单个语音转换模型能够进行多对多的语音转换,同时可以解决因存放模型而产生额外成本的问题。此外,还提出了一种语音转换系统、装置及存储介质。

Speech conversion method, system, device and storage medium

【技术实现步骤摘要】
【国外来华专利技术】语音转换方法、系统、装置及存储介质
本申请涉及语音识别
,尤其涉及一种语音转换方法、系统、装置及存储介质。
技术介绍
目前最前沿的语音转换技术都是基于深度学习技术的语音转换技术,它的转换效果好,语音相似度高,流畅自然。基于深度学习的语音转换技术,可以根据所用的神经网络的结构不同分为不同的种类。比如使用Bi-LSTM的语音转换技术、使用Seq2Seq2模型的语音转换技术、使用WGAN的语音转换技术等。目前所有的Bi-LSTM模型,都是进行一对一的转换,即从某个特定的源说话人A转换到特定的目标说话人B,这在使用上会造成一些麻烦,例如,如果目标说话人有多个,那么就需要训练出多个一对一的模型,这使得在工业生产应用中,不仅不能实现单个语音模型进行多对多的语音转换,还需要额外的成本去存放模型。申请内容基于此,本申请提出了一种可以使得单个语音转换模型能够进行多对多的语音转换,从而可以解决因存放模型而产生额外成本的问题的语音转换方法、系统、装置及存储介质。一种语音转换方法,所述方法包括:获取待转换语音,提取所述待转本文档来自技高网...

【技术保护点】
1.一种语音转换方法,其特征在于,所述方法包括:/n获取待转换语音,提取所述待转换语音的声学特征;/n从源向量池中获取与所述待转换语音对应的源向量,从目标向量池中选取目标语音对应的目标向量;/n将所述待转换语音的声学特征、所述待转换语音对应的源向量和所述目标语音对应的目标向量作为语音转换模型的输入,获取所述语音转换模型输出的目标语音声学特征;/n采用声码器对所述目标语音声学特征进行转换得到目标语音。/n

【技术特征摘要】
【国外来华专利技术】1.一种语音转换方法,其特征在于,所述方法包括:
获取待转换语音,提取所述待转换语音的声学特征;
从源向量池中获取与所述待转换语音对应的源向量,从目标向量池中选取目标语音对应的目标向量;
将所述待转换语音的声学特征、所述待转换语音对应的源向量和所述目标语音对应的目标向量作为语音转换模型的输入,获取所述语音转换模型输出的目标语音声学特征;
采用声码器对所述目标语音声学特征进行转换得到目标语音。


2.根据权利要求1所述的方法,其特征在于,所述从源向量池中获取与所述待转换语音对应的源向量,从目标向量池中选取目标语音对应的目标向量,包括:
获取待转换语音对应的源语音标识,根据所述源语音标识从源向量池中获取与所述待转换语音对应的源向量;
获取目标语音对应的目标语音标识,根据所述目标语音标识从目标向量池中选取目标语音对应的目标向量。


3.根据权利要求1所述的方法,其特征在于,所述语音转换模型采用以下步骤得到:
获取多个源说话人语音对应的待训练源向量池,获取多个目标说话人语音对应的待训练目标向量池,所述待训练源向量池中包括每个源说话人语音的待训练源向量,所述待训练目标向量池包括每个目标说话人语音的待训练目标向量;
获取训练样本对集合,所述训练样本对集合中包括多个训练样本对,所述训练样本对中包括源说话人对应的训练语音样本和目标说话人对应的训练目标语音样本;
提取所述训练语音样本的声学特征,提取所述训练目标语音样本的声学特征;
将所述训练语音样本的声学特征、所述源说话人语音对应的待训练源向量、所述目标说话人语音的待训练目标向量作为待训练语音转换模型的输入,将所述训练目标语音样本的声学特征作为期望的输出,对所述待训练语音转换模型进行训练,得到训练好的语音转换模型。


4.根据权利要求3所述的方法,其特征在于,所述将所述训练语音样本的声学特征、所述源说话人语音对应的待训练源向量、所述目标说话人语音的待训练目标向量作为待训练语音转换模型的输入,将所述训练目标语音样本的声学特征作为期望的输出,对所述待训练语音转换模型进行训练,得到训练好的语音转换模型,包括:
将所述训练语音样本的声学特征、所述源说话人语音对应的待训练源向量、所述目标说话人语音的待训练目标向量作为待训练语音转换模型的输入,获取所述待训练语音转换模型输出的实际语音声学特征;
根据所述训练目标语音样本的声学特征和所述实际语音声学特征计算得到损失值;
根据所述损失值对所述待训练语音转换模型中的参数、所述待训练源向量和所述待训练目标向量进行更新,直到所述损失...

【专利技术属性】
技术研发人员:王若童汤志超黄东延谢杰斌赵之源刘洋熊友军
申请(专利权)人:深圳市优必选科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1