【技术实现步骤摘要】
语音转换方法、装置、电子设备及存储介质
本申请涉及人工智能领域,特别涉及一种语音转换方法、装置、电子设备及存储介质。
技术介绍
TTS(Text-To-Speech,从文本到语音)技术可以通过机械的、电子的方法产生人造语音,随着人工智能技术的发展和人们对TTS技术精确性需求的日益提升,目前出现了调用语音转换模型将文本信息转换成语音信息的方法。训练语音转换模型需要通过语料库来实现,语料库中包括多个样本文本信息和每个样本文本信息对应的样本语音信息。如果语料库中的多个样本语音信息通过多个人来录制,会导致语音转换模型生成的语音信息的音色可能是多个人的音色的混合,会影响语音信息的播放效果。因此,语料库中的多个样本语音信息由同一个人来录制,从而根据多个样本文本信息和对应的样本语音信息训练语音转换模型,但是这样会导致语音转换模型只能生成一种音色的语音信息,智能化程度低。
技术实现思路
本申请实施例提供了一种语音转换方法、装置、电子设备及存储介质,支持多音色功能,智能化程度高。所述技术方案如下。第 ...
【技术保护点】
1.一种语音转换方法,其特征在于,所述方法包括:/n获取多个样本信息,每个样本信息包括样本文本信息、样本语音信息和样本用户标识,所述样本用户标识用于指示按照所述样本文本信息发出所述样本语音信息的用户,且所述多个样本信息中包括的样本用户标识不完全相同;/n根据所述多个样本信息,对语音转换模型进行训练;/n获取目标文本信息和目标用户标识;/n调用所述语音转换模型,根据所述目标用户标识对所述目标文本信息进行转换,得到与目标用户的音色匹配的目标语音信息。/n
【技术特征摘要】
1.一种语音转换方法,其特征在于,所述方法包括:
获取多个样本信息,每个样本信息包括样本文本信息、样本语音信息和样本用户标识,所述样本用户标识用于指示按照所述样本文本信息发出所述样本语音信息的用户,且所述多个样本信息中包括的样本用户标识不完全相同;
根据所述多个样本信息,对语音转换模型进行训练;
获取目标文本信息和目标用户标识;
调用所述语音转换模型,根据所述目标用户标识对所述目标文本信息进行转换,得到与目标用户的音色匹配的目标语音信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多个样本信息,对语音转换模型进行训练,包括:
对于所述每个样本信息,调用所述语音转换模型,根据所述样本用户标识对所述样本文本信息进行转换,得到预测语音信息;
根据所述预测语音信息与所述样本语音信息,确定所述语音转换模型的损失值;
根据所述损失值,调整所述语音转换模型的参数。
3.根据权利要求2所述的方法,其特征在于,所述语音转换模型包括用户特征提取子模型、文本特征提取子模型、声学特征提取子模型和语音转换子模型,所述调用所述语音转换模型,根据所述样本用户标识对所述样本文本信息进行转换,得到预测语音信息,包括:
调用所述用户特征提取子模型,根据所述样本用户标识进行特征提取,得到所述样本用户标识对应的用户特征;
调用所述文本特征提取子模型,根据所述样本文本信息进行特征提取,得到所述样本文本信息对应的文本特征;
调用所述声学特征提取子模型,根据所述文本特征和所述用户特征进行特征转换,得到声学特征;
调用所述语音转换子模型,根据所述声学特征进行语音转换,得到所述预测语音信息。
4.根据权利要求3所述的方法,其特征在于,所述调用所述语音转换子模型,根据所述声学特征进行语音转换,得到所述预测语音信息,包括:
调用所述语音转换子模型,根据所述声学特征和所述用户特征进行语音转换,得到所述预测语音信息。
5.根据权利要求3所述的方法,其特征在于,所述调用所述用户特征提取子模型,根据所述样本用户标识进行特征提取,得到所述样本用户标识对应的用户特征,包括:
调用所述用户特征提取子模型,将所述样本用户标识转换成用户向量,对所述用户向量进行特征提取,得到所述用户特征。
6.根据权利要求5所述的方法,其特征在于,所述调用所述文本特征提取子模型,根据所述样本文本信息进行特征提取,得到所述样本文本信息对应的文本特征,包括:
调用所述文本特征提取子模型,将所述样本文本信息转换成文本向量;
将所述用户向量与所述文本向量进行融合,得到融合向量;
对所述融合向量进行特征提取,得到所述文本特征。
7.根据权利要求1所述的方法,其特征在于,所述语音转换模型包括用户特征提取子模型、文本特征提取子模型、声学特征提取子模型和语音转换子模型,所述调用所述语音转换模型,根据...
【专利技术属性】
技术研发人员:杜慷,陈孝良,冯大航,
申请(专利权)人:北京声智科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。