一种语音合成方法、装置、设备及存储介质制造方法及图纸

技术编号:25639983 阅读:23 留言:0更新日期:2020-09-15 21:31
本发明专利技术实施例提供一种语音合成方法、装置、设备及存储介质,用以提高语音合成的通用性,满足没有专业的录音设备和录音环境的普通用户的使用需求。所述语音合成方法,包括:接收语音播报指令,语音播报指令中包含语音播报文本和播报语音所使用音色对应的目标对象;获取预先采集的目标对象的预设数量条语音数据,利用预先训练的声纹识别模型提取目标对象的声纹特征信息,预先训练的声纹识别模型是基于预先采集的多个对象的语音数据训练生成的,预设数量小于预设数量阈值;利用预先训练的语音合成模型,基于语音播报文本、预先训练的声纹识别模型和所述目标对象的声纹特征信息,合成音色为目标对象音色的待播放语音;播放合成的待播放语音。

【技术实现步骤摘要】
一种语音合成方法、装置、设备及存储介质
本专利技术涉及语音交互领域,尤其涉及一种语音合成方法、装置、设备及存储介质。
技术介绍
车载语音交互系统一直备受大众关注,良好的语音交互系统不仅可以提高驾驶者及乘车人的安全意识,同时也可以使车载环境更加智能。现阶段车载语音导航交互中明星音色备受喜爱,这种音色带来的更多的是一种娱乐效果,但定制音色可能更加会提高驾驶员的安全意识。语音导航中往往伴随安全提示,“系安全带”,“前方减速”等提示,如果将导航声音定制成自己的父母,伴侣或者自己的孩子,驾驶员在无所谓的情况下,会更愿意去听从这些“亲切的”安全提示,同时也会提升车载环境的智能感。现阶段,基于端到端模型的语音合成(TTS,TextToSpeech)技术成为新的主流合成方法,TTS是一种通过机械或电子的方式生成人造语音的技术,这种方法摒弃了参数合成中的多个复杂模块结合的方法,直接从文本生成音频。这种端到端的方式,减少了特征工程只需要输入文本,其他的特征模型也都可以通过端到端模型隐式建模,避免了多个子模型的误差传递和积累,各种条件添加方便,如语种、说话人、情感信息等,同时这种模型生成的语音细节丰富,能够大幅度还原人声。同时,基于端到端TTS的多说话人技术也得到长足发展,学者们在现有端到端TTS的基础上,加入多个说话人的音频标签进行区分,然后进行多说话人训练,测试时可以根据多个说话人的编号来指定用哪种声音来合成出当前文字,实现不同说话人间的灵活切换,有一定的实用价值,但是有一个很大的局限性,即该模型需要大量的多说话人数据,每位说话人至少需要几小时专业录制的、高质量的语音数据,才能保证模型的质量和实用性,并且不具备通用性,对于普通人来说,通常都没有专业的录音设备和录音环境,而训练过程通常都需要专人现场监督,不断反复录制以保证录音质量,普通人没有足够的时间去专门录制这么久的高质量训练音频,这就导致该模型无法进入普通人的使用范围。综上所述,现有技术中的语音合成方法不具备通用性,无法满足没有专业的录音设备和录音环境的普通人的使用需求。
技术实现思路
本专利技术实施例提供一种语音合成方法、装置、设备及存储介质,用以提高语音合成的通用性,满足没有专业的录音设备和录音环境的普通用户的使用需求。第一方面,本专利技术实施例提供一种语音合成方法,包括:接收语音播报指令,语音播报指令中包含语音播报文本和播报语音所使用音色对应的目标对象;获取预先采集的目标对象的预设数量条语音数据,利用预先训练的声纹识别模型提取目标对象的声纹特征信息,预先训练的声纹识别模型是基于预先采集的多个对象的语音数据训练生成的,预设数量小于预设数量阈值;利用预先训练的语音合成模型,基于语音播报文本、预先训练的声纹识别模型和所述目标对象的声纹特征信息,合成音色为目标对象音色的待播放语音;播放合成的待播放语音。本专利技术实施例提供的语音合成方法,首先,接收语音播报指令,语音播报指令中包含语音播报文本和播报语音所使用音色对应的目标对象,然后,获取预先采集的目标对象的预设数量条语音数据,利用预先训练的声纹识别模型提取目标对象的声纹特征信息,预先训练的声纹识别模型是基于预先采集的多个对象的语音数据训练生成的,预设数量小于预设数量阈值,利用预先训练的语音合成模型,基于语音播报文本、预先训练的声纹识别模型和所述目标对象的声纹特征信息,合成音色为目标对象音色的待播放语音,最后,播放合成的待播放语音。与现有技术相比,只需要录制目标对象的预设数量条语音样本,就可以使用目标对象的音色合成任意语音,大大节省了用户录制语音的时间,同时,由于加入了声纹识别模型,因此无需专业设备录制,使用手机、平板、电脑等设备均可录制,在节省录制时间的同时,提高语音合成的通用性,满足没有专业的录音设备和录音环境的普通用户的使用需求。在一种可能的实施方式中,利用预先训练的语音合成模型,基于语音播报文本、预先训练的声纹识别模型和所述目标对象的声纹特征信息,合成音色为目标对象音色的待播放语音,包括:利用预先训练的语音合成模型,对语音播报文本中的音素信息进行处理,确定语音播报文本的读音和韵律;利用预先训练的语音合成模型,基于预先训练的声纹识别模型和所述目标对象的声纹特征信息,合成包含目标对象音色的梅尔谱信息;利用预先训练的声码器模型,将梅尔谱信息转换为语音波形,并基于语音播报文本的读音和韵律,得到待播放语音。在一种可能的实施方式中,利用预先训练的语音合成模型,基于预先训练的声纹识别模型和所述目标对象的声纹特征信息,合成包含目标对象音色的梅尔谱信息,包括:利用预先训练的语音合成模型中的编码器网络,确定所述目标对象的声纹特征信息对应的编码向量以及声纹识别模型的编码向量;对所述目标对象的声纹特征信息对应的编码向量和声纹识别模型的编码向量进行组合,得到组合后的编码向量;利用预先训练的语音合成模型中的解码器网络,对组合后的编码向量进行解码,得到包含目标对象音色的梅尔谱信息。在一种可能的实施方式中,预先训练的声纹识别模型采用如下步骤训练生成:以预先采集的多个对象的语音数据的声纹特征作为深度神经网络模型的输入特征,以预先对每条语音数据进行标注的标注结果作为深度神经网络模型的输出特征,对深度神经网络模型进行训练,将训练得到的深度神经网络模型作为声纹识别模型。第二方面,本专利技术实施例提供一种语音合成装置,包括:接收单元,用于接收语音播报指令,语音播报指令中包含语音播报文本和播报语音所使用音色对应的目标对象;提取单元,用于获取预先采集的目标对象的预设数量条语音数据,利用预先训练的声纹识别模型提取所述目标对象的声纹特征信息,所述预先训练的声纹识别模型是基于预先采集的多个对象的语音数据训练生成的,所述预设数量小于预设数量阈值;处理单元,用于利用预先训练的语音合成模型,基于语音播报文本、预先训练的声纹识别模型和所述目标对象的声纹特征信息,合成音色为目标对象音色的待播放语音;播放单元,用于播放合成的待播放语音。在一种可能的实施方式中,处理单元具体用于:利用预先训练的语音合成模型,对语音播报文本中的音素信息进行处理,确定语音播报文本的读音和韵律;利用预先训练的语音合成模型,基于预先训练的声纹识别模型和所述目标对象的声纹特征信息,合成包含目标对象音色的梅尔谱信息;利用预先训练的声码器模型,将梅尔谱信息转换为语音波形,并基于语音播报文本的读音和韵律,得到待播放语音。在一种可能的实施方式中,处理单元具体用于:利用预先训练的语音合成模型中的编码器网络,确定所述目标对象的声纹特征信息对应的编码向量以及声纹识别模型的编码向量;对所述目标对象的声纹特征信息对应的编码向量和声纹识别模型的编码向量进行组合,得到组合后的编码向量;利用预先训练的语音合成模型中的解码器网络,对组合后的编码向量进行解码,得到包含目标对象音色的梅尔谱信息。在一种可能的实施方式中,处理本文档来自技高网
...

【技术保护点】
1.一种语音合成方法,其特征在于,包括:/n接收语音播报指令,所述语音播报指令中包含语音播报文本和播报语音所使用音色对应的目标对象;/n获取预先采集的目标对象的预设数量条语音数据,利用预先训练的声纹识别模型提取所述目标对象的声纹特征信息,所述预先训练的声纹识别模型是基于预先采集的多个对象的语音数据训练生成的,所述预设数量小于预设数量阈值;/n利用预先训练的语音合成模型,基于所述语音播报文本、预先训练的声纹识别模型和所述目标对象的声纹特征信息,合成音色为所述目标对象音色的待播放语音;/n播放合成的待播放语音。/n

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:
接收语音播报指令,所述语音播报指令中包含语音播报文本和播报语音所使用音色对应的目标对象;
获取预先采集的目标对象的预设数量条语音数据,利用预先训练的声纹识别模型提取所述目标对象的声纹特征信息,所述预先训练的声纹识别模型是基于预先采集的多个对象的语音数据训练生成的,所述预设数量小于预设数量阈值;
利用预先训练的语音合成模型,基于所述语音播报文本、预先训练的声纹识别模型和所述目标对象的声纹特征信息,合成音色为所述目标对象音色的待播放语音;
播放合成的待播放语音。


2.根据权利要求1所述的方法,其特征在于,所述利用预先训练的语音合成模型,基于所述语音播报文本、预先训练的声纹识别模型和所述目标对象的声纹特征信息,合成音色为所述目标对象音色的待播放语音,包括:
利用预先训练的语音合成模型,对所述语音播报文本中的音素信息进行处理,确定所述语音播报文本的读音和韵律;
利用预先训练的语音合成模型,基于预先训练的声纹识别模型和所述目标对象的声纹特征信息,合成包含目标对象音色的梅尔谱信息;
利用预先训练的声码器模型,将所述梅尔谱信息转换为语音波形,并基于所述语音播报文本的读音和韵律,得到待播放语音。


3.根据权利要求1所述的方法,其特征在于,所述利用预先训练的语音合成模型,基于预先训练的声纹识别模型和所述目标对象的声纹特征信息,合成包含目标对象音色的梅尔谱信息,包括:
利用预先训练的语音合成模型中的编码器网络,确定所述目标对象的声纹特征信息对应的编码向量以及所述声纹识别模型的编码向量;
对所述目标对象的声纹特征信息对应的编码向量和所述声纹识别模型的编码向量进行组合,得到组合后的编码向量;
利用预先训练的语音合成模型中的解码器网络,对组合后的编码向量进行解码,得到包含目标对象音色的梅尔谱信息。


4.根据权利要求1所述的方法,其特征在于,所述预先训练的声纹识别模型采用如下步骤训练生成:
以预先采集的多个对象的语音数据的声纹特征作为深度神经网络模型的输入特征,以预先对每条语音数据进行标注的标注结果作为所述深度神经网络模型的输出特征,对所述深度神经网络模型进行训练,将训练得到的深度神经网络模型作为声纹识别模型。


5.一种语音合成装置,其特征在于,包括:
接收单元,用于接收语音播报指令,所述语音播报指令...

【专利技术属性】
技术研发人员:杜慷冯大航陈孝良
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1