语音合成模型训练方法和装置、电子设备及存储介质制造方法及图纸

技术编号:24858584 阅读:56 留言:0更新日期:2020-07-10 19:10
本申请提供的语音合成模型训练方法和装置、电子设备及存储介质,涉及语音合成技术领域。在本申请中,首先,对获取的音频样本数据进行第一处理得到对应的自然度信息。其次,对音频样本数据进行第二处理得到对应的第一音素信息,并对该第一音素信息进行标识处理,得到对应的第二音素信息。然后,基于自然度信息和第二音素信息对预先构建的神经网络模型进行训练,得到语音合成模型,其中,该语音合成模型用于将输入的目标文本数据转换为目标音频数据。通过上述方法,可以改善现有的语音合成技术中由于合成准确度较低而使得合成音频存在不自然的问题。

【技术实现步骤摘要】
语音合成模型训练方法和装置、电子设备及存储介质
本申请涉及语音合成
,具体而言,涉及一种语音合成模型训练方法和装置、电子设备及存储介质。
技术介绍
随着语音合成技术的不断发展,其应用范围也越来越广,使得用户对于合成的语音的要求也越来越高。但是,经专利技术人研究发现,由于训练得到的语音合成模型对数据的识别精度不高,使得在合成语音时,存在由于合成精度较低而使得合成的音频不够自然的问题。
技术实现思路
有鉴于此,本申请的目的在于提供一种语音合成模型训练方法和装置、电子设备及存储介质,以改善现有的语音合成技术中由于合成准确度较低而使得合成音频存在不自然的问题。为实现上述目的,本申请实施例采用如下技术方案:一种语音合成模型训练方法,包括:对获取的音频样本数据进行第一处理得到对应的自然度信息;对所述音频样本数据进行第二处理得到对应的第一音素信息,并对该第一音素信息进行标识处理,得到对应的第二音素信息;基于所述自然度信息和所述第二音素信息对预先构建的神经网络模型进行训练,得到语音合成模型,其中本文档来自技高网...

【技术保护点】
1.一种语音合成模型训练方法,其特征在于,包括:/n对获取的音频样本数据进行第一处理得到对应的自然度信息;/n对所述音频样本数据进行第二处理得到对应的第一音素信息,并对该第一音素信息进行标识处理,得到对应的第二音素信息;/n基于所述自然度信息和所述第二音素信息对预先构建的神经网络模型进行训练,得到语音合成模型,其中,该语音合成模型用于将输入的目标文本数据转换为目标音频数据。/n

【技术特征摘要】
1.一种语音合成模型训练方法,其特征在于,包括:
对获取的音频样本数据进行第一处理得到对应的自然度信息;
对所述音频样本数据进行第二处理得到对应的第一音素信息,并对该第一音素信息进行标识处理,得到对应的第二音素信息;
基于所述自然度信息和所述第二音素信息对预先构建的神经网络模型进行训练,得到语音合成模型,其中,该语音合成模型用于将输入的目标文本数据转换为目标音频数据。


2.根据权利要求1所述的语音合成模型训练方法,其特征在于,所述对该第一音素信息进行标识处理的步骤,包括:
基于声音的连续性将所述第一音素信息进行分段处理,得到多段音素组,其中,每一段音素组包括至少一个音素;
在每一段音素组的最后一个音素之后设置静音标识信息,并在该静音标识信息之后设置结束标识信息,其中,该静音标识信息用于标识对应位置表示停顿预设时长,该结束标识信息用于标识对应音素组结束。


3.根据权利要求2所述的语音合成模型训练方法,其特征在于,所述对该第一音素信息进行标识处理的步骤,还包括:
针对每一段音素组,在预设的多个预设时长中,确定该段音素组的静音标识信息对应的目标预设时长。


4.根据权利要求2所述的语音合成模型训练方法,其特征在于,所述对该第一音素信息进行标识处理的步骤,还包括:
确定所述第一音素信息中每一个音素集是否包括属于声母的音素,其中,每一个音素集包括至少一个音素,用于构成一个发音;
针对不包括属于声母的音素的音素集,对该音素集设置一个预设配置的模糊标识信息,其中,该模糊标识信息为无发音的音素。


5.根据权利要求2所述的语音合成模型训练方法,其特征在于,所述对该第一音素信息进行标识处理的步骤,还包括:
确定所述第一音素信息中相邻两个音素集包括的音素是否构成一个发音,其中,每一个音素集包括至少一个音素,用于构成一个发音;
针对包括的音素构成一个发音的相邻两个音素集,在该...

【专利技术属性】
技术研发人员:周阳
申请(专利权)人:广州虎牙科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1