一种自适应语音合成方法及装置制造方法及图纸

技术编号:24941876 阅读:28 留言:0更新日期:2020-07-17 21:48
本发明专利技术公开了一种自适应语音合成方法及装置,包括:利用预设录音和预设录音对应的文本标注数据对预设神经网络模型进行训练,得到训练后的预设神经网络模型;设计录音文本库以供用户挑选目标录音文本进行录音,得到当前录音;利用当前录音和目标录音文本对训练后的预设神经网络模型进行二次训练;利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数,将静态语音参数输入到合成器中获得合成语音。有效的解决了现有技术中由于训练所需数据量较少且质量通常不高,以及模型预测精度不够等原因,导致合成的语音质量和精度都偏低的问题,提高了用户的体验感。

【技术实现步骤摘要】
一种自适应语音合成方法及装置
本专利技术涉及语音合成
,尤其涉及一种自适应语音合成方法及装置。
技术介绍
近年来,随着语音技术的日趋成熟,语音合成技术正逐步应用于语音交互、声音播报、个性化声音制作等语音信号处理系统中。在社会与商业领域,合成音作为一种声音的展现,给社会生活带来便利与丰富性,具有潜在广阔的使用价值,现有的语音合成技术是基于目标发音人大量的高质量录音和文本标注数据进行时长和声学模型训练,然后可以合成具有目标发音人音色的语音。由于需要大量的高质量语音来训练,所述提出了自适应语音合成系统,即利用目标发音人少量的录音和文本数据快速构建合成系统,产生目标发音人音色的合成语音。但是这种方法存在以下缺点:由于训练所需数据量较少且质量通常不高,以及模型预测精度不够等原因,导致合成的语音质量和精度都偏低,影响了用户的体验感。
技术实现思路
针对上述所显示出来的问题,本方法基于使用用户的当前录音数据对训练好的预设神经网络模型进行二次训练,最后根据二次训练好的预设神经网络模型对待合成文本进行语音合成。一种自适应语音合成方法,包括以下步骤:利用预设录音和所述预设录音对应的文本标注数据对预设神经网络模型进行训练,得到训练后的预设神经网络模型;设计录音文本库以供用户挑选目标录音文本进行录音,得到当前录音;利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练;利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数,将所述静态语音参数输入到合成器中获得合成语音。优选的,所述设计录音文本库以供用户挑选目标录音文本进行录音,得到当前录音,包括:预先建立空白录音文本库;获取N个录音文本输入到所述空白录音文本库中形成所述录音文本库;接收到用户请求录音的指令时,推送M个第一录音文本以供选择,其中,所述第一录音文本为所述录音文本中任一录音文本;确定所述M个第一录音文本中用户选择的第一录音文本为所述目标录音文本;基于所述目标录音文本,接收用户的当前录音。优选的,在利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练之前,所述方法还包括:获取所述当前录音中的每一句语音;去除所述每一句语音中超过预设时长的静音段;对所述每一句语音作去噪和去混响的预处理;检测预处理之后的当前语音是否完整;若是,则使用所述目标录音文本对应的标注;否则,提醒用户所述预处理之后的当前语音不满足需求。优选的,所述利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练,包括:提取所述预处理之后的当前语音的声学特征参数;提取目标录音文本内容中的上下文相关联的第一语言学信息;根据所述声学特征参数和所述第一语言学信息生成训练数据;利用所述训练数据对所述训练后的预设神经网络模型进行二次训练。优选的,所述利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数,将所述静态语音参数输入到合成器中获得合成语音,包括:获取所述待合成文本的第二语言学信息;将所述第二语言学信息输入到所述二次训练后的预设神经网络模型中获得语音特征参数;根据所述语音特征参数获取静态语音参数;将所述静态语音参数输入到合成器中进行合成;合成完毕后输出合成语音。一种自适应语音合成装置,该装置包括:第一训练模块,用于利用预设录音和所述预设录音对应的文本标注数据对预设神经网络模型进行训练,得到训练后的预设神经网络模型;录音模块,用于设计录音文本库以供用户挑选目标录音文本进行录音,得到当前录音;第二训练模块,用于利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练;合成模块,用于利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数,将所述静态语音参数输入到合成器中获得合成语音。优选的,所述录音模块,包括:建立子模块,用于预先建立空白录音文本库;第一获取子模块,用于获取N个录音文本输入到所述空白录音文本库中形成所述录音文本库;推送子模块,用于接收到用户请求录音的指令时,推送M个第一录音文本以供选择,其中,所述第一录音文本为所述录音文本中任一录音文本;确定子模块,用于确定所述M个第一录音文本中用户选择的第一录音文本为所述目标录音文本;接收子模块,用于基于所述目标录音文本,接收用户的当前录音。优选的,所述装置还包括:获取模块,用于获取所述当前录音中的每一句语音;去除模块,用于去除所述每一句语音中超过预设时长的静音段;预处理模块,用于对所述每一句语音作去噪和去混响的预处理;检测模块,用于检测预处理之后的当前语音是否完整;确定模块,用于当所述检测模块检测所述预处理之后的当前语音是完整时,则使用所述目标录音文本对应的标注;提醒模块,用于当所述检测模块检测所述预处理之后的当前语音不是完整时,提醒用户所述预处理之后的当前语音不满足需求。优选的,所述第二训练模块,包括:第一提取子模块,用于提取所述预处理之后的当前语音的声学特征参数;第二提取子模块,用于提取目标录音文本内容中的上下文相关联的第一语言学信息;生成子模块,用于根据所述声学特征参数和所述第一语言学信息生成训练数据;训练子模块,用于利用所述训练数据对所述训练后的预设神经网络模型进行二次训练。优选的,所述合成模块,包括:第二获取子模块,用于获取所述待合成文本的第二语言学信息;获得子模块,用于将所述第二语言学信息输入到所述二次训练后的预设神经网络模型中获得语音特征参数;第三获取子模块,用于根据所述语音特征参数获取静态语音参数;合成子模块,用于将所述静态语音参数输入到合成器中进行合成;输出子模块,用于合成完毕后输出合成语音。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明图1为本专利技术所提供的一种自适应语音合成方法的工作流程图;图2为本专利技术所提供的一种自适应语音合成方法的另一工作流程图;图3为本专利技术所提供的一种自适应语音合成装置的结构图;图4为本专利技术所提供的一种自适应语音合成装置的另一结构图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公本文档来自技高网...

【技术保护点】
1.一种自适应语音合成方法,其特征在于,包括以下步骤:/n利用预设录音和所述预设录音对应的文本标注数据对预设神经网络模型进行训练,得到训练后的预设神经网络模型;/n设计录音文本库以供用户挑选目标录音文本进行录音,得到当前录音;/n利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练;/n利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数,将所述静态语音参数输入到合成器中获得合成语音。/n

【技术特征摘要】
1.一种自适应语音合成方法,其特征在于,包括以下步骤:
利用预设录音和所述预设录音对应的文本标注数据对预设神经网络模型进行训练,得到训练后的预设神经网络模型;
设计录音文本库以供用户挑选目标录音文本进行录音,得到当前录音;
利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练;
利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数,将所述静态语音参数输入到合成器中获得合成语音。


2.根据权利要求1所述自适应语音合成方法,其特征在于,所述设计录音文本库以供用户挑选目标录音文本进行录音,得到当前录音,包括:
预先建立空白录音文本库;
获取N个录音文本输入到所述空白录音文本库中形成所述录音文本库;
接收到用户请求录音的指令时,推送M个第一录音文本以供选择,其中,所述第一录音文本为所述录音文本中任一录音文本;
确定所述M个第一录音文本中用户选择的第一录音文本为所述目标录音文本;
基于所述目标录音文本,接收用户的当前录音。


3.根据权利要求1所述自适应语音合成方法,其特征在于,在利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练之前,所述方法还包括:
获取所述当前录音中的每一句语音;
去除所述每一句语音中超过预设时长的静音段;
对所述每一句语音作去噪和去混响的预处理;
检测预处理之后的当前语音是否完整;
若是,则使用所述目标录音文本对应的标注;
否则,提醒用户所述预处理之后的当前语音不满足需求。


4.根据权利要求1所述自适应语音合成方法,其特征在于,所述利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练,包括:
提取所述预处理之后的当前语音的声学特征参数;
提取目标录音文本内容中的上下文相关联的第一语言学信息;
根据所述声学特征参数和所述第一语言学信息生成训练数据;
利用所述训练数据对所述训练后的预设神经网络模型进行二次训练。


5.根据权利要求1所述自适应语音合成方法,其特征在于,所述利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数,将所述静态语音参数输入到合成器中获得合成语音,包括:
获取所述待合成文本的第二语言学信息;
将所述第二语言学信息输入到所述二次训练后的预设神经网络模型中获得语音特征参数;
根据所述语音特征参数获取静态语音参数;
将所述静态语音参数输入到合成器中进行合成;
合成完毕后输出合成语音。


6.一种自适应语音合成装置,其特征在于,该装置包括:
第一训练模块,用于利用预...

【专利技术属性】
技术研发人员:贺来朋
申请(专利权)人:云知声智能科技股份有限公司厦门云知芯智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1