【技术实现步骤摘要】
声学建模方法、装置、设备以及存储介质
[0001]本公开涉及人工智能
,具体为深度学习和语音合成
,可应用于声学建模、语音转换等场景,尤其涉及一种声学建模方法、语音转换方法、装置、设备、存储介质以及计算机程序产品。
技术介绍
[0002]目前在语音合成中,通常是合成字正腔圆的语音,不能合成悄悄话形式的语音。
技术实现思路
[0003]本公开提供了一种声学建模方法、语音转换方法、装置、设备、存储介质以及计算机程序产品,使目标声学模型输出的语音频谱更准确。
[0004]根据本公开的一方面,提供了一种声学建模方法,包括:获取文本训练样本和对应的语音频谱训练样本;对语音频谱训练样本进行频谱质量校准,得到校准后的语音频谱训练样本;基于文本训练样本和校准后的语音频谱训练样本,训练初始声学模型,得到目标声学模型。
[0005]根据本公开的另一方面,提供了一种语音转换方法,包括:获取待转换文本;基于目标声学模型,得到待转换文本对应的语音频谱;将语音频谱转换为语音,并输出语音。
[0006] ...
【技术保护点】
【技术特征摘要】
1.一种声学建模方法,包括:获取文本训练样本和对应的语音频谱训练样本;对所述语音频谱训练样本进行频谱质量校准,得到校准后的语音频谱训练样本;基于所述文本训练样本和所述校准后的语音频谱训练样本,训练初始声学模型,得到目标声学模型。2.根据权利要求1所述的方法,其中,所述频谱质量校准包括低频衰减操作和频谱校正操作。3.根据权利要求2所述的方法,其中,所述对所述语音频谱训练样本进行频谱质量校准,得到校准后的语音频谱训练样本包括:获取所述语音频谱训练样本中的低频信号;对所述低频信号进行衰减,得到衰减语音频谱训练样本;获取所述衰减语音频谱训练样本中的频谱边界;对所述频谱边界进行校正,得到所述校准后的语音频谱训练样本。4.根据权利要求3所述的方法,其中,所述基于所述文本训练样本和所述校准后的语音频谱训练样本,训练初始声学模型,得到目标声学模型包括:获取优化损失函数,其中,所述优化损失函数包括针对语音频谱的中频信号和高频信号的损失函数;基于所述文本训练样本、所述校准后的语音频谱训练样本和所述优化损失函数,训练所述初始声学模型,得到所述目标声学模型。5.根据权利要求1
‑
4任一项所述的方法,其中,所述语音频谱训练样本对应的总语音时长小于预设时长阈值。6.一种语音转换方法,包括:获取待转换文本;基于目标声学模型,得到所述待转换文本对应的语音频谱,其中,所述目标声学模型通过如权利要求1
‑
5任一项所述的声学建模方法构建;将所述语音频谱转换为语音,并输出所述语音。7.根据权利要求6所述的方法,其中,所述基于目标声学模型,得到所述待转换文本对应的语音频谱包括:将所述待转换文本输入所述目标声学模型,得到对应的语音频谱;或者,基于所述目标声学模型构建语音频谱库,从所述语音频谱库中得到所述待转换文本对应的语音频谱。8.一种声学建模装置,所述装置包括:第一获取模块,被配置为获取文本训练样本和对应的语音频谱训练样本;校准模块,被配置为对所述语音频谱训练样本进行频谱质量校准,得到校准后的语音频谱训练样本;训练模块,被配置为基于所述文本训练样本和所述校准后的语音频谱训练样本,训练初始声学模型,得到目标声学模型。9.根据权利要求8所述的装置,其中,所述频谱质量校准包括低频衰减操作和频谱校正...
【专利技术属性】
技术研发人员:王锡磊,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。