本公开提供了一种声学建模方法、语音转换方法、装置、设备、存储介质以及计算机程序产品,涉及人工智能技术领域,具体为深度学习和语音合成技术领域,可应用于声学建模、语音转换等场景。具体实现方案为:获取文本训练样本和对应的语音频谱训练样本;对语音频谱训练样本进行频谱质量校准,得到校准后的语音频谱训练样本;基于文本训练样本和校准后的语音频谱训练样本,训练初始声学模型,得到目标声学模型。首先对语音频谱训练样本进行频谱质量校准,然后基于文本训练样本和校准后的语音频谱训练样本进行训练,使目标声学模型输出的语音频谱更准确。频谱更准确。频谱更准确。
【技术实现步骤摘要】
声学建模方法、装置、设备以及存储介质
[0001]本公开涉及人工智能
,具体为深度学习和语音合成
,可应用于声学建模、语音转换等场景,尤其涉及一种声学建模方法、语音转换方法、装置、设备、存储介质以及计算机程序产品。
技术介绍
[0002]目前在语音合成中,通常是合成字正腔圆的语音,不能合成悄悄话形式的语音。
技术实现思路
[0003]本公开提供了一种声学建模方法、语音转换方法、装置、设备、存储介质以及计算机程序产品,使目标声学模型输出的语音频谱更准确。
[0004]根据本公开的一方面,提供了一种声学建模方法,包括:获取文本训练样本和对应的语音频谱训练样本;对语音频谱训练样本进行频谱质量校准,得到校准后的语音频谱训练样本;基于文本训练样本和校准后的语音频谱训练样本,训练初始声学模型,得到目标声学模型。
[0005]根据本公开的另一方面,提供了一种语音转换方法,包括:获取待转换文本;基于目标声学模型,得到待转换文本对应的语音频谱;将语音频谱转换为语音,并输出语音。
[0006]根据本公开的又一方面,提供了一种声学建模装置,包括:第一获取模块,被配置为获取文本训练样本和对应的语音频谱训练样本;校准模块,被配置为对语音频谱训练样本进行频谱质量校准,得到校准后的语音频谱训练样本;训练模块,被配置为基于文本训练样本和校准后的语音频谱训练样本,训练初始声学模型,得到目标声学模型。
[0007]根据本公开的又一方面,提供了一种语音转换装置,包括:第二获取模块,被配置为获取待转换文本;第三获取模块,被配置为基于目标声学模型,得到待转换文本对应的语音频谱;转换模块,被配置为将语音频谱转换为语音,并输出语音。
[0008]根据本公开的又一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行上述声学建模方法、语音转换方法。
[0009]根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,上述计算机指令用于使上述计算机执行上述声学建模方法、语音转换方法。
[0010]根据本公开的再一方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序在被处理器执行时实现上述声学建模方法、语音转换方法。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0013]图1是本公开可以应用于其中的示例性系统架构图;
[0014]图2是根据本公开的声学建模方法的一个实施例的流程图;
[0015]图3是根据本公开的声学建模方法的另一个实施例的流程图;
[0016]图4是根据本公开的声学建模方法的又一个实施例的流程图;
[0017]图5(a)是本公开的校准前的语音频谱训练样本的示意图;
[0018]图5(b)是本公开的校准后的语音频谱训练样本的示意图;
[0019]图6是根据本公开的语音转换方法的一个实施例的流程图;
[0020]图7是根据本公开的语音转换方法的另一个实施例的流程图;
[0021]图8是根据本公开的声学建模装置的一个实施例的结构示意图;
[0022]图9是根据本公开的语音转换装置的一个实施例的结构示意图;
[0023]图10是用来实现本公开实施例的声学建模方法或语音转换方法的电子设备的框图。
具体实施方式
[0024]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0025]图1示出了可以应用本公开的声学建模方法或语音转换方法或声学建模装置或语音转换装置的实施例的示例性系统架构100。
[0026]如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0027]用户可以使用终端设备101、102、103通过网络104与服务器105交互,以获取目标声学模型等。终端设备101、102、103上可以安装有各种客户端应用,例如语音频谱处理应用等等。
[0028]终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述电子设备中。其可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
[0029]服务器105可以提供各种基于声学建模的服务。例如,服务器105可以对从终端设备101、102、103获取到的文本训练样本和对应的语音频谱训练样本进行分析和处理,并生成处理结果(例如确定出目标声学模型等)。
[0030]需要说明的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
[0031]需要说明的是,本公开实施例所提供的声学建模方法或语音转换方法一般由服务器105执行,相应地,声学建模装置或语音转换装置一般设置于服务器105中。
[0032]应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
[0033]继续参考图2,其示出了根据本公开的声学建模方法的一个实施例的流程200。该声学建模方法包括以下步骤:
[0034]步骤201、获取文本训练样本和对应的语音频谱训练样本。
[0035]在本实施例中,声学建模方法的执行主体(例如图1所示的服务器105)可以获取文本训练样本和对应的语音频谱训练样本。其中,文本训练样本可以是任意长度、任意内容的文字,文本可以是汉字,可以是英文,也可以是韩文,本公开对此不做限定,可以从书籍等已有文字中任意截取一段文字,作为文本训练样本,也可以任意写一段文字作为文本训练样本,本公开对此不做限定。语音频谱是一种可以用来代表短期音讯的梅尔声谱,人耳听到的声音高低和实际频率不呈线性关系,梅尔声谱符合人耳的听本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种声学建模方法,包括:获取文本训练样本和对应的语音频谱训练样本;对所述语音频谱训练样本进行频谱质量校准,得到校准后的语音频谱训练样本;基于所述文本训练样本和所述校准后的语音频谱训练样本,训练初始声学模型,得到目标声学模型。2.根据权利要求1所述的方法,其中,所述频谱质量校准包括低频衰减操作和频谱校正操作。3.根据权利要求2所述的方法,其中,所述对所述语音频谱训练样本进行频谱质量校准,得到校准后的语音频谱训练样本包括:获取所述语音频谱训练样本中的低频信号;对所述低频信号进行衰减,得到衰减语音频谱训练样本;获取所述衰减语音频谱训练样本中的频谱边界;对所述频谱边界进行校正,得到所述校准后的语音频谱训练样本。4.根据权利要求3所述的方法,其中,所述基于所述文本训练样本和所述校准后的语音频谱训练样本,训练初始声学模型,得到目标声学模型包括:获取优化损失函数,其中,所述优化损失函数包括针对语音频谱的中频信号和高频信号的损失函数;基于所述文本训练样本、所述校准后的语音频谱训练样本和所述优化损失函数,训练所述初始声学模型,得到所述目标声学模型。5.根据权利要求1
‑
4任一项所述的方法,其中,所述语音频谱训练样本对应的总语音时长小于预设时长阈值。6.一种语音转换方法,包括:获取待转换文本;基于目标声学模型,得到所述待转换文本对应的语音频谱,其中,所述目标声学模型通过如权利要求1
‑
5任一项所述的声学建模方法构建;将所述语音频谱转换为语音,并输出所述语音。7.根据权利要求6所述的方法,其中,所述基于目标声学模型,得到所述待转换文本对应的语音频谱包括:将所述待转换文本输入所述目标声学模型,得到对应的语音频谱;或者,基于所述目标声学模型构建语音频谱库,从所述语音频谱库中得到所述待转换文本对应的语音频谱。8.一种声学建模装置,所述装置包括:第一获取模块,被配置为获取文本训练样本和对应的语音频谱训练样本;校准模块,被配置为对所述语音频谱训练样本进行频谱质量校准,得到校准后的语音频谱训练样本;训练模块,被配置为基于所述文本训练样本和所述校准后的语音频谱训练样本,训练初始声学模型,得到目标声学模型。9.根据权利要求8所述的装置,其中,所述频谱质量校准包括低频衰减操作和频谱校正...
【专利技术属性】
技术研发人员:王锡磊,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。