基于音频特征提取的语音合成方法、装置、设备及介质制造方法及图纸

技术编号:29931006 阅读:20 留言:0更新日期:2021-09-04 18:59
本发明专利技术公开了基于音频特征提取的语音合成方法、装置、设备及介质,方法包括:根据第一提取规则从用户输入的初始语音中提取整体音频系数信息,将整体音频系数信息输入映射处理模型得到预设维度的个体区别特征,根据第二提取规则从初始语音中提取得到音频特征系数信息,将音频特征形式信息与个体区别特征共同输入语音合成模型以得到合成语音。本发明专利技术属于语音合成技术领域,可获取到具有较强鲁棒性的个体区别特征,并基于个体区别特征与音频特征系数信息组合以进行语音合成得到合成语音,由于在合成语音中添加了个体区别特征,可在合成语音中实现高质量地模拟自然人声的效果,从而大幅提高了所合成的语音信息的质量。幅提高了所合成的语音信息的质量。幅提高了所合成的语音信息的质量。

【技术实现步骤摘要】
基于音频特征提取的语音合成方法、装置、设备及介质


[0001]本专利技术涉及语音合成
,属于智慧城市中基于音频特征提取技术进行智能语音合成的应用场景,尤其涉及一种基于音频特征提取的语音合成方法、装置、设备及介质。

技术介绍

[0002]语音交互是以语音为媒介的新一代交互模式,其已被广泛运用于导航、拨号系统和智能客服等应用场景,可通过声码器提取得到音频特征,传统声码器主要基于参数化建模语音的源滤波模型,该模型将语音建模为基频、频谱包络和非周期等声学特征,基于所提取到的音频特征进行合成得到合成语音信息。然而专利技术人发现,现有技术方法提取到的音频特征所合成的语音信息存在自然度较差的问题,无法真实模拟自然人声,也即是易造成合成的语音信息质量不高。因此,现有的技术方法中的语音合成方法存在合成质量不高的问题。

技术实现思路

[0003]本专利技术实施例提供了一种基于音频特征提取的语音合成方法、装置、设备及介质,旨在解决现有技术方法中的语音合成方法所存在的合成质量不高的问题。
[0004]第一方面,本专利技术实施例提供了一种基于音频特征提取的语音合成方法,其包括:
[0005]若接收到用户输入的初始语音,则根据预置的第一提取规则从所述初始语音中提取得到整体音频系数信息;
[0006]将所述整体音频系数信息输入预置的映射处理模型进行映射处理,得到预设维度的个体区别特征;
[0007]根据预置的第二提取规则从所述初始语音中提取得到音频特征系数信息;
[0008]将所述音频特征系数信息与所述个体区别特征输入预置的语音合成模型,得到与所述初始语音对应的合成语音。
[0009]第二方面,本专利技术实施例提供了一种基于音频特征提取的语音合成装置,其包括:
[0010]整体音频系数信息获取单元,用于若接收到用户输入的初始语音,则根据预置的第一提取规则从所述初始语音中提取得到整体音频系数信息;
[0011]个体区别特征信息获取单元,用于将所述整体音频系数信息输入预置的映射处理模型进行映射处理,得到预设维度的个体区别特征;
[0012]音频特征系数信息获取单元,用于根据预置的第二提取规则从所述初始语音中提取得到音频特征系数信息;
[0013]合成语音获取单元,用于将所述音频特征系数信息与所述个体区别特征输入预置的语音合成模型,得到与所述初始语音对应的合成语音。
[0014]第三方面,本专利技术实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序
时实现上述第一方面所述的基于音频特征提取的语音合成方法。
[0015]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于音频特征提取的语音合成方法。
[0016]本专利技术实施例提供了一种基于音频特征提取的语音合成方法、装置、计算机可读存储介质。根据第一提取规则从用户输入的初始语音中提取整体音频系数信息,将整体音频系数信息输入映射处理模型得到预设维度的个体区别特征,根据第二提取规则从初始语音中提取得到音频特征系数信息,将音频特征形式信息与个体区别特征共同输入语音合成模型以得到合成语音。通过上述方法,可获取到具有较强鲁棒性的个体区别特征,并基于个体区别特征与音频特征系数信息组合以进行语音合成得到合成语音,由于在合成语音中添加了个体区别特征,可在合成语音中实现高质量地模拟自然人声的效果,从而大幅提高了所合成的语音信息的质量。
附图说明
[0017]为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1为本专利技术实施例提供的基于音频特征提取的语音合成方法的流程示意图;
[0019]图2为本专利技术实施例提供的基于音频特征提取的语音合成方法的另一流程示意图;
[0020]图3为本专利技术实施例提供的基于音频特征提取的语音合成方法的子流程示意图;
[0021]图4为本专利技术实施例提供的基于音频特征提取的语音合成方法的另一流程示意图;
[0022]图5为本专利技术实施例提供的基于音频特征提取的语音合成方法的另一子流程示意图;
[0023]图6为本专利技术实施例提供的基于音频特征提取的语音合成方法的另一子流程示意图;
[0024]图7为本专利技术实施例提供的基于音频特征提取的语音合成方法的另一子流程示意图;
[0025]图8为本专利技术实施例提供的基于音频特征提取的语音合成装置的示意性框图;
[0026]图9为本专利技术实施例提供的计算机设备的示意性框图。
具体实施方式
[0027]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整
体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0029]还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本专利技术。如在本专利技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0030]还应当进一步理解,在本专利技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0031]请参阅图1,图1是本专利技术实施例提供的基于音频特征提取的语音合成方法的流程示意图;该基于音频特征提取的语音合成方法应用于用户终端或管理服务器中,该基于音频特征提取的语音合成方法通过安装于用户终端或管理服务器中的应用软件进行执行,用户终端即是可接收用户输入的初始语音并进行语音合成得到对应合成语音的终端设备,例如台式电脑、笔记本电脑、平板电脑或手机等,管理服务器即是可接收用户通过用户终端发送的初始语音并进行语音合成得到对应合成语音的服务器端,如企业或政府部门所构建的服务器。如图1所示,该方法包括步骤S110~S140。
[0032]S110、若接收到用户输入的初始语音,则根据预置的第一提取规则从所述初始语音中提取得到整体音频系数信息。
[0033]若接收到用户输入的初始语音,则根据预置的第一提取规则从所述初始语音中提取得到整体音频系数信息。所述第一提取规则包括频谱转换规则、频率转换公本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于音频特征提取的语音合成方法,其特征在于,包括:若接收到用户输入的初始语音,则根据预置的第一提取规则从所述初始语音中提取得到整体音频系数信息;将所述整体音频系数信息输入预置的映射处理模型进行映射处理,得到预设维度的个体区别特征;根据预置的第二提取规则从所述初始语音中提取得到音频特征系数信息;将所述音频特征系数信息与所述个体区别特征输入预置的语音合成模型,得到与所述初始语音对应的合成语音。2.根据权利要求1所述的基于音频特征提取的语音合成方法,其特征在于,所述将所述整体音频系数信息输入预置的映射处理模型进行映射处理,得到预设维度的个体区别特征之前,还包括:根据预存的训练音频数据集及预置的映射训练规则对所述映射处理模型进行训练,得到训练后的映射处理模型。3.根据权利要求2所述的基于音频特征提取的语音合成方法,其特征在于,所述映射训练规则包括第一损失值计算公式、第二损失值计算公式、梯度计算公式及损失阈值,所述根据预存的训练音频数据集及预置的映射训练规则对所述映射处理模型进行训练,得到训练后的映射处理模型,包括:根据所述第一提取规则从所述训练音频数据集中任意获取的两条训练音频中分别提取得到对应的第一音频系数信息及第二音频系数信息;将所述第一音频系数信息及所述第二音频系数信息分别输入所述映射处理模型进行映射处理得到第一区别特征及第二区别特征;根据所述两条训练音频的说话人标签判断所述两条训练音频是否属于同一说话人;若所述两条训练音频属于同一说话人,则根据所述第一损失值计算公式计算所述第一区别特征与所述第二区别特征之间的损失值;若所述两条训练音频不属于同一说话人,则根据所述第二损失值计算公式计算所述第一区别特征与所述第二区别特征之间的损失值;判断所述损失值是否大于所述损失阈值;若所述损失值大于所述损失阈值,则根据所述梯度计算公式及所述损失值计算得到所述映射处理模型中参数的更新值以对所述参数的原始参数值进行更新,返回执行所述根据所述第一提取规则从所述训练音频数据集中任意获取的两条训练音频中分别提取得到对应的第一音频系数信息及第二音频系数信息的步骤;若所述损失值不大于所述损失阈值,则将当前映射处理模型确定为所述训练后的映射处理模型。4.根据权利要求2所述的基于音频特征提取的语音合成方法,其特征在于,所述将所述音频特征系数信息与所述个体区别特征输入预置的语音合成模型,得到与所述初始语音对应的合成语音之前,还包括:根据预存的真实音频数据集及预置的合成模型训练规则对所述语音合成模型进行训练,得到训练后的语音合成模型。5.根据权利要求1所述的基于音频特征提取的语音合成方法,其特征在于,所述第一提
取规则包括频谱...

【专利技术属性】
技术研发人员:郭洋王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1