一种声学模型训练方法、装置、终端设备及存储介质制造方法及图纸

技术编号:29875746 阅读:11 留言:0更新日期:2021-08-31 23:51
本申请适用于信号处理技术领域,提供了一种声学模型训练方法、装置、终端设备及存储介质。本申请实施例通过语句编码模块提取训练语音的n个语句向量,以获取训练语音的语句特征;通过音素编码模块提取训练语音的n段音素向量,以获取训练语音的音素特征;将n个语句向量和n段音素向量输入声学建模模块,以获取训练语音的声学信息;将训练语音的声学信息输入解码模块,以获取训练语音的声谱图;根据训练语音和训练语音的声谱图,更新解码模块的参数,可以从训练语音中捕捉丰富的细颗粒度声学信息,减少训练语音的需求量,从而降低数据集的获取难度并提升数据集的质量,进而提高语音合成的自然度以及和说话者声音的相似度。

【技术实现步骤摘要】
一种声学模型训练方法、装置、终端设备及存储介质
本申请属于信号处理
,尤其涉及一种声学模型训练方法、装置、终端设备及存储介质。
技术介绍
语音合成可以将文本转化为对应的语音,目前已经在智能移动终端、智能家居、智能机器人领域和车载设备等领域得到广泛应用。一个语音合成系统通常包括声学模型和语言模型,声学模型用于提取语音的声学信息形成声谱图,语言模型用于根据声谱图形成对应的文本。随着语音合成满足了声音清晰的基本要求后,开发重点转移到了提高语音合成的自然度以及和说话者声音的相似度,这对声学模型的性能提出了进一步要求。为了提升声学模型性能,需要获取包含大量高质量语音的数据集,数据集中需要包含多个说话者,从而获取每个说话者的高质量语音,并且要考虑语音在不同的韵律、情感、口音和录制环境等因素下的差异,导致数据集的获取工作繁重,容易由于数据集质量不佳影响声学模型的识别准确度和声音质量。
技术实现思路
有鉴于此,本申请实施例提供了一种声学模型训练方法、装置、终端设备及存储介质,以解决现有的声学模型由于数据集质量不佳影响声学模型的识别准确度和声音质量的问题。本申请实施例的第一方面提供了一种声学模型训练方法,包括:将训练语音分别输入语句编码模块和音素编码模块;通过所述语句编码模块提取所述训练语音的n个语句向量,获取所述训练语音的语句特征;其中,一个语句向量包括多个单词向量,n为大于或等于1的整数;通过所述音素编码模块提取所述训练语音的n段音素向量,获取所述训练语音的音素特征,所述n段音素向量与所述n个语句向量一一对应;将所述n个语句向量和所述n段音素向量输入声学建模模块,获取所述训练语音的声学信息,所述声学信息包括将所述n个语句特征和所述n段音素特征进行相加的声学特征;将所述训练语音的声学信息输入解码模块,获取所述训练语音的声谱图;根据所述训练语音和所述训练语音的声谱图,更新所述解码模块的参数。本申请实施例的第二方面提供了一种声学模型训练装置,包括:输入模块,用于将训练语音分别输入语句编码模块和音素编码模块;第一提取模块,用于通过所述语句编码模块提取所述训练语音的n个语句向量,获取所述训练语音的语句特征;其中,一个语句向量包括多个单词向量,n为大于或等于1的整数;第二提取模块,用于通过所述音素编码模块提取所述训练语音的n段音素向量,获取所述训练语音的音素特征,所述n段音素向量与所述n个语句向量一一对应;建模模块,将所述n个语句向量和所述n段音素向量输入声学建模模块,获取所述训练语音的声学信息,所述声学信息包括将所述n个语句特征和所述n段音素特征进行相加的声学特征;解码模块,用于将所述训练语音的声学信息输入解码模块,获取所述训练语音的声谱图;训练模块,用于根据所述训练语音和所述训练语音的声谱图,更新所述解码模块的参数。本申请实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例的第一方面提供的声学模型训练方法的步骤。本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本申请实施例第一方面提供的声学模型训练方法的步骤。本申请实施例的第一方面提供一种声学模型训练方法,通过将训练语音分别输入语句编码模块和音素编码模块;通过语句编码模块提取所述训练语音的n个语句向量,以获取训练语音的语句特征;通过音素编码模块提取训练语音的n段音素向量,以获取训练语音的音素特征;将n个语句向量和n段音素向量输入声学建模模块,以获取训练语音的声学信息;将训练语音的声学信息输入解码模块,以获取训练语音的声谱图,声学信息包括语句特征和音素特征;根据训练语音和训练语音的声谱图,更新解码模块的参数,可以从训练语音中捕捉丰富的细颗粒度声学信息,减少训练语音的需求量,从而降低数据集的获取难度并提升数据集的质量,进而提高语音合成的自然度以及和说话者声音的相似度。可以理解的是,上述第二方面至第四方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的声学模型训练方法的第一种流程示意图;图2是本申请实施例提供的声学模型训练方法的第二种流程示意图;图3是本申请实施例提供的声学模型训练方法的第三种流程示意图;图4是本申请实施例提供的声学模型训练方法的第四种流程示意图;图5是本申请实施例提供的声学模型训练方法的第五种流程示意图;图6是本申请实施例提供的声学模型训练装置的结构示意图;图7是本申请实施例提供的终端设备的结构示意图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。在本申请说明书中描述的参考“一个实施例”意味着在本申请的一个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”等不是必然都参考相同的实施例,而是意味着“一个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。在应用中,现有的声学模型在训练时需要获取大量高质量、不同声学因素和不同录制环境本文档来自技高网...

【技术保护点】
1.一种声学模型训练方法,其特征在于,包括:/n将训练语音分别输入语句编码模块和音素编码模块;/n通过所述语句编码模块提取所述训练语音的n个语句向量,获取所述训练语音的语句特征;其中,一个语句向量包括多个单词向量,n为大于或等于1的整数;/n通过所述音素编码模块提取所述训练语音的n段音素向量,获取所述训练语音的音素特征,所述n段音素向量与所述n个语句向量一一对应;/n将所述n个语句向量和所述n段音素向量输入声学建模模块,获取所述训练语音的声学信息,所述声学信息包括将所述n个语句特征和所述n段音素特征进行相加的声学特征;/n将所述训练语音的声学信息输入解码模块,获取所述训练语音的声谱图;/n根据所述训练语音和所述训练语音的声谱图,更新所述解码模块的参数。/n

【技术特征摘要】
1.一种声学模型训练方法,其特征在于,包括:
将训练语音分别输入语句编码模块和音素编码模块;
通过所述语句编码模块提取所述训练语音的n个语句向量,获取所述训练语音的语句特征;其中,一个语句向量包括多个单词向量,n为大于或等于1的整数;
通过所述音素编码模块提取所述训练语音的n段音素向量,获取所述训练语音的音素特征,所述n段音素向量与所述n个语句向量一一对应;
将所述n个语句向量和所述n段音素向量输入声学建模模块,获取所述训练语音的声学信息,所述声学信息包括将所述n个语句特征和所述n段音素特征进行相加的声学特征;
将所述训练语音的声学信息输入解码模块,获取所述训练语音的声谱图;
根据所述训练语音和所述训练语音的声谱图,更新所述解码模块的参数。


2.如权利要求1所述的声学模型训练方法,其特征在于,所述通过所述语句编码模块提取所述训练语音的n个语句向量,获取所述训练语音的语句特征,包括:
通过所述语句编码模块以语句为单位获取所述训练语音的局部时频特征以及所述局部时频特征的隐性时序特征,所述n个语句向量包括局部时频特征以及所述局部时频特征的隐性时序特征。


3.如权利要求2所述的声学模型训练方法,其特征在于,所述语句编码模块包括第一卷积神经网络单元和第一门控循环单元;
通过所述语句编码模块以语句为单位获取所述训练语音的局部时频特征以及所述局部时频特征的隐性时序特征,包括:
通过所述第一卷积神经网络单元以语句为单位获取所述训练语音的局部时频特征,并通过所述第一门控循环单元以语句为单位获取所述局部时频特征的隐性时序特征。


4.如权利要求1所述的声学模型训练方法,其特征在于,所述通过所述音素编码模块提取所述训练语音的n段音素向量,获取所述训练语音的音素特征,包括:
通过所述音素编码模块以音素为单位获取所述训练语音的局部时频特征以及所述局部时频特征的隐性时序特征,所述n个音素向量包括局部时频特征以及所述局部时频特征的隐性时序特征。


5.如权利要求4所述的声学模型训练方法,其特征在于,所述音素编码模块包括第二卷积神经网络单元和第二门控循环单元;
所述通过所述音素编码模块以音素为单位提取所述训练语音的局部时频特征以及所述局部时频特征的隐性时序特征,包括:
通过所述第二卷积神经网络单元以音素为单位获取所述训练语音的局部时频特征,并通过所述第二门控循环单元以音素为单位获取所述局部时频特征的隐性时序特征。


6....

【专利技术属性】
技术研发人员:郭洋王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1