一种基于语音标注的模型训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号:34563741 阅读:18 留言:0更新日期:2022-08-17 12:52
本发明专利技术的实施例提供了一种基于语音标注的模型训练方法、装置、电子设备及存储介质,方法包括:获取待处理音频和待处理音频对应的文本信息;按照语音成分,对待处理音频进行分类;依据待处理音频的语音成分和待处理音频的分类,确定待处理音频的描述信息,在待处理音频对应的文本信息中添加描述信息;确定携带有描述信息的文本信息对应的音素信息;基于待处理音频和对应的音素信息对音频合成模型进行训练。在无需增加音频采集难度的前提下,对语音数据进行更加合理、全面、可控的标注,避免了音频合成模型的训练数据中的自然出现的、非文字性的语音的丢失,使得训练后的音频合成模型可以合成出携带有自然出现的、非文字性的语音的音频。音频。音频。

【技术实现步骤摘要】
一种基于语音标注的模型训练方法、装置、电子设备及存储介质


[0001]本专利技术涉及语音合成
,具体而言,涉及一种基于语音标注的模型训练方法、装置、电子设备及存储介质。

技术介绍

[0002]目前对语音合成模型进行训练时,基于训练数据的生成,包含音频采集和文本标注两个方面的内容。音频采集一般通过录音的方式进行,录音过程中发音人输出的音频一般需要满足录音风格与音库定位相符、减少或避免特殊语音成分的出现等要求。音频采集结束后,将录音脚本依照实际录音内容进行文本对齐,使标注数据中的文本行与音频内容完全一致,之后将文本行输入语音合成的前端系统,得到与文本一一对应的音素信息和韵律信息,使标注数据具有文本行和音素行两个层级的内容。将每一条录制的音频均通过以上处理,得到大量的训练数据,基于以上处理得到的训练数据对语音合成模型进行训练。
[0003]然而,现有技术中对于录制的音频中出现自然出现的、非文字性的语音的音频时,会将此类内容删除或将音强调低,在对应的标注数据中同样进行删除处理,这类包含自然出现的、非文字性的语音的音频,不进行独立建模;在之后的合成阶段,也就不会被引擎识别并合成。
[0004]因此,现有技术中无法生成自然出现的、非文字性的语音的音频的语音信息,从而使得语音合成的音频自然度较差。

技术实现思路

[0005]本专利技术的目的在于提供一种基于语音标注的模型训练方法、装置、电子设备及存储介质,能够生成携带有自然出现的、非文字性的音频的语音信息,从而有效提升合成音频的可懂度和自然度。
[0006]为了实现上述目的,本申请实施例采用的技术方案如下:
[0007]第一方面,本申请实施例提供了一种基于语音标注的模型训练方法,所述方法包括:
[0008]获取待处理音频和所述待处理音频对应的文本信息,其中,所述待处理音频为携带有语流中自然出现的、非文字性的语音的音频;
[0009]按照语音成分,对所述待处理音频进行分类;
[0010]依据所述待处理音频的语音成分和所述待处理音频的分类,确定所述待处理音频的描述信息,在所述待处理音频对应的文本信息中添加描述信息;
[0011]确定携带有描述信息的文本信息对应的音素信息;
[0012]基于所述待处理音频和对应的音素信息对音频合成模型进行训练。
[0013]在可选的实施方式中,所述按照语音成分,对所述待处理音频进行分类的步骤,包括:
[0014]判断所述待处理音频的语音成分是否表现人的情绪或情感;
[0015]若是,将所述待处理音频分为强演绎类型;
[0016]若所述待处理音频的语音成分未表现人的情绪或情感,且所述待处理音频的语音成分表征动作行为或自然现象的模仿时,将所述待处理音频分为拟声类型。
[0017]在可选的实施方式中,所述方法还包括:
[0018]当所述待处理音频的语音成分未表现人的情绪或情感,且未表征动作行为或自然现象的模仿时,,且所述待处理音频表征的发音方式为预设发音方式,将所述待处理音频分为发声态变化类型,其中,所述预设发音方式为不同于一般说话的声门的发音方式。
[0019]在可选的实施方式中,所述依据所述待处理音频的语音成分和所述待处理音频的分类,确定所述待处理音频的描述信息,在所述待处理音频对应的文本信息中添加描述信息的步骤,包括:
[0020]当所述待处理音频的类型为强演绎类型时,确定所述强演绎类型对应的描述模板;
[0021]确定所述待处理音频的语音成分中的情绪关键词;
[0022]基于所述描述模板和所述情绪关键词,生成所述待处理音频的描述信息;
[0023]将所述描述信息添加至所述待处理音频对应的文本信息中。
[0024]在可选的实施方式中,所述确定携带有描述信息的文本信息对应的音素信息的步骤,包括:
[0025]将携带有所述描述信息的文本信息输入语音合成模型的前端模型,输出携带有描述信息的音素信息。
[0026]在可选的实施方式中,所述方法还包括:
[0027]判断所述音素信息的语音成分的位置和/或描述方式是否正确;
[0028]若不正确,则输出提示信息,以提示对音素信息进行更正。
[0029]在可选的实施方式中,所述方法还包括:
[0030]将待合成文本输入至训练好的语音合成模型的前端模型得到待合成文本对应的待合成音素信息;
[0031]将所述待合成音素信息输入至训练好的所述音频合成模型中,输出所述待合成文本的音频信息,其中,所述音频信息包含有待处理音频。
[0032]第二方面,本申请实施例提供了一种基于语音标注的模型训练装置,所述装置包括:
[0033]获取模块,用于获取待处理音频和所述待处理音频对应的文本信息,其中,所述待处理音频为携带有语流中自然出现的、非文字性的语音的音频;
[0034]分类模块,用于按照语音成分,对所述待处理音频进行分类;
[0035]第一确定模块,用于依据所述待处理音频的语音成分和所述待处理音频的分类,确定所述待处理音频的描述信息,在所述待处理音频对应的文本信息中添加描述信息;
[0036]第二确定模块,用于确定携带有描述信息的文本信息对应的音素信息;
[0037]训练模块,用于基于所述待处理音频和对应的音素信息对音频合成模型进行训练。
[0038]第三方面,本申请实施例提供了一种电子设备,包括存储器和处理器,所述存储器
存储有计算机程序,所述处理器执行所述计算机程序时实现所述基于语音标注的模型训练方法的步骤。
[0039]第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述基于语音标注的模型训练的步骤。
[0040]本申请具有以下有益效果:
[0041]本申请通过获取待处理音频和待处理音频对应的文本信息,其中,待处理音频为携带有语流中自然出现的、非文字性的语音的音频;按照语音成分,对待处理音频进行分类;依据待处理音频的语音成分和待处理音频的分类,确定待处理音频的描述信息,在待处理音频对应的文本信息中添加描述信息;确定携带有描述信息的文本信息对应的音素信息;基于待处理音频和对应的音素信息对音频合成模型进行训练。在无需增加音频采集难度的前提下,对语音数据进行更加合理、全面、可控的标注,避免了音频合成模型的训练数据中的自然出现的、非文字性的语音的丢失,使得训练后的音频合成模型可以合成出携带有自然出现的、非文字性的语音的音频,提升用户的使用体验。
附图说明
[0042]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0043]图1为本专利技术实施例提供的电子设备的方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语音标注的模型训练方法,其特征在于,所述方法包括:获取待处理音频和所述待处理音频对应的文本信息,其中,所述待处理音频为携带有语流中自然出现的、非文字性的语音的音频;按照语音成分,对所述待处理音频进行分类;依据所述待处理音频的语音成分和所述待处理音频的分类,确定所述待处理音频的描述信息,在所述待处理音频对应的文本信息中添加描述信息;确定携带有描述信息的文本信息对应的音素信息;基于所述待处理音频和对应的音素信息对音频合成模型进行训练。2.根据权利要求1所述的方法,其特征在于,所述按照语音成分,对所述待处理音频进行分类的步骤,包括:判断所述待处理音频的语音成分是否表现人的情绪或情感;若是,将所述待处理音频分为强演绎类型;若所述待处理音频的语音成分未表现人的情绪或情感,且所述待处理音频的语音成分表征动作行为或自然现象的模仿时,将所述待处理音频分为拟声类型。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:当所述待处理音频的语音成分未表现人的情绪或情感,且未表征动作行为或自然现象的模仿时,且所述待处理音频表征的发音方式为预设发音方式,将所述待处理音频分为发声态变化类型,其中,所述预设发音方式为不同于一般说话的声门的发音方式。4.根据权利要求2所述的方法,其特征在于,所述依据所述待处理音频的语音成分和所述待处理音频的分类,确定所述待处理音频的描述信息,在所述待处理音频对应的文本信息中添加描述信息的步骤,包括:当所述待处理音频的类型为强演绎类型时,确定所述强演绎类型对应的描述模板;确定所述待处理音频的语音成分中的情绪关键词;基于所述描述模板和所述情绪关键词,生成所述待处理音频的描述信息;将所述描述信息添加至所述待处理音频对应的文本信息中。5.根据权利要...

【专利技术属性】
技术研发人员:谢若耶汪晨徐婷林怡亭周鸿斌苏志霸
申请(专利权)人:上海喜马拉雅科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1