语音合成的输入音素的训练方法、装置及获得方法制造方法及图纸

技术编号:25954573 阅读:16 留言:0更新日期:2020-10-17 03:47
本申请公开了语音合成的输入音素的训练方法、装置及获得方法,训练方法包括:将中文文本中的中文句子拆分成汉字;将汉字转化成拼音,该拼音包括声调;将拼音转化为音素;将汉字、音素和声调输入词嵌入模型,获得汉字向量、音素序列向量和声调向量;形成拼音向量,单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。本申请训练和获得的输入音素包含了汉字的信息和拼音的结构信息以及声调信息,作为语音合成模型的输入,因此语音合成模型无需对汉字、拼音和声调之间的对应关系进行训练。

【技术实现步骤摘要】
语音合成的输入音素的训练方法、装置及获得方法
本申请涉及计算机
,具体涉及一种语音合成的输入音素的训练方法、装置及获得方法。
技术介绍
现有技术中,在中文语音合成时,将中文句子转成音素序列时,一个汉字对应一个拼音,一个拼音对应多个音素。在上述两个步骤中,在汉字-拼音的转化中,去掉了汉字的信息。在拼音-音素的转化中,丢掉了拼音的结构信息。这些信息对中文语音合成很必要,是判断在何处‘停顿’、用什么‘语气’、用什么‘情感’等等的主要依据。尽管这些信息有可能仍然包含在音素序列中,但挖掘这些信息,语音合成模型需要更多的训练数据,也需要更大的语音合成模型。因此,现有的语音合成模型的输入只包含汉语拼音的音素(比如BOPOMOFO中文注音格式)序列,减少了信息量,给模型学习增加了难度。
技术实现思路
本申请的目的在于提供一种语音合成的输入音素的训练方法、装置及获得方法,用于解决现有的语音合成模型的输入音素给模型学习增加了难度的技术问题。本申请提供一种语音合成的输入音素的训练方法,包括:将中文文本中的中文句子拆分成汉字;将汉字转化成拼音,该拼音包括声调;将拼音转化为音素;将汉字、音素和声调输入词嵌入模型,获得汉字向量、音素序列向量和声调向量;形成拼音向量,单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。优选地,通过发音词典将拼音转化为音素。优选地,词嵌入模型的输出中,汉字向量集与声调向量集之间存在一一对应关系。优选地,根据音素间的关联关系形成单个拼音向量。优选地,依据音素所在的拼音确定音素间的关联关系,并根据音素间的关联关系将多个音素向量组合起来形成单个拼音向量。本申请还提供一种基于上述训练方法的输入音素的获得方法,包括:将中文文本中的中文句子拆分成汉字;将汉字转化成拼音,该拼音包括声调;将汉字、拼音以及声调输入词嵌入模型,获得汉字向量、声调向量以及单个拼音向量,单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。优选地,将中文句子拆分成汉字时将中文句子中的相邻汉字间隔开。优选地,根据音素间的关联关系形成单个拼音向量。优选地,依据音素所在的拼音确定音素间的关联关系,并根据音素间的关联关系将多个音素向量组合起来形成单个拼音向量。本申请还提供一种语音合成的输入音素的训练装置,包括拆分模块、汉字转拼音模块、拼音转音素模块、词嵌入模块、拼音获得模块;其中,拆分模块将中文文本中的中文句子拆分成汉字;汉字转拼音模块将汉字转化成拼音,该拼音包括声调;拼音转音素模块将拼音转化为音素;词嵌入模块将汉字、音素和声调输入词嵌入模型,获得汉字向量、音素序列向量和声调向量;拼音获得模块形成单个拼音向量,单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。本申请训练和获得的输入音素包含了汉字的信息和拼音的结构信息以及声调信息,作为语音合成模型的输入,因此语音合成模型无需对汉字、拼音和声调之间的对应关系进行训练。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的语音合成的输入音素的训练方法及其获得方法的流程图;图2是本申请实施例提供的语音合成的输入音素的训练装置的结构图。具体实施方式下面结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。实施例一本申请提供了一种语音合成的输入音素的训练方法,保留了汉字的信息和拼音的结构信息。图1中虚线所示流程为语音合成的输入音素的训练方法的流程图。如图1所示,语音合成的输入音素的训练方法包括如下步骤:S110:将中文文本中的中文句子拆分成汉字。具体地,将中文句子中的相邻汉字间隔开。S120:将汉字转化成拼音,该拼音包括声调。具体地,可以通过现有的软件将汉字转化为拼音。S130:将拼音转化为音素。具体地,通过发音词典将拼音转化为音素。作为一个实施例,音素包括声母和韵母。S140:将汉字、音素和声调输入词嵌入模型,获得汉字向量、音素序列向量和声调向量,形成汉字向量集、音素序列向量集和声调向量集。具体地,在词嵌入模型中,将汉字转化为汉字向量,将声调转化成声调向量,将单个的音素转化为音素序列向量。其中,与S110中的中文文本对应的多个汉字向量组成汉字向量集,与S110中的中文文本对应的多个声调向量组成声调向量集,与S110中的中文文本对应的多个音素序列向量组成音素序列向量集,并且汉字向量集与声调向量集之间存在一一对应关系。S150:根据音素间的关联关系形成单个拼音向量,形成拼音向量集,并且单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。具体地,依据音素所在的拼音确定音素的相邻音素(具有关联关系的音素),并根据音素间的关联关系将多个音素向量组合起来形成单个拼音向量。与S110中的中文文本对应的多个单个拼音向量组成拼音向量集,并且单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。作为一个实施例,通过训练网络实现该步骤,例如神经网络等。S160:按照单个拼音向量包含的音素的数量对汉字向量和声调向量进行复制,使汉字向量的数量、声调向量的数量与音素的数量相同,并将这些汉字向量、声调向量与该单个拼音向量建立对应关系。依据汉字的拼音结构,音素的数量可能是1-4个,因此,同一个汉字向量和同一个声调向量的数量可能是1-4,如图1所示。实施例二本申请还提供一种输入音素的获得方法,利用了实施例一获得的汉字向量集、声调向量集以及拼音向量集,获得的输入音素将作为语音合成模型的输入,输入音素包含了汉字的信息和拼音的结构信息以及声调信息,语音合成模型无需对汉字、拼音和声调之间的对应关系进行训练。图1中实线所示流程为语音合成的输入音素的获得方法的流程图。如图1所示,输入音素的获得方法包括如下步骤:S210:将中文文本中的中文句子拆分成汉字。具体地,将中文句子中的相邻汉字间隔开。S220:将汉字转化成拼音,该拼音包括声调。具体地,可以通过现有的软件将汉字转化为拼音。S230:将汉字、拼音以及声调输入词嵌入模型,利用实施例一获得的汉字向量、声调向量以及拼音向量及其对应关系获得与中文文本对应的汉字向量、声调向量以及单个拼音向量。S240:按照获得的单个拼音向量包含的音素的数量对汉字向量和声调向量进行复制,使汉字向量的数量、声调向量的数量与音素的数量相同,并将这些汉字向量、声调向量与该单个拼音向量建立对应关系。将本文档来自技高网...

【技术保护点】
1.一种语音合成的输入音素的训练方法,其特征在于,包括:/n将中文文本中的中文句子拆分成汉字;/n将汉字转化成拼音,该拼音包括声调;/n将拼音转化为音素;/n将汉字、音素和声调输入词嵌入模型,获得汉字向量、音素序列向量和声调向量;/n形成拼音向量,单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。/n

【技术特征摘要】
1.一种语音合成的输入音素的训练方法,其特征在于,包括:
将中文文本中的中文句子拆分成汉字;
将汉字转化成拼音,该拼音包括声调;
将拼音转化为音素;
将汉字、音素和声调输入词嵌入模型,获得汉字向量、音素序列向量和声调向量;
形成拼音向量,单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。


2.如权利要求1所述的训练方法,其特征在于,通过发音词典将拼音转化为音素。


3.如权利要求1所述的训练方法,其特征在于,词嵌入模型的输出中,汉字向量集与声调向量集之间存在一一对应关系。


4.如权利要求1所述的训练方法,其特征在于,根据音素间的关联关系形成单个拼音向量。


5.如权利要求4所述的训练方法,其特征在于,依据音素所在的拼音确定音素间的关联关系,并根据音素间的关联关系将多个音素向量组合起来形成单个拼音向量。


6.一种基于权利要求1-5所述的训练方法的输入音素的获得方法,其特征在于,包括:
将中文文本中的中文句子拆分成汉字;
将汉字转化成拼音,该拼音包括声调;<...

【专利技术属性】
技术研发人员:李小波王少佳
申请(专利权)人:恒信东方文化股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1