语音合成的输入音素的训练方法、装置及获得方法制造方法及图纸

技术编号：25954573 阅读：16 留言：0更新日期：2020-10-17 03:47

本申请公开了语音合成的输入音素的训练方法、装置及获得方法，训练方法包括：将中文文本中的中文句子拆分成汉字；将汉字转化成拼音，该拼音包括声调；将拼音转化为音素；将汉字、音素和声调输入词嵌入模型，获得汉字向量、音素序列向量和声调向量；形成拼音向量，单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。本申请训练和获得的输入音素包含了汉字的信息和拼音的结构信息以及声调信息，作为语音合成模型的输入，因此语音合成模型无需对汉字、拼音和声调之间的对应关系进行训练。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成的输入音素的训练方法、装置及获得方法
本申请涉及计算机
，具体涉及一种语音合成的输入音素的训练方法、装置及获得方法。
技术介绍
现有技术中，在中文语音合成时，将中文句子转成音素序列时，一个汉字对应一个拼音，一个拼音对应多个音素。在上述两个步骤中，在汉字-拼音的转化中，去掉了汉字的信息。在拼音-音素的转化中，丢掉了拼音的结构信息。这些信息对中文语音合成很必要，是判断在何处‘停顿’、用什么‘语气’、用什么‘情感’等等的主要依据。尽管这些信息有可能仍然包含在音素序列中，但挖掘这些信息，语音合成模型需要更多的训练数据，也需要更大的语音合成模型。因此，现有的语音合成模型的输入只包含汉语拼音的音素(比如BOPOMOFO中文注音格式)序列，减少了信息量，给模型学习增加了难度。
技术实现思路
本申请的目的在于提供一种语音合成的输入音素的训练方法、装置及获得方法，用于解决现有的语音合成模型的输入音素给模型学习增加了难度的技术问题。本申请提供一种语音合成的输入音素的训练方法，包括：将中文文本中的中文句子拆分成汉字；将汉字转化成拼音，该拼音包括声调；将拼音转化为音素；将汉字、音素和声调输入词嵌入模型，获得汉字向量、音素序列向量和声调向量；形成拼音向量，单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。优选地，通过发音词典将拼音转化为音素。优选地，词嵌入模型的输出中，汉字向量集与声调向量集之间存在一一对应关系。优选地，根据音素间的关联关系形成单个拼音向...

【技术保护点】
1.一种语音合成的输入音素的训练方法，其特征在于，包括：/n将中文文本中的中文句子拆分成汉字；/n将汉字转化成拼音，该拼音包括声调；/n将拼音转化为音素；/n将汉字、音素和声调输入词嵌入模型，获得汉字向量、音素序列向量和声调向量；/n形成拼音向量，单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。/n

【技术特征摘要】
1.一种语音合成的输入音素的训练方法，其特征在于，包括：
将中文文本中的中文句子拆分成汉字；
将汉字转化成拼音，该拼音包括声调；
将拼音转化为音素；
将汉字、音素和声调输入词嵌入模型，获得汉字向量、音素序列向量和声调向量；
形成拼音向量，单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。

2.如权利要求1所述的训练方法，其特征在于，通过发音词典将拼音转化为音素。

3.如权利要求1所述的训练方法，其特征在于，词嵌入模型的输出中，汉字向量集与声调向量集之间存在一一对应关系。

4.如权利要求1所述的训练方法，其特征在于，根据音素间的关联关系形成单个拼音向量。

5.如权利要求4所述的训练方法，其特征在于，依据音素所在的拼音确定音素间的关联关系，并根据音素间的关联关系将多个音素向量组合起来形成单个拼音向量。

6.一种基于权利要求1-5所述的训练方法的输入音素的获得方法，其特征在于，包括：
将中文文本中的中文句子拆分成汉字；
将汉字转化成拼音，该拼音包括声调；<...

【专利技术属性】
技术研发人员：李小波，王少佳，
申请(专利权)人：恒信东方文化股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人