一种基于自定义语音库的语音合成方法及装置制造方法及图纸

技术编号：21402079 阅读：32 留言：0更新日期：2019-06-19 07:51

本发明专利技术公开了一种基于自定义语音库的语音合成方法及装置。其中，一种基于自定义语音库的语音合成方法如下：分别在每一个场景类别下训练对应的语音模型，所述场景类别的数量为至少一个；判断所需场景，选择所述场景类别下的所述语音模型；所述语音模型接收外部信息输入，并根据外部信息输出符合所需场景的合成语音。以上方案中用户构建语音库，并划分为多种场景类别，基于场景类别的语音素材，从而训练出该场景模式下的语音模型，具有用户自定义训练，多声音输出等特点。同时地，该语音合成方法还包括自学习建模过程，能够应对当前场景，具有声音输出自然贴切等特点。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自定义语音库的语音合成方法及装置
本专利技术涉及语音处理领域及语音处理装置，特别是涉及一种基于自定义语音库的语音合成方法及装置。
技术介绍
语音处理技术是以语音语言学和数字信号处理作为基础的一门综合性学科。语音合成技术的日益成熟，一方面使其在人们的生活中得到了越来越广泛的应用，而另一方面也使人们对语音合成系统的要求越来越高。另外，申请号为201711205386.X、公开日为2018.04.20的语音合成方法和装置的专利申请中提出了一种技术方案，通过将待处理文本的音素序列输入至预先训练的语音模型，以便得到与音素序列中的每一个音素相对应的声学特征，而后基于预置的、音素与语音波形单元的索引确定与每一个音素相对应的至少一个语音波形单元，并基于该音素对应的声学特征和预设的代价函数，确定该音素对应的目标语音波形单元，最后将各个音素对应的目标语音波形单元进行合成，生成语音。然而合成声音仍然存在声音过于机械、不能自然贴切地据不同场景改变等问题。
技术实现思路
本专利技术主要解决的技术问题是提供一种基于自定义语音库的语音合成方法及装置，能够解决传统方法合成然而合成声音仍然存在...

【技术保护点】
1.一种基于自定义语音库的语音合成方法，其特征在于，方法如下：分别在每一个场景类别下训练对应的语音模型，所述场景类别的数量为至少一个；判断所需场景，选择所述场景类别下的所述语音模型；所述语音模型接收外部信息输入，并根据外部信息输出符合所需场景的合成语音。

【技术特征摘要】
1.一种基于自定义语音库的语音合成方法，其特征在于，方法如下：分别在每一个场景类别下训练对应的语音模型，所述场景类别的数量为至少一个；判断所需场景，选择所述场景类别下的所述语音模型；所述语音模型接收外部信息输入，并根据外部信息输出符合所需场景的合成语音。2.根据权利要求1所述的一种基于自定义语音库的语音合成方法，其特征在于，在每一个场景类别下训练对应的语音模型的方法如下：建立语音数据库；所述语音数据库接收自定义的语音素材并存储，所述语音素材包括文本信息以及与文本信息相对应的声音信息；提取所述声音信息的声学特征进行分类聚合，并将具有相同或相近声学特征所对应的语音素材归类为不同的场景类别；通过不同场景类别的语音素材，训练出每一个场景类别下对应的语音模型，所述语音模型用于表征音素序列中的每一音素与声学特征的对应关系。3.根据权利要求2所述的一种基于自定义语音库的语音合成方法，其特征在于，在每一个场景类别下训练对应的语音模型的方法，还包括：获取任一场景的语音，根据所述语音获得当前场景类别下的语音素材，并训练出当前场景类别下对应的语音模型；若当前场景类别下的的语音素材与已存在的场景类别下的语音素材相同或相近，则用当前场景下对应的语音模型替换已存在的场景类别下对应的语音模型；若当前场景类别下的的语音素材与已存在的场景类别下的语音素材不相同或不相近，则将当前场景类别归类为新的场景类别。4.根据权利要求2所述的一种基于自定义语音库的语音合成方法，其特征在于，所述语音模型的训练方法如下：语音素材中的文本信息转换为音素序列，所述音素序列作为输入源，声音信息提取的声学特征作为输出源，利用机器学习方法，训练得到相应的语音模型。5.根据权利要求1所述的一种基于...

【专利技术属性】
技术研发人员：吴壮伟，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人