基于前端设计的语音合成方法技术

技术编号：20244433 阅读：28 留言：0更新日期：2019-01-29 23:54

本发明专利技术提出一种基于前端设计的语音合成方法，属于语音合成技术领域。本发明专利技术解决了目前的语音合成方法数据依赖性及合成效果不可控的问题，其技术方案要点为：包括如下步骤：步骤1、对中文文本数据进行预处理；步骤2、提取中文文本相关的语言学特征；步骤3、提取音频文件的至少两个声学特征；步骤4、根据语言学特征和声学特征训练时长模型和声学模型；步骤5、对需要合成的中文文本作步骤1及步骤2处理后，调用步骤4中得到的时长模型得到文本对应的时长信息，再结合语言学特征和时长信息，作为声学模型的输入，得到相应的声学特征；步骤6、对步骤5中得到的声学特征采用声码器合成对应的音频数据。

全部详细技术资料下载

【技术实现步骤摘要】
基于前端设计的语音合成方法
本专利技术涉及语音合成技术，特别涉及基于前端设计的语音合成方法的技术。
技术介绍
语音合成是通过机械的、电子的方法产生可懂的、流利的语音的技术。随着人工智能领域技术的快速发展，现有的语音合成技术已逐渐由传统的基于hmm等特征提取算法转向使用深度学习技术，通过录制大量说话人的高质量音频数据，再通过神经网络模型进行训练，得到语音合成模型，直接端到端合成音频数据。此类方法能够合成质量较高语音，但是数据依赖性强，合成效果也不可控。
技术实现思路
本专利技术的目的是提供一种基于前端设计的语音合成方法，解决目前的语音合成方法数据依赖性及合成效果不可控的问题。本专利技术解决其技术问题，采用的技术方案是：基于前端设计的语音合成方法，包括如下步骤：步骤1、对中文文本数据进行预处理；步骤2、提取中文文本相关的语言学特征；步骤3、提取音频文件的至少两个声学特征；步骤4、根据语言学特征和声学特征训练时长模型和声学模型；步骤5、对需要合成的中文文本作步骤1及步骤2处理后，调用步骤4中得到的时长模型得到文本对应的时长信息，再结合语言学特征和时长信息，作为声学模型的输入...

【技术保护点】
1.基于前端设计的语音合成方法，其特征在于，包括如下步骤：步骤1、对中文文本数据进行预处理；步骤2、提取中文文本相关的语言学特征；步骤3、提取音频文件的至少两个声学特征；步骤4、根据语言学特征和声学特征训练时长模型和声学模型；步骤5、对需要合成的中文文本作步骤1及步骤2处理后，调用步骤4中得到的时长模型得到文本对应的时长信息，再结合语言学特征和时长信息，作为声学模型的输入，得到相应的声学特征；步骤6、对步骤5中得到的声学特征采用声码器合成对应的音频数据。

【技术特征摘要】
1.基于前端设计的语音合成方法，其特征在于，包括如下步骤：步骤1、对中文文本数据进行预处理；步骤2、提取中文文本相关的语言学特征；步骤3、提取音频文件的至少两个声学特征；步骤4、根据语言学特征和声学特征训练时长模型和声学模型；步骤5、对需要合成的中文文本作步骤1及步骤2处理后，调用步骤4中得到的时长模型得到文本对应的时长信息，再结合语言学特征和时长信息，作为声学模型的输入，得到相应的声学特征；步骤6、对步骤5中得到的声学特征采用声码器合成对应的音频数据。2.根据权利要求1所述的基于前端设计的语音合成方法，其特征在于，步骤1中，所述对中文文本数据进行预处理具体是指：对中文文本中的特殊字符及数字解析为中文文本，并将解析成的中文文本转为带有声调的拼音。3.根据权利要求2所述的基于前端设计的语音合成方法，其特征在于，步骤2具体包括如下步骤：步骤201、将所述拼音根据自定义的字典拆分为相应的音素；步骤202、提取音频文件的一个声学特征；步骤203、根据音素和该声学特征训练hmm模型，对音素进行强制对齐，得到每个音素对应的音频时长信息；步骤204、定义上下文标注N项，根据定义的上下文标注，得出每个音素对应于标注项的特征值，从而得到一个N维的特征向量，并定义问题集M项；步骤205、遍历训练文本集中的所有三个单词的组合，统计所有三个单词组合中，中间单词左右单词各出现的次数，组成矩阵，求该矩阵的特征值和特征向量，取前K个特征值和特征向量，所有单词组合在该空间上进行投影，最终每个单词组合都将得到K维的向量表示；步骤206、将步骤204及...

【专利技术属性】
技术研发人员：王昆，
申请(专利权)人：四川长虹电器股份有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人