基于前端设计的语音合成方法技术

技术编号:20244433 阅读:17 留言:0更新日期:2019-01-29 23:54
本发明专利技术提出一种基于前端设计的语音合成方法,属于语音合成技术领域。本发明专利技术解决了目前的语音合成方法数据依赖性及合成效果不可控的问题,其技术方案要点为:包括如下步骤:步骤1、对中文文本数据进行预处理;步骤2、提取中文文本相关的语言学特征;步骤3、提取音频文件的至少两个声学特征;步骤4、根据语言学特征和声学特征训练时长模型和声学模型;步骤5、对需要合成的中文文本作步骤1及步骤2处理后,调用步骤4中得到的时长模型得到文本对应的时长信息,再结合语言学特征和时长信息,作为声学模型的输入,得到相应的声学特征;步骤6、对步骤5中得到的声学特征采用声码器合成对应的音频数据。

【技术实现步骤摘要】
基于前端设计的语音合成方法
本专利技术涉及语音合成技术,特别涉及基于前端设计的语音合成方法的技术。
技术介绍
语音合成是通过机械的、电子的方法产生可懂的、流利的语音的技术。随着人工智能领域技术的快速发展,现有的语音合成技术已逐渐由传统的基于hmm等特征提取算法转向使用深度学习技术,通过录制大量说话人的高质量音频数据,再通过神经网络模型进行训练,得到语音合成模型,直接端到端合成音频数据。此类方法能够合成质量较高语音,但是数据依赖性强,合成效果也不可控。
技术实现思路
本专利技术的目的是提供一种基于前端设计的语音合成方法,解决目前的语音合成方法数据依赖性及合成效果不可控的问题。本专利技术解决其技术问题,采用的技术方案是:基于前端设计的语音合成方法,包括如下步骤:步骤1、对中文文本数据进行预处理;步骤2、提取中文文本相关的语言学特征;步骤3、提取音频文件的至少两个声学特征;步骤4、根据语言学特征和声学特征训练时长模型和声学模型;步骤5、对需要合成的中文文本作步骤1及步骤2处理后,调用步骤4中得到的时长模型得到文本对应的时长信息,再结合语言学特征和时长信息,作为声学模型的输入,得到相应的声学特征;步骤6、对步骤5中得到的声学特征采用声码器合成对应的音频数据。具体地,步骤1中,所述对中文文本数据进行预处理具体是指:对中文文本中的特殊字符及数字解析为中文文本,并将解析成的中文文本转为带有声调的拼音。进一步地,步骤2具体包括如下步骤:步骤201、将所述拼音根据自定义的字典拆分为相应的音素;步骤202、提取音频文件的一个声学特征;步骤203、根据音素和该声学特征训练hmm模型,对音素进行强制对齐,得到每个音素对应的音频时长信息;步骤204、定义上下文标注N项,根据定义的上下文标注,得出每个音素对应于标注项的特征值,从而得到一个N维的特征向量,并定义问题集M项;步骤205、遍历训练文本集中的所有三个单词的组合,统计所有三个单词组合中,中间单词左右单词各出现的次数,组成矩阵,求该矩阵的特征值和特征向量,取前K个特征值和特征向量,所有单词组合在该空间上进行投影,最终每个单词组合都将得到K维的向量表示;步骤206、将步骤204及步骤205得到的特征进行组合,每个音素都将得到N+M+K维特征,即为最终所求的语言学特征。具体地,步骤202中,所述声学特征是指mfcc特征;再进一步地,步骤203中,采用statealignment的方式进行状态级对齐。具体地,步骤3中,所述声学特征包括mfcc特征、f0特征及bap特征。再进一步地,步骤4中,训练时长模型时,结合问题集和步骤206中提取的N+M+K维特征,得到最后的特征,再对该特征进行归一化处理,归一化后的特征作为深度学习模型的输入,强制对齐后每个音素的时长作为输出,训练时长深度模型;训练声学模型时,结合问题集和步骤206中提取的N+M维特征和音素的时长,作为深度学习模型的输入,步骤3中得到的至少两个声学特征作为深度学习模型的输出,从而训练出声学模型。具体地,所述深度学习模型采用DNN或LSTM网络。再进一步地,步骤6具体为:将步骤5中得到的声学特征拆分为mfcc特征、f0特征及bap特征,并对拆分成的每一部分进行数据处理,然后调用声码器,得到最终合成的语音数据。具体地,所述声码器为world或straight。本专利技术的有益效果是,通过上述基于前端设计的语音合成方法,利用到前端设计,且前端设计包括问题集、上下文相关规则和通过统计学的方法获取文本的语言学特征;同时,深度学习部分采用DNN或LSTM网络,既提高了语音合成效果也保证了语音合成的速度。具体实施方式下面结合实施例,详细描述本专利技术的技术方案。本专利技术所述基于前端设计的语音合成方法,包括如下步骤:步骤1、对中文文本数据进行预处理;步骤2、提取中文文本相关的语言学特征;步骤3、提取音频文件的至少两个声学特征;步骤4、根据语言学特征和声学特征训练时长模型和声学模型;步骤5、对需要合成的中文文本作步骤1及步骤2处理后,调用步骤4中得到的时长模型得到文本对应的时长信息,再结合语言学特征和时长信息,作为声学模型的输入,得到相应的声学特征;步骤6、对步骤5中得到的声学特征采用声码器合成对应的音频数据。实施例本专利技术实施例基于前端设计的语音合成方法,具体包括如下步骤:(1)数据处理器,对中文文本数据进行预处理。对中文文本中的特殊字符和数字进行预处理,如“0.1%”解析为“百分之零点一”。“2018年”解析为“二零一八年”,“2018次”解析为“两千零一十八次”等。然后将解析后的文本转为带有声调的拼音。中文文本集需覆盖所有中文拼音。(2)语言学特征生成器,提取中文文本相关的语言学特征。a)将步骤(1)得到的带音标的拼音根据自定义的字典拆分为相应的音素。其中包括特殊音节的转换规则的设定。部分拼音拆分规则如下:a1a1gua1gua1na1na1sui1suei1ai1ai1guai1guai1nai1nai1sun1suen1an1an1guan1guan1nan1nan1suo1suo1ang1ang1guang1guang1nang1nang1ta1ta1ao1ao1gui1guei1nao1nao1tai1tai1ba1ba1gun1guen1ne1ne1tan1tan1bai1bai1guo1guo1nei1nei1tang1tang1ban1ban1ha1ha1nen1nen1tao1tao1bang1bang1hai1hai1neng1neng1te1te1bao1bao1han1han1ni1ni1tei1tei1bei1bei1hang1hang1nian1nian1teng1teng1ben1ben1hao1hao1niang1niang1ti1ti1beng1beng1he1he1niao1niao1tian1tian1b)提取音频文件的声学特征。将音频文件按15ms一帧进行分割,滑动窗口5ms,提取每一帧的mfcc特征。c)根据a)的音素和b)的特征训练hmm模型,可采用htk或kaldi的hmm算法,对音素进行强制对齐,得到每个音素对应的音频时长信息或者每个音素的各个隐状态的时长信息。d)上下文相关标注的规则要综合考虑有哪些上下文对当前音素发音的影响,需要考虑发音基元及其前后基元的信息,以及发音基元所在的音节、词、韵律词、韵律短语、语句相关的信息。问题集的设计依赖于不同语言的语言学知识,而且与上下文标注文件相匹配,改变上下文标注方法也需要相应地改变问题集,对于本专利技术中的语音合成系统,问题集的设计的规则有:声母特征划分:例如声母可以划分成塞音,擦音,鼻音,唇音等,声母特征划分24个。韵母特征划分:例如韵母可以划分成单韵母,复合韵母,分别包含a、e、i、o、u、v的韵母,韵母特征划分8个。词性划分:26个词性;声调类型:5个;是否是声母或者韵母或者静音:3个。韵律特征划分:如是否是重音,重音和韵律词/短语的位置数量,位置和数量特征划分。定义上下文标注N项,根据定义的上下文标注,得出每个音素对应于标注项的特征值,从而得到一个N维的特征向量。定义问题集M项。e)遍历训练文本集中的所有3个words的组合,统计所有三个单词组合中,中间单词本文档来自技高网...

【技术保护点】
1.基于前端设计的语音合成方法,其特征在于,包括如下步骤:步骤1、对中文文本数据进行预处理;步骤2、提取中文文本相关的语言学特征;步骤3、提取音频文件的至少两个声学特征;步骤4、根据语言学特征和声学特征训练时长模型和声学模型;步骤5、对需要合成的中文文本作步骤1及步骤2处理后,调用步骤4中得到的时长模型得到文本对应的时长信息,再结合语言学特征和时长信息,作为声学模型的输入,得到相应的声学特征;步骤6、对步骤5中得到的声学特征采用声码器合成对应的音频数据。

【技术特征摘要】
1.基于前端设计的语音合成方法,其特征在于,包括如下步骤:步骤1、对中文文本数据进行预处理;步骤2、提取中文文本相关的语言学特征;步骤3、提取音频文件的至少两个声学特征;步骤4、根据语言学特征和声学特征训练时长模型和声学模型;步骤5、对需要合成的中文文本作步骤1及步骤2处理后,调用步骤4中得到的时长模型得到文本对应的时长信息,再结合语言学特征和时长信息,作为声学模型的输入,得到相应的声学特征;步骤6、对步骤5中得到的声学特征采用声码器合成对应的音频数据。2.根据权利要求1所述的基于前端设计的语音合成方法,其特征在于,步骤1中,所述对中文文本数据进行预处理具体是指:对中文文本中的特殊字符及数字解析为中文文本,并将解析成的中文文本转为带有声调的拼音。3.根据权利要求2所述的基于前端设计的语音合成方法,其特征在于,步骤2具体包括如下步骤:步骤201、将所述拼音根据自定义的字典拆分为相应的音素;步骤202、提取音频文件的一个声学特征;步骤203、根据音素和该声学特征训练hmm模型,对音素进行强制对齐,得到每个音素对应的音频时长信息;步骤204、定义上下文标注N项,根据定义的上下文标注,得出每个音素对应于标注项的特征值,从而得到一个N维的特征向量,并定义问题集M项;步骤205、遍历训练文本集中的所有三个单词的组合,统计所有三个单词组合中,中间单词左右单词各出现的次数,组成矩阵,求该矩阵的特征值和特征向量,取前K个特征值和特征向量,所有单词组合在该空间上进行投影,最终每个单词组合都将得到K维的向量表示;步骤206、将步骤204及...

【专利技术属性】
技术研发人员:王昆
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1