【技术实现步骤摘要】
声学模型建立、语音合成方法、装置、设备及存储介质
本专利技术实施例涉及信息语音合成领域,特别是涉及一种声学模型建立、语音合成方法、装置、设备及存储介质。
技术介绍
随着多媒体通信技术的不断发展,作为人机交互重要方式之一的语音合成技术以其方便、快捷的优点受到了研究者的广泛关注。语音合成是通过机械的、电子的方法产生人造语音的技术,它是将计算机自己产生的或者外部输入的文字信息转变为可以听得懂的、流利的口语输出的技术。语音合成的目的是将文本转换为语音播放给用户,目标是达到真人文本播报的效果。语音合成技术已经获得了广泛的应用,例如语音合成技术已经用于信息流、地图导航、阅读、翻译、智能家电等。其中,儿化是汉语普通话口语中颇具特色的一种音变现象,主要是由词尾“儿”变化而来。词尾“儿“本是一个独立音节,长期与其前面音节流利地连读而发生音变,“儿”失去独立性,“化”到前一个音节上,只保持一个卷舌动作,且使其前面音节里的韵母或多或少地发生变化,如“老头儿”、“鲜花儿”。儿化也是汉语普通话中一种非常重要的语言现象,经常在书面上出现,能起到区别词性和意义,表达不同感情色彩的作用。现有技术 ...
【技术保护点】
1.一种声学模型建立方法,其特征在于:包括:从语料库中获取多个训练样本的音素序列样本,并获取所述音素序列样本中每个音素的上下文特征以及每个音素的时长;其中,所述音素序列样本中儿化音音素拆分成两个音素;从所述训练样本中提取声学特征;以所述音素序列样本,所述音素序列样本中每个音素的上下文特征和时长作为声学模型的输入,以所述声学特征作为所述声学模型的输出,对所述声学模型进行训练,得到预先训练的声学模型。
【技术特征摘要】
1.一种声学模型建立方法,其特征在于:包括:从语料库中获取多个训练样本的音素序列样本,并获取所述音素序列样本中每个音素的上下文特征以及每个音素的时长;其中,所述音素序列样本中儿化音音素拆分成两个音素;从所述训练样本中提取声学特征;以所述音素序列样本,所述音素序列样本中每个音素的上下文特征和时长作为声学模型的输入,以所述声学特征作为所述声学模型的输出,对所述声学模型进行训练,得到预先训练的声学模型。2.根据权利要求1所述的方法,其特征在于,还包括:将所述音素序列样本以及所述音素序列样本中每个音素的上下文特征作为时长模型的输入,以所述音素序列样本中每个音素的时长作为所述时长模型的输出,对所述时长模型进行训练,得到预先训练的时长模型。3.根据权利要求1所述的方法,其特征在于,所述音素序列样本中儿化音音素拆分成两个音素,包括:所述音素序列样本中儿化音音素的非儿化部分和儿化部分拆分,得到两个音素。4.根据权利要求1所述的方法,其特征在于,所述儿化音的音素拆分成的两个音素的时长之和,等于所述儿化音的音素在拆分之前的时长。5.根据权利要求1所述的方法,其特征在于,所述上下文特征包括每个音素在所述音素序列样本中的位置,在每个音素之前的音素以及在每个音素之后的音素。6.一种语音合成方法,其特征在于,包括:获取待合成文本;确定与所述待合成文本对应的音素序列,其中,所述待合成文本中的儿化音的音素拆分成两个音素;确定所述音素序列中每个音素的上下文特征,并基于预先训练的时长模型确定每个音素的时长;以所述音素序列,所述音素序列中每个音素的上下文特征和时长输入到预先训练的声学模型中,得到所述待合成文本的声学特征;基于所述声学特征,合...
【专利技术属性】
技术研发人员:张冉,
申请(专利权)人:北京羽扇智信息科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。