一种语音合成方法、装置、设备及存储介质制造方法及图纸

技术编号:26892963 阅读:26 留言:0更新日期:2020-12-29 16:14
本发明专利技术实施例提供一种语音合成方法、装置、设备及存储介质,该方法包括:获取待合成的文本信息和用户的听阈信息,其中,所述用户的听阈信息基于听阈测试得到;确定所述文本信息对应的初始频谱信息;根据所述用户的听阈信息,对所述初始频谱信息进行频谱增益处理,得到所述文本信息的语言频谱信息;基于所述语言频谱信息,合成对应所述文本信息的语音。本发明专利技术实施例能够优化语音合成方案,以满足不同的用户对语音的不同需求。

【技术实现步骤摘要】
一种语音合成方法、装置、设备及存储介质
本专利技术涉及计算机领域,尤其涉及一种语音合成方法、装置、设备及存储介质。
技术介绍
语音合成用于将文本信息转换成自然语音输出,可以满足用户对语音朗读播报的需求,例如,通过语音合成技术实现新闻朗读、小说朗读、天气播报、短信播报、电子书朗读等,使用户可以通过语音听取相关信息,而不必直接对文字信息进行阅读。然而,目前的语音合成方式,只是合成适应大部分用户的具有统一样式的的语音,而对于特定用户,例如具有听力障碍的用户,则存在不能满足用户需求的情况,特别是,对不同程度的听力障碍的用户,对语音强度的需求不同,因此,如何进一步优化语音合成方案,以满足不同的用户对语音的不同需求,成为了本领域技术人员亟需解决的技术问题。
技术实现思路
有鉴于此,本专利技术实施例提供一种语音合成方法、装置、设备及存储介质,能够优化语音合成方案,以满足不同的用户对语音的不同需求。为实现上述目的,本专利技术实施例提供如下技术方案:一种语音合成方法,包括:获取待合成的文本信息和用户的听阈信息,其中,所本文档来自技高网...

【技术保护点】
1.一种语音合成方法,其特征在于,包括:/n获取待合成的文本信息和用户的听阈信息,其中,所述用户的听阈信息基于听阈测试得到;/n确定所述文本信息对应的初始频谱信息;/n根据所述用户的听阈信息,对所述初始频谱信息进行频谱增益处理,得到所述文本信息的语言频谱信息;/n基于所述语言频谱信息,合成对应所述文本信息的语音。/n

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:
获取待合成的文本信息和用户的听阈信息,其中,所述用户的听阈信息基于听阈测试得到;
确定所述文本信息对应的初始频谱信息;
根据所述用户的听阈信息,对所述初始频谱信息进行频谱增益处理,得到所述文本信息的语言频谱信息;
基于所述语言频谱信息,合成对应所述文本信息的语音。


2.如权利要求1所述的语音合成方法,其特征在于,所述初始频谱信息包括多个初始帧;
所述根据用户的听阈信息,对所述初始频谱信息进行频谱增益处理,包括:
基于所述用户的听阈信息,对所述初始频谱信息的每一初始帧进行频谱增益处理,得到与所述初始帧对应的增益帧;
将所述增益帧合成为语言频谱信息。


3.如权利要求2所述的语音合成方法,其特征在于,所述基于所述用户的听阈信息,对所述初始频谱信息的每一初始帧进行频谱增益处理,包括:
根据所述用户的听阈信息,确定所述频谱增益处理的增益系数;
基于所述增益系数,对所述初始频谱信息的每一初始帧进行频谱增益处理。


4.如权利要求3所述的语音合成方法,其特征在于,所述根据所述用户的听阈信息,确定所述频谱增益处理的增益系数,具体为:






其中,Fpt(f)为用户的听阈曲线,G0为常量,G'k为中间增益系数,Gk为增益系数,fl为低频听阈值,fh为高频听阈值。


5.如权利要求1所述的语音合成方法,其特征在于,所述确定所述文本信息对应的初始频谱信息,包括:
确定所述文本信息对应的文本序列信息;
对所述文本序列信息进行编码,得到语言学编码特征;
对所述语言学编码特征进行解码,得到所述文本信息对应的初始频谱信息。


6.如权利要求5所述的语音合成方法,其特征在于,所述确定所述文本信息对应的文本序列信息,包括:
确定对应于所述文本信息的文本序列;
对所述文本序列进行前端处理,得到指示所述文本信息发音特征的音素序列;
对所述音素序列进行字符嵌入处理,得到所述文本序列信息。


7.如权利要求5所述的语音合成方法,其特征在于,所述对所述文本序列信息进行编码之后,所述对所述语言学编码特征进行解码之前,还包括:
基于注意力机制处理所述语言学编码特征,确定所述语言学编码特征的关键语言学特征。


8.如权利要求7所述的语音合成方法,其特征在于,所述对所述语言学编码特征进行解码,得到所述文本信息对应的初始频谱信息,包括:
对所述语言学编码特征的关键语言学特征进行解码,得到所述文本信息对应的初始频谱信息。


9.如权利要求1所述的语音合成方法,其特征在于,所述基于所述语言频谱信息,合成对应所述文本信息的语音包括:
将所述语言频谱信息转化为音频片段;
将所述音频片段合成为对应所述文本信息的语音。


10.如权利要求1所述的语音合成方法,其特征在于,所述听阈测试为纯音音频测试。


11.一种语音合成装置,其特征在于,包括:
获取信息模块,用于获取待合成的文本信息和用户的听阈信息,其中,所述用户的听阈信息基于听阈测试得到;
确定初始频谱信息模块,用于确定所述文本信息对应的初始频谱信息;
增益处理模块,用于根据所述用户的听阈信息,对所述初始频谱信息进行频谱增益处理,得到...

【专利技术属性】
技术研发人员:智鹏鹏陈高峰杨嵩
申请(专利权)人:北京世纪好未来教育科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1