一种语音合成方法、装置、设备及存储介质制造方法及图纸

技术编号：26892963 阅读：26 留言：0更新日期：2020-12-29 16:14

本发明专利技术实施例提供一种语音合成方法、装置、设备及存储介质，该方法包括：获取待合成的文本信息和用户的听阈信息，其中，所述用户的听阈信息基于听阈测试得到；确定所述文本信息对应的初始频谱信息；根据所述用户的听阈信息，对所述初始频谱信息进行频谱增益处理，得到所述文本信息的语言频谱信息；基于所述语言频谱信息，合成对应所述文本信息的语音。本发明专利技术实施例能够优化语音合成方案，以满足不同的用户对语音的不同需求。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音合成方法、装置、设备及存储介质
本专利技术涉及计算机领域，尤其涉及一种语音合成方法、装置、设备及存储介质。
技术介绍
语音合成用于将文本信息转换成自然语音输出，可以满足用户对语音朗读播报的需求，例如，通过语音合成技术实现新闻朗读、小说朗读、天气播报、短信播报、电子书朗读等，使用户可以通过语音听取相关信息，而不必直接对文字信息进行阅读。然而，目前的语音合成方式，只是合成适应大部分用户的具有统一样式的的语音，而对于特定用户，例如具有听力障碍的用户，则存在不能满足用户需求的情况，特别是，对不同程度的听力障碍的用户，对语音强度的需求不同，因此，如何进一步优化语音合成方案，以满足不同的用户对语音的不同需求，成为了本领域技术人员亟需解决的技术问题。
技术实现思路
有鉴于此，本专利技术实施例提供一种语音合成方法、装置、设备及存储介质，能够优化语音合成方案，以满足不同的用户对语音的不同需求。为实现上述目的，本专利技术实施例提供如下技术方案：一种语音合成方法，包括：获取待合成的文本信息和用户...

【技术保护点】
1.一种语音合成方法，其特征在于，包括：/n获取待合成的文本信息和用户的听阈信息，其中，所述用户的听阈信息基于听阈测试得到；/n确定所述文本信息对应的初始频谱信息；/n根据所述用户的听阈信息，对所述初始频谱信息进行频谱增益处理，得到所述文本信息的语言频谱信息；/n基于所述语言频谱信息，合成对应所述文本信息的语音。/n

【技术特征摘要】
1.一种语音合成方法，其特征在于，包括：
获取待合成的文本信息和用户的听阈信息，其中，所述用户的听阈信息基于听阈测试得到；
确定所述文本信息对应的初始频谱信息；
根据所述用户的听阈信息，对所述初始频谱信息进行频谱增益处理，得到所述文本信息的语言频谱信息；
基于所述语言频谱信息，合成对应所述文本信息的语音。

2.如权利要求1所述的语音合成方法，其特征在于，所述初始频谱信息包括多个初始帧；
所述根据用户的听阈信息，对所述初始频谱信息进行频谱增益处理，包括：
基于所述用户的听阈信息，对所述初始频谱信息的每一初始帧进行频谱增益处理，得到与所述初始帧对应的增益帧；
将所述增益帧合成为语言频谱信息。

3.如权利要求2所述的语音合成方法，其特征在于，所述基于所述用户的听阈信息，对所述初始频谱信息的每一初始帧进行频谱增益处理，包括：
根据所述用户的听阈信息，确定所述频谱增益处理的增益系数；
基于所述增益系数，对所述初始频谱信息的每一初始帧进行频谱增益处理。

4.如权利要求3所述的语音合成方法，其特征在于，所述根据所述用户的听阈信息，确定所述频谱增益处理的增益系数，具体为：

其中，Fpt(f)为用户的听阈曲线，G0为常量，G'k为中间增益系数，Gk为增益系数，fl为低频听阈值，fh为高频听阈值。

5.如权利要求1所述的语音合成方法，其特征在于，所述确定所述文本信息对应的初始频谱信息，包括：
确定所述文本信息对应的文本序列信息；
对所述文本序列信息进行编码，得到语言学编码特征；
对所述语言学编码特征进行解码，得到所述文本信息对应的初始频谱信息。

6.如权利要求5所述的语音合成方法，其特征在于，所述确定所述文本信息对应的文本序列信息，包括：
确定对应于所述文本信息的文本序列；
对所述文本序列进行前端处理，得到指示所述文本信息发音特征的音素序列；
对所述音素序列进行字符嵌入处理，得到所述文本序列信息。

7.如权利要求5所述的语音合成方法，其特征在于，所述对所述文本序列信息进行编码之后，所述对所述语言学编码特征进行解码之前，还包括：
基于注意力机制处理所述语言学编码特征，确定所述语言学编码特征的关键语言学特征。

8.如权利要求7所述的语音合成方法，其特征在于，所述对所述语言学编码特征进行解码，得到所述文本信息对应的初始频谱信息，包括：
对所述语言学编码特征的关键语言学特征进行解码，得到所述文本信息对应的初始频谱信息。

9.如权利要求1所述的语音合成方法，其特征在于，所述基于所述语言频谱信息，合成对应所述文本信息的语音包括：
将所述语言频谱信息转化为音频片段；
将所述音频片段合成为对应所述文本信息的语音。

10.如权利要求1所述的语音合成方法，其特征在于，所述听阈测试为纯音音频测试。

11.一种语音合成装置，其特征在于，包括：
获取信息模块，用于获取待合成的文本信息和用户的听阈信息，其中，所述用户的听阈信息基于听阈测试得到；
确定初始频谱信息模块，用于确定所述文本信息对应的初始频谱信息；
增益处理模块，用于根据所述用户的听阈信息，对所述初始频谱信息进行频谱增益处理，得到...

【专利技术属性】
技术研发人员：智鹏鹏，陈高峰，杨嵩，
申请(专利权)人：北京世纪好未来教育科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人