语音合成的方法、装置以及存储介质制造方法及图纸

技术编号：32028512 阅读：24 留言：0更新日期：2022-01-27 12:43

本申请公开了一种语音合成的方法、装置以及存储介质。其中，该方法包括：获取待合成语音的中文文本；生成与中文文本对应的文本向量，其中文本向量与中文文本中包含的中文词汇相关联；利用预先训练的模型对文本向量进行计算，生成与文本向量对应的梅尔频谱；以及根据梅尔频谱确定与中文文本对应的音频。梅尔频谱确定与中文文本对应的音频。梅尔频谱确定与中文文本对应的音频。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成的方法、装置以及存储介质

[0001]本申请涉及语音合成
，特别是涉及一种语音合成的方法、装置以及存储介质。

技术介绍

[0002]目前在语音合成技术当中，主要是使用端到端进行语音合成，主要是通过深度学习技术，引入注意力机制，通过录音人员的大量录音，进行文本标注，训练出一个Encoder
–
Decoder结构的网络模型，然后传入文本通过训练好的模型进行语音合成，供用户使用。目前训练网络时，首先进行训练数据的准备，数据主要是录音数据与录音数据对应的文本，先将录音音频转换为梅尔频谱，然后再将音频对应的文本转换成拼音，然后对拼音通过字母索引(abcdefghijgklmnopqrstuvwsyz12345总共26个字母拼音，比如
‘
我
’
的拼音
‘
wo3
’
3是音调转换成的向量为[23,16,29])进行向量转换，但是，中文汉字有很多多音字，在生成多音字的拼音的过程中，中文转拼音就容易转换错误，然后再通过拼音传入网络进行模型预测...

【技术保护点】

【技术特征摘要】
1.一种语音合成的方法，其特征在于，包括：获取待合成语音的中文文本；生成与所述中文文本对应的文本向量，其中所述文本向量与所述中文文本中包含的中文词汇相关联；利用预先训练的模型对所述文本向量进行计算，生成与所述文本向量对应的梅尔频谱；以及根据所述梅尔频谱确定与所述中文文本对应的音频。2.根据权利要求1所述的方法，其特征在于，生成与所述中文文本对应的文本向量，包括：生成与所述中文文本中包含的连续的中文词汇对应的词向量；以及将所述词向量依次进行拼接生成句向量，根据所述句向量生成所述文本向量。3.根据权利要求2所述的方法，其特征在于，根据所述句向量生成所述文本向量，包括：生成与所述连续的中文词汇的词性对应的第一词性向量，并将所述第一词性向量进行拼接生成第二词性向量；以及将所述句向量和所述第二词性向量进行拼接，生成所述文本向量。4.根据权利要求2所述的方法，其特征在于，生成与所述中文文本中包含的连续的中文词汇对应的词向量，包括：对所述中文文本进行分词操作，确定所述中文文本中包含的连续的中文词汇；以及生成与所述中文文本中包含的连续的中文词汇对应的词向量。5.根据权利要求3所述的方法，其特征在于，生成与所述连续的中...

【专利技术属性】
技术研发人员：黄磊，杨春勇，靳丁南，权圣，
申请(专利权)人：北京有限元科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人