语音合成的方法、装置以及存储介质制造方法及图纸

技术编号:32028512 阅读:24 留言:0更新日期:2022-01-27 12:43
本申请公开了一种语音合成的方法、装置以及存储介质。其中,该方法包括:获取待合成语音的中文文本;生成与中文文本对应的文本向量,其中文本向量与中文文本中包含的中文词汇相关联;利用预先训练的模型对文本向量进行计算,生成与文本向量对应的梅尔频谱;以及根据梅尔频谱确定与中文文本对应的音频。梅尔频谱确定与中文文本对应的音频。梅尔频谱确定与中文文本对应的音频。

【技术实现步骤摘要】
语音合成的方法、装置以及存储介质


[0001]本申请涉及语音合成
,特别是涉及一种语音合成的方法、装置以及存储介质。

技术介绍

[0002]目前在语音合成技术当中,主要是使用端到端进行语音合成,主要是通过深度学习技术,引入注意力机制,通过录音人员的大量录音,进行文本标注,训练出一个Encoder

Decoder结构的网络模型,然后传入文本通过训练好的模型进行语音合成,供用户使用。目前训练网络时,首先进行训练数据的准备,数据主要是录音数据与录音数据对应的文本,先将录音音频转换为梅尔频谱,然后再将音频对应的文本转换成拼音,然后对拼音通过字母索引(abcdefghijgklmnopqrstuvwsyz12345总共26个字母拼音,比如



的拼音

wo3

3是音调转换成的向量为[23,16,29])进行向量转换,但是,中文汉字有很多多音字,在生成多音字的拼音的过程中,中文转拼音就容易转换错误,然后再通过拼音传入网络进行模型预测,此时生成的音频就会本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音合成的方法,其特征在于,包括:获取待合成语音的中文文本;生成与所述中文文本对应的文本向量,其中所述文本向量与所述中文文本中包含的中文词汇相关联;利用预先训练的模型对所述文本向量进行计算,生成与所述文本向量对应的梅尔频谱;以及根据所述梅尔频谱确定与所述中文文本对应的音频。2.根据权利要求1所述的方法,其特征在于,生成与所述中文文本对应的文本向量,包括:生成与所述中文文本中包含的连续的中文词汇对应的词向量;以及将所述词向量依次进行拼接生成句向量,根据所述句向量生成所述文本向量。3.根据权利要求2所述的方法,其特征在于,根据所述句向量生成所述文本向量,包括:生成与所述连续的中文词汇的词性对应的第一词性向量,并将所述第一词性向量进行拼接生成第二词性向量;以及将所述句向量和所述第二词性向量进行拼接,生成所述文本向量。4.根据权利要求2所述的方法,其特征在于,生成与所述中文文本中包含的连续的中文词汇对应的词向量,包括:对所述中文文本进行分词操作,确定所述中文文本中包含的连续的中文词汇;以及生成与所述中文文本中包含的连续的中文词汇对应的词向量。5.根据权利要求3所述的方法,其特征在于,生成与所述连续的中...

【专利技术属性】
技术研发人员:黄磊杨春勇靳丁南权圣
申请(专利权)人:北京有限元科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1