【技术实现步骤摘要】
一种语音合成方法、装置、设备和存储介质
[0001]本专利技术涉及音频处理
,尤其涉及一种语音合成方法、装置、设备和存储介质。
技术介绍
[0002]在一些应用场景中,需要将文本信息转换为语音信号,使用户无需观看文本信息,就可以听到文本信息的内容。例如:语音助手应用就具有将文本转换为语音的功能。
[0003]目前,将文本信息转换为语音信号的过程可以分为前端处理和后端处理。前端处理用于对文本信息分词处理并进行分析,找到停顿、重读等阅读时需要强调的韵律信息。后端处理用于将前端处理输出的结果转换为语音信号。但是上述方式需要用户设置的业务逻辑较多,并且只能合成一种声音(一个发音人的声音),用户体验感较差。
技术实现思路
[0004]本专利技术的主要目的在于提出一种语音合成方法、装置、设备和存储介质,旨在解决现有的语音合成方法需要用户设置的业务逻辑较多,并且只能合成一种声音的问题。
[0005]为实现上述技术问题,本专利技术是通过以下技术方案来实现的:
[0006]本专利技术实施例提供了一 ...
【技术保护点】
【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:接收待语音合成的文本信息以及被选定的声音类型;将所述文本信息以及所述声音类型输入语音合成模型;其中,所述语音合成模型为经过多声音训练的端到端模型,所述语音合成模型中的语言模块为预训练模块;通过所述语音合成模型将所述文本信息合成为具有所述声音类型的语音信号。2.根据权利要求1所述的方法,其特征在于,在将所述文本信息以及所述声音类型输入语音合成模型之前,所述方法还包括:采集多个样本组;其中,每个所述样本组包括:样本文本信息、所述样本文本信息对应的样本语音信号以及所述样本语音信号具有的声音类型;基于所述多个样本组对所述语音合成模型进行多声音训练;其中,在每次多声音训练中,执行如下步骤:获取一个样本组中的样本文本信息以及声音类型;将本次获取的样本文本信息以及声音类型输入所述语音合成模型,并获取所述语音合成模型输出的预测语音信号;基于本次获取的样本语音信号和所述语音合成模型输出的所述预测语音信号,训练所述语音合成模型。3.根据权利要求2所述的方法,其特征在于,所述声音类型的种类为多种。4.根据权利要求2所述的方法,其特征在于,在基于所述多个样本组对所述语音合成模型进行多声音训练之前,还包括:采集多个训练文本信息;基于所述多个训练文本信息,对预设的编解码模块进行预训练;其中,所述编解码模块包括编码单元和解码单元;其中,在每次预训练中,执行如下步骤:获取一个训练文本信息;将本次获取的所述训练文本信息输入所述编解码模块,并获取所述编解码模块输出的预测文本信息;基于本次获取的所述训练文本信息以及所述编解码模块输出的预测文本信息,训练所述编解码模块;在确定所述编解码模块训练完成之后,将所述编解码模块中的编码单元作为所述语音合成模型中的语言模块。5.根据...
【专利技术属性】
技术研发人员:郁祖达,孙见青,梁家恩,
申请(专利权)人:云知声智能科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。