【技术实现步骤摘要】
语音合成方法、装置、设备和存储介质
本申请涉及语音合成领域,特别是涉及一种语音合成方法、装置、设备和存储介质。
技术介绍
在语音交互场景中,需要把文本内容转换为语音时,要求快速且高质量语音响应。但现有神经网络合成方案,虽然质量高,但合成速度非常缓慢,以端到端神经网络合成方案Tacotron2为例,在tensorflow开发平台下以CPU解码的话,大约一句话5s的语音需要等待2.5s的时间才能生成,而且语音时间越长,所需要等待的时间越长。因为,Tacotron2在tensorflow开发平台下的语音生成是非流式方式,对文本内容整体处理完成后才会输出语音,因此,降低了用户体验。
技术实现思路
为解决上述问题,本专利技术提出了一种语音合成方法、装置、设备和存储介质,能够将文本向量逐步转换为与文本向量所对应的语序关联特征相匹配的向量片段,如第一向量片段和第二向量片段,并在未全部得到文本向量的语音结果之前,先输出已得到的向量片段对应的语音片段,如先输出第一语音片段,实现流式转换流式输出的目的,进而为降低整体输出时间 ...
【技术保护点】
1.一种语音合成方法,其特征在于,所述方法包括:/n获取到对待语音合成的目标文本进行编码处理后的文本向量,其中,所述文本向量至少能够表征所述目标文本的文本内容所对应的语序关联特征;/n获取到对所述文本向量进行解码处理后得到的第一向量片段,以及所述第一向量片段所对应的第一属性特征;其中,所述第一向量片段至少与所述文本向量中的部分文本内容相匹配;所述第一属性特征至少能够表征所述第一向量片段在所述目标文本的文本内容中所对应的语序位置特征;/n对所述第一向量片段进行语音合成处理,得到并输出第一语音片段;/n至少基于所述文本向量,以及所述第一向量片段和所述第一属性特征所表征的语序位置 ...
【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:
获取到对待语音合成的目标文本进行编码处理后的文本向量,其中,所述文本向量至少能够表征所述目标文本的文本内容所对应的语序关联特征;
获取到对所述文本向量进行解码处理后得到的第一向量片段,以及所述第一向量片段所对应的第一属性特征;其中,所述第一向量片段至少与所述文本向量中的部分文本内容相匹配;所述第一属性特征至少能够表征所述第一向量片段在所述目标文本的文本内容中所对应的语序位置特征;
对所述第一向量片段进行语音合成处理,得到并输出第一语音片段;
至少基于所述文本向量,以及所述第一向量片段和所述第一属性特征所表征的语序位置特征,得到第二向量片段;其中,所述第二向量片段至少与所述文本向量中的部分文本内容相匹配;所述第二向量片段与所述第一向量片段之间的语序关系与所述文本向量所表征的语序关系特征相匹配。
2.根据权利要求1所述的方法,其特征在于,基于所述第二向量片段能够得到第二语音片段,其中,所述第一语音片段与第二语音片段之间的时序关系特征与所述文本向量所表征的语序关联特征相匹配。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取生成所述第一向量片段的时间信息,将生成的所述第一向量片段的时间信息记录于所述第一属性特征中;其中,利用所述第一属性特征所表征的时间信息能够确定出所述第一语音片段的时序特征。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对第二向量片段进行语音合成处理,得到第二语音片段,输出所述第二语音片段;其中,所述第二语音片段与所述第一语音片段之间的时序关系特征与所述文本向量所表征的语序关联特征相匹配。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取生成所述第二向量片段的时间信息,将生成的所述第二向量片段的时间信息记录于所述第二向量片段所对应的第二属性特征中;其中,所述第二属性特征至少能够表征所述第二向量片段在所述目标文本的...
【专利技术属性】
技术研发人员:张鹏,胡新辉,徐欣康,
申请(专利权)人:浙江同花顺智能科技有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。