语音合成装置、方法、电子设备和存储介质制造方法及图纸

技术编号:29205610 阅读:19 留言:0更新日期:2021-07-10 00:41
本申请公开了一种语音合成装置、方法、电子设备和计算机存储介质,所述语音合成装置包括语音合成处理模块和语音增强模块,所述语音合成处理模块的输出与所述语音增强模块的输入相连;其中,所述语音合成处理模块包括:文本编码器、韵律控制模块、位置敏感注意力模块、注意力过渡机制模块、解码器和声码器。利用本申请的实施例能够得到携带风格韵律的清晰的合成语音。成语音。成语音。

【技术实现步骤摘要】
语音合成装置、方法、电子设备和存储介质


[0001]本申请涉及语音合成
,尤其涉及一种语音合成装置、方法、电子设备和计算机存储介质。

技术介绍

[0002]关于语音合成,也可称为文语转换(Text To Speech,TTS),是指可以将输入的文本转换为相应语音的技术,语音合成是人机语音交互中最为重要的技术之一。传统的语音合成技术采用前端

后端模型的架构,实现过程需分别对前端模型和后端模型进行详细设计,需引入大量专家知识(例如语言学、声学等方面的知识支撑),实现过程的逻辑较为复杂,在效果上传统的合成语音在自然度上与真人语音有较大差距。目前已出现了端到端语音合成技术,端到端的语音合成可得到高度自然的语音,且模型的设计和实现不需要特定领域的专家知识,可应用于多种语言、多种场景的语音合成需求。
[0003]目前,基于端到端语音合成技术的语音合成方法,使用构建的经过训练的模型生成语音时,只能生成特定说话人的语音且韵律感较差,而实际上不同人声的语音具有语速快慢、喜怒哀乐等的韵律风格,目前模拟中文的语音韵律仍属于较难实现的功能,因此为中文语音增加韵律的机制还需要继续优化提升;此外,模型训练时,大多使用来自安静环境中录制的音频用以合成训练,然而实际中更普遍的情况是,训练用音频很多是来自人工录制的音频,例如,在教育教学场景下、课堂上录制的教学音频,难以避免会录入嘈杂的背景噪声,会对模型训练的质量以及后续合成音频的质量产生影响。

技术实现思路

[0004]为了解决现有技术中上述至少一个问题,本申请实施例提供一种语音合成装置、方法、电子设备和计算机存储介质,用以解决至少一个技术问题。
[0005]第一方面,本申请实施例提供一种语音合成装置,其包括语音合成处理模块和语音增强模块,所述语音合成处理模块的输出与所述语音增强模块的输入相连;其中,所述语音合成处理模块包括:文本编码器、韵律控制模块、位置敏感注意力模块、注意力过渡机制模块、解码器和声码器;其中,所述文本编码器用于基于输入的文本提取文本特征;所述韵律控制模块用于对所述文本编码器输出的文本特征增加韵律特征,将得到的包含文本特征和韵律特征的特征数据输入所述位置敏感注意力模块;所述位置敏感注意力模块用于根据位置敏感注意力机制获取所述特征数据中预设时间步长的对齐特征,将所述对齐特征输入所述注意力过渡机制模块;所述注意力过渡机制模块用于根据所述对齐特征计算各个预设时间步长对应的修正注意概率,并将所述修正注意概率输入所述解码器;所述解码器用于基于所述包含文本特征和韵律特征的特征数据生成频谱图,其中在生成频谱图过程中所述解码器根据所述对齐特征和所述修正注意概率确定在各时间步
长上移动或者停留;所述声码器用于将所述频谱图转换为音频;所述语音增强模块用于对所述音频提取音频特征,对所述音频特征进行增强处理,并输出增强处理后的合成语音。
[0006]第二方面,本申请实施例提供一种语音合成方法,所述语音合成方法基于如上所述的语音合成装置,所述语音合成方法包括:将目标文本输入所述语音合成装置的所述文本编码器,将目标音频输入所述语音合成装置的所述韵律控制模块;接收所述语音合成装置输出的经过增强处理的合成语音,所述合成语音携带有所述目标音频的韵律特征。
[0007]第三方面,本申请实施例提供一种语音合成方法,所述语音合成方法基于如上所述的语音合成装置,所述语音合成方法包括:提取目标文本的文本特征;对所述文本特征增加目标音频的韵律特征,得到包含文本特征和韵律特征的特征数据;根据位置敏感注意力机制获取所述特征数据中预设时间步长的对齐特征;根据所述对齐特征计算各个预设时间步长对应的修正注意概率,所述修正注意概率能够使位置敏感注意力机制确定在各个时间步长上移动或者停留;在所述位置敏感注意力机制下根据所述包含文本特征和韵律特征的特征数据生成频谱图;将所述频谱图转换为音频;对所述音频提取音频特征,对所述音频特征进行增强处理,输出增强处理后的合成语音。
[0008]第四方面,本申请实施例提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请任意一项实施例所提供的方法。
[0009]第五方面,本申请实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请任意一项实施例所提供的方法。
[0010]利用本申请的实施例能够获得经过风格韵律控制及语音增强处理的合成语音,并能够在一定程度上避免由于文本较长而出现的漏读现象,尤其适用于嘈杂教育场景下生成具有风格韵律的去噪语音的语音合成处理,能够获得高质量的合成语音。
[0011]上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本申请进一步的方面、实施方式和特征将会是容易明白的。
附图说明
[0012]在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。
[0013]图1是根据本申请实施例的一种语音合成装置的结构示意图;图2是根据本申请实施例的一种语音合成方法的流程示意图;图3是根据本申请实施例的另一种语音合成方法的流程示意图;图4是根据本申请实施例的又一种语音合成方法的流程示意图;图5是根据本申请实施例的电子设备组成结构示意图。
具体实施方式
[0014]以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0015]本文中术语"和/或",仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本文中术语"至少一种"表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。本文中术语"第一"、"第二"表示指代多个类似的技术用语并对其进行区分,并不是限定顺序的意思,或者限定只有两个的意思,例如,第一特征和第二特征,是指代有两类/两个特征,第一特征可以为一个或多个,第二特征也可以为一个或多个。另外,为更好的说明本申请,在下文具体实施方式中给出了具体细节。本领域技术人员应当理解,没有某些具体细节本申请同样可以实施。在一些实例中对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成装置,其特征在于,其包括语音合成处理模块和语音增强模块,所述语音合成处理模块的输出与所述语音增强模块的输入相连;其中,所述语音合成处理模块包括:文本编码器、韵律控制模块、位置敏感注意力模块、注意力过渡机制模块、解码器和声码器;其中,所述文本编码器用于基于输入的文本提取文本特征;所述韵律控制模块用于对所述文本编码器输出的文本特征增加韵律特征,将得到的包含文本特征和韵律特征的特征数据输入所述位置敏感注意力模块;所述位置敏感注意力模块用于根据位置敏感注意力机制获取所述特征数据中预设时间步长的对齐特征,将所述对齐特征输入所述注意力过渡机制模块;所述注意力过渡机制模块用于根据所述对齐特征计算各个预设时间步长对应的修正注意概率,并将所述修正注意概率输入所述解码器;所述解码器用于基于所述包含文本特征和韵律特征的特征数据生成频谱图,其中在生成频谱图过程中所述解码器根据所述对齐特征和所述修正注意概率确定在各时间步长上移动或者停留;所述声码器用于将所述频谱图转换为音频;所述语音增强模块用于对所述音频提取音频特征,对所述音频特征进行增强处理,并输出增强处理后的合成语音。2.根据权利要求1所述的语音合成装置,其中,所述语音合成装置是通过对神经网络进行训练而生成的,采用的训练数据包括文本以及阅读所述文本的语音。3.根据权利要求1或2所述的语音合成装置,其中,所述韵律控制模块包括韵律控制编码器,所述韵律控制编码器用于对接收到的音频进行处理以输出所述音频的韵律特征,所述韵律特征包括所述音频的梅尔普特征。4.根据权利要求1或2所述的语音合成装置,其中,所述在生成频谱图过程中所述解码器根据所述对齐特征和所述修正注意概率确定在各时间步长上移动或者停留,包括:如果第k个时间步长对应的修正注意概率大于或等于第一阈值,所述解码器确定在所述第k个时间步长上向前移...

【专利技术属性】
技术研发人员:智鹏鹏陈昌滨杨嵩
申请(专利权)人:北京世纪好未来教育科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1