文本转语音方法和装置制造方法及图纸

技术编号:24097195 阅读:24 留言:0更新日期:2020-05-09 10:59
本发明专利技术公开文本转语音方法和装置,其中,一种文本转语音方法,包括:响应于接收到的文本序列,对所述文本序列进行特征提取得到文本特征序列;对所述文本特征序列进行处理得到声学特征序列、以及所述声学特征序列和所述文本特征序列之间的对齐信息;基于所述对齐信息确定所述声学特征序列中的每一时刻声学特征与所述文本特征序列中的每一文本特征的对应关系;以及基于所述声学特征序列合成音频序列,输出所述音频序列和所述对应关系。本申请实施例的方案通过在输出高自然度的合成语音的同时,输出准确的语音与文本的对应关系,从而帮助虚拟形象建模渲染时保持口型与声音高度一致,提升了用户体验。

Text to speech method and device

【技术实现步骤摘要】
文本转语音方法和装置
本专利技术属于智能对话
,尤其涉及文本转语音方法和装置。
技术介绍
现有技术中,虚拟人物建模与渲染技术在动画、游戏和电影等行业得到广泛应用,并且使虚拟人物讲话时能够具有自然流畅并与声音同步的口型动作是提升用户体验的关键。语音合成的目的是对给定文本生成自然的语音波形。近年来,越来越多的研究者们逐渐在语音合成领域采用深度神经网络技术来帮助提高合成效果。当虚拟人物使用的语音是由语音合成系统生成时,语音合成系统应当给出和语音同步的声韵母时长序列(声韵母可以直接映射成口型,多个声韵母可能映射成同一个口型。不直接给口型的原因是目前学术界、工业界对于普通话存在多种声韵母到口型的映射方案,输出无损的原始信息——声韵母时长序列方便合作方使用自定义的映射方案)。相关技术中,存在基于隐马尔可夫模型的参数式语音合成技术,进一步的,还存在基于神经网络的参数式语音合成技术,也就是使用神经网络模型逐步取代基于隐马尔可夫模型的参数式语音合成中的统计模型,但是整体架构不变(例如仍旧包含了时长模型、声学模型等分开的模块),其中的子模块——时长模型可以输出与合成语音同步的声韵母时长序列。专利技术人在实现本申请的过程中发现,现有方案至少存在以下缺陷:基于隐马尔可夫模型的参数式语音合成技术的缺点是合成的声音带有机械音、音质差;虽然,基于神经网络的参数式语音合成减轻了上述问题,但合成的语音还是不够自然。
技术实现思路
本专利技术实施例提供一种文本转语音方法及装置,用于至少解决上述技术问题之一。第一方面,本专利技术实施例提供一种文本转语音方法,包括:响应于接收到的文本序列,对所述文本序列进行特征提取得到文本特征序列;对所述文本特征序列进行处理得到声学特征序列、以及所述声学特征序列和所述文本特征序列之间的对齐信息;基于所述对齐信息确定所述声学特征序列中的每一时刻声学特征与所述文本特征序列中的每一文本特征的对应关系;以及基于所述声学特征序列合成音频序列,输出所述音频序列和所述对应关系。第二方面,本专利技术实施例提供一种文本转语音装置,包括:特征提取,配置为响应于接收到的文本序列,对所述文本序列进行特征提取得到文本特征序列;处理模块,配置为对所述文本特征序列进行处理得到声学特征序列、以及所述声学特征序列和所述文本特征序列之间的对齐信息;对应关系确定模块,配置为基于所述对齐信息确定所述声学特征序列中的每一时刻声学特征与所述文本特征序列中的每一文本特征的对应关系;以及合成输出模块,配置为基于所述声学特征序列合成音频序列,输出所述音频序列和所述对应关系。第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的文本转语音方法的步骤。第四方面,本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本专利技术任一实施例的文本转语音方法的步骤。本申请的方法和装置提供的方案通过在输出高自然度的合成语音的同时,输出准确的语音与文本的对应关系,从而帮助虚拟形象建模渲染时保持口型与声音高度一致,提升了用户体验。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例提供的一种文本转语音方法的流程图;图2为本专利技术一实施例提供的一种端端到端神经网络语音合成的声韵母序列获得方法的流程图;图3为本专利技术一实施例提供的声学特征序列和文本特征序列的对齐图示例;图4为本专利技术一实施例提供的一种文本转语音装置的框图;图5是本专利技术一实施例提供的电子设备的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参考图1,其示出了本申请的文本转语音方法一实施例的流程图,本实施例的文本转语音方法可以适用于公众账号的智能对话机器人,例如各种社交软件中的公众账号,本申请在此没有限制。如图1所示,在步骤101中,响应于接收到的文本序列,对所述文本序列进行特征提取得到文本特征序列;在步骤102中,对所述文本特征序列进行处理得到声学特征序列、以及所述声学特征序列和所述文本特征序列之间的对齐信息;在步骤103中,基于所述对齐信息确定所述声学特征序列中的每一时刻声学特征与所述文本特征序列中的每一文本特征的对应关系;在步骤104中,基于所述声学特征序列合成音频序列,输出所述音频序列和所述对应关系。在本实施例中,对于步骤101,文本转语音装置响应于接收到的文本序列,然后对所述文本序列进行诸如分词、多音字分析、词性分析等进行特征提取得到文本特征序列,例如把“您好”一词中会把“好”这一字进行多音字分析,最终结合“您好”两个字的关联关系得到三声的“好”,而不是“叶公好龙”中四声的“好”,又例如,对“欢迎来到长安城”这句话进行“欢迎”、“来到”、“长安城”这样的分词处理等,本申请在此没有限制。然后,对于步骤102,文本转语音装置对所述文本特征序列进行处理得到声学特征序列,例如,对上述实施例中的“欢迎、来到、长安城”进行处理得到至少包含“huanyinglaidaochangancheng”的声学特征序列以及所述声学特征序列和所述文本特征序列之间的对齐信息,例如,“huan”对应“欢”等,本申请在此不再赘述。对于步骤103,文本转语音装置基于所述对齐信息确定所述声学特征序列中的每一时刻声学特征与所述文本特征序列中的每一文本特征的对应关系,例如,基于上述实施例中“欢迎来到长安城”这一文本的声学特征序列和文本特征序列之间的对齐信息,然后把它们之间的对应关系精确到每一时刻中,从而从软边界的映射关系达到硬边界的映射关系,其中,软边界是自由边界,某一声学特征以一定概率对应某一文本特征(该声学特征对应该文本特征序列的概率之和为1);硬边界是刚性边界,某一声学特征确定性地对应某一文本特征。最后,对于步骤104,文本转语音装置基于所述声学特征序列合成音频序列,输出所述音频序列和所述对应关系,例如,游戏中的虚拟形象建模渲染时基于所述声学特征序列合成音频序列,输出所述音频序列和所述对应关系时将保持口型与声音高度一致。本申请实施例提供的方案通过在输出高自然本文档来自技高网...

【技术保护点】
1.一种文本转语音方法,包括:/n响应于接收到的文本序列,对所述文本序列进行特征提取得到文本特征序列;/n对所述文本特征序列进行处理得到声学特征序列、以及所述声学特征序列和所述文本特征序列之间的对齐信息;/n基于所述对齐信息确定所述声学特征序列中的每一时刻声学特征与所述文本特征序列中的每一文本特征的对应关系;/n基于所述声学特征序列合成音频序列,输出所述音频序列和所述对应关系。/n

【技术特征摘要】
1.一种文本转语音方法,包括:
响应于接收到的文本序列,对所述文本序列进行特征提取得到文本特征序列;
对所述文本特征序列进行处理得到声学特征序列、以及所述声学特征序列和所述文本特征序列之间的对齐信息;
基于所述对齐信息确定所述声学特征序列中的每一时刻声学特征与所述文本特征序列中的每一文本特征的对应关系;
基于所述声学特征序列合成音频序列,输出所述音频序列和所述对应关系。


2.根据权利要求1所述的方法,其中,所述文本特征序列包括声韵母序列,所述方法还包括:
基于所述声学特征序列中的每一时刻声学特征与声韵母序列中的每一声韵母的对应关系确定声韵母时长序列。


3.根据权利要求2所述的方法,其中,所述输出所述音频序列和所述对应关系包括:
输出所述音频序列和与所述音频序列对应的声韵母序列。


4.根据权利要求1-3中任一项所述的方法,其中,所述特征提取包括分词、多音字分析和词性分析。


5.根据权利要求4所述的方法,其中,所述对所述文本特征序列进行处理包括采用端到端神经网络对所述文本特征序列进行处理。


6.一种文本转语音装置,包括:
特征提取,配置为响应于接收到的文本序列,对所述文本序列进行特征提取得到文...

【专利技术属性】
技术研发人员:周扬张辉
申请(专利权)人:苏州思必驰信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1