基于多尺度风格的语音合成方法、装置、设备及介质制造方法及图纸

技术编号:38527067 阅读:8 留言:0更新日期:2023-08-19 17:02
本申请涉及人工智能技术领域,公开了一种基于多尺度风格的语音合成方法、装置、计算机设备及存储介质,解决传统语音合成方案机器感较强、情感不够丰富的问题,方法部分包括:提取原始语音对应的目标音频和目标文本;对所述目标音频进行风格分析,得到第一风格嵌入向量;对所述目标文本进行风格预测,得到第二风格嵌入向量;融合所述第一风格嵌入向量和所述第二风格嵌入向量,得到目标风格嵌入向量;基于所述目标风格嵌入向量合成目标语音。述目标风格嵌入向量合成目标语音。述目标风格嵌入向量合成目标语音。

【技术实现步骤摘要】
基于多尺度风格的语音合成方法、装置、设备及介质


[0001]本申请涉及人工智能
,尤其涉及一种基于多尺度风格的语音合成方法、装置、计算机设备及存储介质。

技术介绍

[0002]现有的语音合成技术已经取得了长足的进步,但是在实际生产生活中,人们很容易就分辨出是对话的另一端是机器人还是真人,这是因为合成的语音数据一般会考虑追求平稳,因此在情感和表达方面也就不会太丰富。
[0003]随着但近些年大家对情感合成以及个性化合成的兴趣与需求越来越高,目前情感语音合成工作的侧重点,基本都是在于从语句中获取上下文信息建立单一尺度的模型,却忽略了语音风格的在不同尺度上的差异性,导致合成语音的风格情况还是比较单一,不够丰富,机器感比较明显。

技术实现思路

[0004]本申请实施例提供一种基于多尺度风格的语音合成方法、装置、计算机设备及存储介质,以解决传统方案的合成语音的风格情况还是比较单一,不够丰富,机器感比较明显问题。
[0005]一种基于多尺度风格的语音合成方法,包括:
[0006]提取原始语音对应的目标音频和目标文本;
[0007]对所述目标音频进行风格分析,得到第一风格嵌入向量;
[0008]对所述目标文本进行风格预测,得到第二风格嵌入向量;
[0009]融合所述第一风格嵌入向量和所述第二风格嵌入向量,得到目标风格嵌入向量;
[0010]基于所述目标风格嵌入向量合成目标语音。
[0011]一种基于多尺度风格的语音合成装置,包括:
[0012]提取模块,用于提取原始语音对应的目标音频和目标文本;
[0013]风格分析模块,用于对所述目标音频进行风格分析,得到第一风格嵌入向量;
[0014]风格预测模块,用于对所述目标文本进行风格预测,得到第二风格嵌入向量;
[0015]融合模块,用于融合所述第一风格嵌入向量和所述第二风格嵌入向量,得到目标风格嵌入向量;
[0016]合成模块,用于基于所述目标风格嵌入向量合成目标语音。
[0017]一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于多尺度风格的语音合成方法的步骤。
[0018]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于多尺度风格的语音合成方法的步骤。
[0019]上述基于多尺度风格的语音合成方法、装置、计算机设备及存储介质所实现的方
案中,与传统的方案相比,提出了多尺度的风格提取和嵌入方法,从不同尺度充分提取语音风格,突出合成语音数据的风格和情感,引入了不同尺度的语音风格分析和预测,帮助合成语音的情感话表达,提升情感语音的合成质量,可以获得最终富有情感的合成语音,解决传统语音合成方案机器感较强、情感不够丰富的问题。
附图说明
[0020]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是本申请一实施例中基于多尺度风格的语音合成方法的一应用环境示意图;
[0022]图2是本申请一实施例中基于多尺度风格的语音合成方法的一流程图;
[0023]图3是图2中步骤S20的一具体实施方式流程图;
[0024]图4是本申请一实施例中基于多尺度风格的语音合成方法的另一流程图;
[0025]图5是图3中步骤S25的一具体实施方式流程图;
[0026]图6是图2中步骤S30的一具体实施方式流程图;
[0027]图7是本申请一实施例中基于多尺度风格的语音合成装置的一结构示意图;
[0028]图8是本申请一实施例中计算机设备的一结构示意图。
具体实施方式
[0029]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0030]本申请实施例提供的基于多尺度风格的语音合成方法,可应用在如图1的应用环境中,其中,客户端可通过网络与服务器进行通信。客户端可以提供各种各样的原始语音,服务器得到原始语音之后,可提取原始语音对应的目标音频和目标文本;对所述目标音频进行风格分析,得到第一风格嵌入向量;对所述目标文本进行风格预测,得到第二风格嵌入向量;融合所述第一风格嵌入向量和所述第二风格嵌入向量,得到目标风格嵌入向量,得到多尺度的风格信息,最后基于所述目标风格嵌入向量合成目标语音。与传统的方案相比,提出了多尺度的风格提取和嵌入方法,从不同尺度充分提取语音风格突出合成语音数据的风格和情感,提出了结合上下文的多尺度风格预测模块,引入了不同尺度的语音风格分析和预测,帮助合成语音的情感话表达,提升情感语音的合成质量,可以获得最终富有情感的合成语音。其中,客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0031]首先,在描述本申请实施例之前,需先对本申请中涉及的若干名词进行解析:
[0032]人工智能(artificial intelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个
分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0033]自然语言处理(NLP,Natural Language Processing):NLP是一种专业分析人类语言的人工智能,其工作原理大概是:接收自然语言,这种语言是通过人类的自然使用演变而来的,人类每天都用它来交流转译自然语言;通过基于概率的算法分析自然语言并输出结果。
[0034]嵌入(embedding):embedding是一种向量表征,是指用一个低维的向量表示一个物体,该物体可以是一个词,或是一个商品,或是一个电影等等;或是本申请实施中提到的一种情感风格;常应用于机器学习,在机器学习模型构建过程中,通过把物体编码为一个低维稠密向量再传给网络或编码器、解码器中处理,以提高处理效率。
[0035]在一实施例中,如图2所示,提供一种基于多尺度风格的语音合成方法,以该方法应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度风格的语音合成方法,其特征在于,包括:提取原始语音对应的目标音频和目标文本;对所述目标音频进行风格分析,得到第一风格嵌入向量;对所述目标文本进行风格预测,得到第二风格嵌入向量;融合所述第一风格嵌入向量和所述第二风格嵌入向量,得到目标风格嵌入向量;基于所述目标风格嵌入向量合成目标语音。2.如权利要求1所述的基于多尺度风格的语音合成方法,其特征在于,所述对所述目标音频进行风格分析,得到第一风格嵌入向量,包括:提取所述目标音频的梅尔谱作为局部梅尔谱;获取所述目标音频的上下文语音的梅尔谱,并将所述上下文音频的梅尔谱和所述目标音频的梅尔谱进行拼接,得到全局梅尔谱;提取所述目标音频中按照子词音素边界划分出的子音频的梅尔谱作为片段梅尔谱;分别对所述全局梅尔谱、局部梅尔谱和片段梅尔谱进行风格编码以及分别将编码后的风格信息输入相应的风格标签层,得到全局音频风格向量、局部音频风格向量和片段音频风格向量;根据所述全局音频风格向量、局部音频风格向量和片段音频风格向量,得到所述目标音频的总情感风格变量作为第一风格嵌入向量。3.如权利要求2所述的基于多尺度风格的语音合成方法,其特征在于,所述分别对所述全局梅尔谱、局部梅尔谱和片段梅尔谱进行风格编码以及分别将编码后的风格信息输入相应的风格标签层,得到全局音频风格向量、局部音频风格向量和片段音频风格向量,包括:将所述全局梅尔谱进行风格编码,得到全局音频风格作为第一残差风格,并分别对所述局部梅尔谱和片段梅尔谱进行风格编码,得到局部音频风格和片段音频风格;将所述局部音频风格减去所述全局音频风格,得到第二残差风格;将所述片段音频风格减去所述局部音频风格,得到第三残差风格;分别将第一残差风格、第二残差风格和第三残差风格输入相应的风格标签层,得到全局音频风格向量、局部音频风格向量和片段音频风格向量。4.如权利要求1所述的基于多尺度风格的语音合成方法,其特征在于,所述对所述目标文本进行风格预测,得到第二风格嵌入向量,包括:提取所述目标文本的语义作为局部语义序列;将所述目标文本的上下文文本,和所述目标文本连接拼接文本,提取所述拼接文本的语义得到全局语义序列;提取所述目标文本中划分出的子词集合的语义序列作为片段语义序列;分别对所述全局语义序列、局部语义序列和片段语义序列进行风格预测,得到全局文本风格向量、局部文本风格向量和片段文本风格向量;叠加所述全局文本风格向量、局部文本风格向量和片段文本风格向量,得到所述目标文本的总情感...

【专利技术属性】
技术研发人员:张旭龙王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1