语音合成方法、装置、存储介质及电子设备制造方法及图纸

技术编号:32436460 阅读:22 留言:0更新日期:2022-02-26 07:54
本申请实施例公开了一种语音合成方法、装置、存储介质及电子设备,属于计算机技术领域。方法包括:服务器将文本数据转换成至少一个音素序列,文本数据设置有至少一个呼吸声标签,基于预训练的语音合成模型对至少一个音素序列进行语音合成处理得到文本数据对应的梅尔频谱,基于文本数据对应的梅尔频谱得到所述文本数据对应的合成语音,合成语音包括至少一个呼吸声标签对应的呼吸声,增强合成语音的真实感,使其更能接近真人语音,进而提升用户体验。进而提升用户体验。进而提升用户体验。

【技术实现步骤摘要】
语音合成方法、装置、存储介质及电子设备


[0001]本申请涉及计算机
,尤其涉及一种语音合成方法、装置、存储介质及电子设备。

技术介绍

[0002]随着人工智能技术的发展,TTS(Text To Speech,语音合成技术)也随之得到了发展,语音合成技术可用于将文本数据转换成自然语音,其应用场景较为广泛,如:应用于语音字典、新闻播报、短信播报、电子书朗读等场景中,但在相关技术中,语音合成过程较为复杂,由此生成的语音过于生硬,与真人讲话的声音存在较大差别,导致用户体验较差。

技术实现思路

[0003]本申请实施例提供了一种语音合成方法、装置、存储介质及电子设备,可以解决相关技术中通过不能合成真实感较强的语音的问题。所述技术方案如下:
[0004]第一方面,本申请实施例提供了一种语音合成方法,所述方法包括:
[0005]将文本数据转换成至少一个音素序列;其中,所述文本数据设置有至少一个呼吸声标签;
[0006]基于预训练的语音合成模型对所述至少一个音素序列进行语音合成处理得到所述文本数据对应的梅尔频谱;
[0007]基于所述文本数据对应的梅尔频谱得到所述文本数据对应的合成语音;其中,所述合成语音包括所述至少一个呼吸声标签对应的呼吸声。
[0008]第二方面,本申请实施例提供了一种语音合成装置,所述语音合成装置包括:
[0009]转换模块,用于将文本数据转换成至少一个音素序列;其中,所述文本数据设置有至少一个呼吸声标签;
[0010]第一处理模块,用于基于预训练的语音合成模型对所述至少一个音素序列进行语音合成处理得到所述文本数据对应的梅尔频谱;
[0011]第二处理模块,用于基于所述文本数据对应的梅尔频谱得到所述文本数据对应的合成语音;其中,所述合成语音包括所述至少一个呼吸声标签对应的呼吸声。
[0012]第三方面,本申请实施例提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。
[0013]第四方面,本申请实施例提供一种电子设备,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法步骤。
[0014]本申请一些实施例提供的技术方案带来的有益效果至少包括:
[0015]本申请实施例的方案在执行时,服务器将文本数据转换成至少一个音素序列,文本数据设置有至少一个呼吸声标签,基于预训练的语音合成模型对至少一个音素序列进行语音合成处理得到文本数据对应的梅尔频谱,基于文本数据对应的梅尔频谱得到所述文本
数据对应的合成语音,合成语音包括至少一个呼吸声标签对应的呼吸声,增强合成语音的真实感,使其更能接近真人语音,进而提升用户体验。
附图说明
[0016]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1是本申请实施例提供的一种系统架构图;
[0018]图2是本申请实施例提供的语音合成方法的流程示意图;
[0019]图3是本申请实施例提供的语音合成方法的另一流程示意图;
[0020]图4是本申请实施例提供的一种装置的结构示意图;
[0021]图5是本申请实施例提供的一种装置的结构示意图。
具体实施方式
[0022]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
[0023]图1示出了可以应用本申请实施例的语音合成方法或语音合成装置的示例性系统架构100的示意图。
[0024]如图1所示,系统架构100可以包括终端设备101、102、103中的一种或多种,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质,终端设备101、102、103上可以安装有各种通信客户端应用,例如:视频录制应用、视频播放应用、语音交互应用、搜索类应用、及时通信工具、邮箱客户端、社交平台软件等。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0025]用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。网络104可以包括各种类型的有线通信链路或无线通信链路,例如:有线通信链路包括光纤、双绞线或同轴电缆的,无线通信链路包括蓝牙通信链路、无线保真(WIreless-FIdelity,Wi-Fi)通信链路或微波通信链路等。终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为软件时,可以是安装于上述所列举的电子设备中。其可以实现呈多个软件或软件模块(例如:用来提供分布式服务),也可以实现成单个软件或软件模块,在此不作具体限定。当终端设备101、102、103为硬件时,其上还可以安装有显示设备和摄像头,显示设备显示可以是各种能实现显示功能的设备,摄像头用于采集视频流;例如:显示设备可以是阴极射线管显示器(Cathode ray tubedisplay,简称CR)、发光二极管显示器(Light-emitting diode display,简称LED)、电子墨水屏、液晶显示屏(Liquid crystal display,简称LCD)、等离子显示面板(Plasma displaypanel,简称PDP)等。用户可以利用终端设备101、102、103上的显示设备,来查看显示的文字、图片、视频等信息。
[0026]需要说明的是,本申请实施例提供的语音合成方法通常由服务器105执行,相应
的,语音合成装置通常设置于服务器105中。服务器105可以是提供各种服务的服务器,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块,在此不做具体限定。
[0027]本申请中的服务器105可以为提供各种服务的终端设备,如:服务器将文本数据转换成至少一个音素序列,文本数据设置有至少一个呼吸声标签,基于预训练的语音合成模型对至少一个音素序列进行语音合成处理得到文本数据对应的梅尔频谱,基于文本数据对应的梅尔频谱得到所述文本数据对应的合成语音,合成语音包括至少一个呼吸声标签对应的呼吸声。
[0028]在此需要说明的是,本申请实施例所提供的语音合成方法可以由终端设备101、102、103中的一个或多个,和/或,服务器105执行,相应地,本申请实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:将文本数据转换成至少一个音素序列;其中,所述文本数据设置有至少一个呼吸声标签;基于预训练的语音合成模型对所述至少一个音素序列进行语音合成处理得到所述文本数据对应的梅尔频谱;基于所述文本数据对应的梅尔频谱得到所述文本数据对应的合成语音;其中,所述合成语音包括所述至少一个呼吸声标签对应的呼吸声。2.根据权利要求1所述的方法,其特征在于,所述将文本数据转换成至少一个音素序列,包括:获取原始文本数据;对所述原始文本数据进行呼吸声标签标注得到文本数据;其中,所述文本数据设置有至少一个呼吸声标签;将所述文本数据转换成所述至少一个音素序列。3.根据权利要求2所述的方法,其特征在于,所述对所述原始文本数据进行呼吸声标签标注得到文本数据,包括:确定所述至少一个呼吸声标签所对应的位置信息;其中,所述位置信息为所述至少一个呼吸声标签在所述原始文本数据中的位置信息;基于所述位置信息为所述原始文本数据标注上所述至少一个呼吸声标签得到所述文本数据。4.根据权利要求3所述的方法,其特征在于,所述至少一个呼吸声标签中包括呼吸声对应的时长信息。5.根据权利要求3所述的方法,其特征在于,所述确定所述至少一个呼吸声标签所对应的位置信息,包括:分析所述原始文本数据得到断句信息;基于所述断句信息确定所述至少一个呼吸声标签所对应的所述位置信息。6.根据权利要求1所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:杨惠舒景辰梁光吴雨璇周鼎皓
申请(专利权)人:北京大米科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1