一种语音合成方法、装置、电子设备和存储介质制造方法及图纸

技术编号:39251102 阅读:9 留言:0更新日期:2023-10-30 12:02
本公开提供了一种语音合成方法、装置、电子设备和存储介质,涉及人工智能技术领域,尤其涉及深度学习、语音处理技术领域。语音合成方法应用于配置有人工智能芯片的云端设备;云端设备预先部署多个发言人模型;人工智能芯片包括多个独立处理语音合成请求的计算核心;方法包括:接收用户发送的语音合成请求数据,并添加到缓存队列中;其中,语音合成请求数据包括至少一个目标文本片段和用户指定的目标发言人模型;并发的从缓存队列中获取目标文本片段,并将目标文本片段分别发送到不同的计算核心,使得计算核心基于目标发言人模型将目标文本片段转换成对应的语音数据。本公开方案可以提高多发言人模型场景下的语音合成效率。提高多发言人模型场景下的语音合成效率。提高多发言人模型场景下的语音合成效率。

【技术实现步骤摘要】
一种语音合成方法、装置、电子设备和存储介质


[0001]本公开涉及人工智能
,尤其涉及深度学习、语音处理
,具体涉及一种语音合成方法、装置、电子设备、存储介质和计算机程序产品。

技术介绍

[0002]语音合成技术又称文语转换(Text to Speech,TTS)技术,它能将文字信息实时转化为语音。在人机对话、远程语音信息服务、机器阅读、电信、娱乐等方面得到了广泛的应用。

技术实现思路

[0003]本公开提供了一种语音合成方法、装置、电子设备、存储介质和计算机程序产品。
[0004]根据本公开的一方面,提供了一种语音合成方法,应用于配置有人工智能芯片的云端设备;所述云端设备预先部署多个用于语音合成的发言人模型;所述人工智能芯片包括多个独立处理语音合成请求的计算核心;所述方法包括:
[0005]接收用户发送的语音合成请求数据,并添加到缓存队列中;其中,所述语音合成请求数据包括至少一个目标文本片段和用户指定的目标发言人模型;
[0006]并发的从所述缓存队列中获取所述目标文本片段,并将所述目标文本片段分别发送到不同的计算核心,使得所述计算核心基于目标发言人模型将所述目标文本片段转换成对应的语音数据。
[0007]根据本公开的另一方面,提供了一种语音合成装置,配置于配置有人工智能芯片的云端设备;所述云端设备预先部署多个用于语音合成的发言人模型;所述人工智能芯片包括多个独立处理语音合成请求的计算核心;所述装置包括:
[0008]数据接收与缓存模块,用于接收用户发送的语音合成请求数据,并添加到缓存队列中;其中,所述语音合成请求数据包括至少一个目标文本片段和用户指定的目标发言人模型;
[0009]数据提取并计算模块,用于并发的从所述缓存队列中获取所述目标文本片段,并将所述目标文本片段分别发送到不同的计算核心,使得所述计算核心基于目标发言人模型将所述目标文本片段转换成对应的语音数据。
[0010]根据本公开的另一方面,提供了一种电子设备,包括:
[0011]至少一个处理器;以及
[0012]与所述至少一个处理器通信连接的存储器;其中,
[0013]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开任意实施例所述的语音合成方法。
[0014]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行本公开任意实施例所述的语音合成方法。
[0015]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现本公开任意实施例的语音合成方法。
[0016]根据本公开的技术,可以提高多发言人模型场景下的语音合成效率。
[0017]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0018]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0019]图1是根据本公开实施例的一种语音合成方法的流程示意图;
[0020]图2是根据本公开实施例的另一种语音合成方法的流程示意图;
[0021]图3是根据本公开实施例的另一种语音合成方法的流程示意图;
[0022]图4是根据本公开实施例的另一种语音合成方法逻辑示意图;
[0023]图5是根据本公开实施例的语音合成装置的示意图;
[0024]图6是用来实现本公开实施例的语音合成方法的电子设备的框图。
具体实施方式
[0025]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0026]本申请方案中,为了给用户提供个性化的语音合成服务,在云端设备(例如云服务器设备)部署多个用于将文本转换成语音的发言人模型(例如预先训练的深度学习模型),且不同发言人模型的模型参数不同。为了提高语音合成的效率,云端设备可以采用CPU(Central Processing Unit,中央处理器)芯片提供算力或采用GPU(Graphics Processing Unit,图形处理器)芯片提供算力,但是这两种方式存在一定的不足:CPU芯片因为自身软硬件特征,无法单独操控CPU芯片的核心去处理语音合成请求,使得CPU芯片只能按照串行的方式处理接收到的语音合成请求,导致语音合成的效率较低;而采用GPU芯片提供算力时,一个云端设备部署的发言人模型的数量较少,且GPU芯片价格较贵,导致成本较大。基于此,本申请方案不采用CPU芯片和GPU芯片提供算力,而是采用适用于云端设备人工智能芯片提供算力,也即在云端设备中配置人工智能芯片,其中,人工智能芯片包括多个允许独立处理语音合成请求的计算核心;如此,基于人工智能芯片提供的可以单独操控计算核心的能力,实现语音合成,可以提高多发言人模型场景下的语音合成的效率。可选的,人工智能芯片可以是型号为MLU100的人工智能芯片,通过MLU100芯片不仅可以提高计算效率,还可以节省价格成本。在此基础上,本公开涉及的语音合成方法的具体流程,可以参见如下实施例。
[0027]图1是根据本公开实施例的一种语音合成方法的流程示意图。本实施例可适用于为基于多发言人模型为用户提供语音合成服务的场景;典型的,针对用户阅读电子书的情况,用户可以选择部分电子书文本,并从多个发言人模型中确定自己需要的发言人模型,进而根据用户选中的文本和发言人模型为用户合成对应语音的情况。该方法可由一种语音合成装置来执行,该装置采用软件和/或硬件的方式实现,优选是配置于电子设备中,例如配
置在云端服务器设备中。
[0028]如图1所示,该方法具体包括如下:
[0029]S101、接收用户发送的语音合成请求数据,并添加到缓存队列中。
[0030]S102、并发的从所述缓存队列中获取所述目标文本片段,并将所述目标文本片段分别发送到不同的计算核心,使得所述计算核心基于目标发言人模型将所述目标文本片段转换成对应的语音数据。
[0031]本实施例中,每个用户发送的语音合成请求数据中包括至少一个需要转换成语音的目标文本片段和用户指定的目标发言人模型。示例性的,用户在通过移动终端阅读电子书时,可以选中一个或多个电子书文本片段,并触发语音合成功能,此时可以在移动终端中以弹窗形式展示用户可选择的发言人模型,进而在用户确定目标发言人模型后,移动终端通过网络通信将用户选中的至少一个目标文本片段和用户选中的目标发言人模型发送到云端设备中,也即云端设备接收用户发送的语音合成请求数据。需要说明的是,针对任一用户发送的语音合成请求数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,应用于配置有人工智能芯片的云端设备;所述云端设备预先部署多个用于语音合成的发言人模型;所述人工智能芯片包括多个独立处理语音合成请求的计算核心;所述方法包括:接收用户发送的语音合成请求数据,并添加到缓存队列中;其中,所述语音合成请求数据包括至少一个目标文本片段和用户指定的目标发言人模型;并发的从所述缓存队列中获取所述目标文本片段,并将所述目标文本片段分别发送到不同的计算核心,使得所述计算核心基于目标发言人模型将所述目标文本片段转换成对应的语音数据。2.根据权利要求1所述的方法,其中,每个发言人模型关联有多个在线服务线程;接收用户发送的语音合成请求数据,包括:通过所述目标发言人模型关联的在线服务线程,接收用户发送的语音合成请求数据。3.根据权利要求1所述的方法,其中,每个发言人模型关联有多个内部计算线程;并发的从所述缓存队列中获取所述目标文本片段,包括:通过所述目标发言人模型关联的内部计算线程,并发的从所述缓存队列中获取所述目标文本片段。4.根据权利要求1所述的方法,其中,多个发言人模型共享一个显存池;所述显存池包括多个预设的用于存数据的数据块,且所述数据块的数量与所述人工智能芯片的计算核心的数量相同;将所述目标文本片段分别发送到不同的计算核心,使得所述计算核心基于目标发言人模型将所述目标文本片段转换成对应的语音数据,包括:针对任一目标文本片段,将所述目标文本片段发送到所述显存池中处于空闲的目标数据块中;轮询各计算核心当前所处的状态,并确定当前处于空闲状态的目标计算核心,使得所述目标计算核心利用所述目标发言人模型将目标数据块中的目标文本片段转换成语音数据。5.根据权利要求4所述的方法,还包括:将合成的语音数据反馈给所述用户,并将所述目标数据块中的目标文本片段清空。6.根据权利要求1所述的方法,还包括:对所述语音合成请求数据中的目标文本片段进行预处理;其中,所述预处理是将目标文本片段转换成预设长度的文本数据。7.根据权利要求1所述的方法,还包括:在所述云端设备初始化阶段,针对任一发言人模型,对所述发言人模型所包括的算子进行融合;对算子融合后的发言人模型进行编译优化处理。8.根据权利要求1所述的方法,其中,所述人工智能芯片为MLU100芯片。9.一种语音合成装置,配置于配置有人工智能芯片的云端设备;所述云端设备预先部署多个用于语音合成的发言人模型;所述人工智能芯片包括多个独立处理语音合成请求的计算核心;所述装置包括:数据接收与缓存模块,用于接收用户发送的语音合成请求数据,并添加到缓存队列中;
其中,所述语音合成请求数据包括至少一个目标文本片段和用户指定的目标发言人...

【专利技术属性】
技术研发人员:丛士钧王桂彬贾铭
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1