一种语音合成方法、装置、电子设备和存储介质制造方法及图纸

技术编号：39251102 阅读：9 留言：0更新日期：2023-10-30 12:02

本公开提供了一种语音合成方法、装置、电子设备和存储介质，涉及人工智能技术领域，尤其涉及深度学习、语音处理技术领域。语音合成方法应用于配置有人工智能芯片的云端设备；云端设备预先部署多个发言人模型；人工智能芯片包括多个独立处理语音合成请求的计算核心；方法包括：接收用户发送的语音合成请求数据，并添加到缓存队列中；其中，语音合成请求数据包括至少一个目标文本片段和用户指定的目标发言人模型；并发的从缓存队列中获取目标文本片段，并将目标文本片段分别发送到不同的计算核心，使得计算核心基于目标发言人模型将目标文本片段转换成对应的语音数据。本公开方案可以提高多发言人模型场景下的语音合成效率。提高多发言人模型场景下的语音合成效率。提高多发言人模型场景下的语音合成效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音合成方法、装置、电子设备和存储介质

[0001]本公开涉及人工智能
，尤其涉及深度学习、语音处理
，具体涉及一种语音合成方法、装置、电子设备、存储介质和计算机程序产品。

技术介绍

[0002]语音合成技术又称文语转换(Text to Speech，TTS)技术，它能将文字信息实时转化为语音。在人机对话、远程语音信息服务、机器阅读、电信、娱乐等方面得到了广泛的应用。

技术实现思路

[0003]本公开提供了一种语音合成方法、装置、电子设备、存储介质和计算机程序产品。
[0004]根据本公开的一方面，提供了一种语音合成方法，应用于配置有人工智能芯片的云端设备；所述云端设备预先部署多个用于语音合成的发言人模型；所述人工智能芯片包括多个独立处理语音合成请求的计算核心；所述方法包括：
[0005]接收用户发送的语音合成请求数据，并添加到缓存队列中；其中，所述语音合成请求数据包括至少一个目标文本片段和用户指定的目标发言人模型；
[0006]并发的从所述缓存队列中获取所述目标文本片段，并将所述目标文本片段分别发送到不同的计算核心，使得所述计算核心基于目标发言人模型将所述目标文本片段转换成对应的语音数据。
[0007]根据本公开的另一方面，提供了一种语音合成装置，配置于配置有人工智能芯片的云端设备；所述云端设备预先部署多个用于语音合成的发言人模型；所述人工智能芯片包括多个独立处理语音合成请求的计算核心；所述装置包括：
[0008]数据接收与缓存模块，用于接收用...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，应用于配置有人工智能芯片的云端设备；所述云端设备预先部署多个用于语音合成的发言人模型；所述人工智能芯片包括多个独立处理语音合成请求的计算核心；所述方法包括：接收用户发送的语音合成请求数据，并添加到缓存队列中；其中，所述语音合成请求数据包括至少一个目标文本片段和用户指定的目标发言人模型；并发的从所述缓存队列中获取所述目标文本片段，并将所述目标文本片段分别发送到不同的计算核心，使得所述计算核心基于目标发言人模型将所述目标文本片段转换成对应的语音数据。2.根据权利要求1所述的方法，其中，每个发言人模型关联有多个在线服务线程；接收用户发送的语音合成请求数据，包括：通过所述目标发言人模型关联的在线服务线程，接收用户发送的语音合成请求数据。3.根据权利要求1所述的方法，其中，每个发言人模型关联有多个内部计算线程；并发的从所述缓存队列中获取所述目标文本片段，包括：通过所述目标发言人模型关联的内部计算线程，并发的从所述缓存队列中获取所述目标文本片段。4.根据权利要求1所述的方法，其中，多个发言人模型共享一个显存池；所述显存池包括多个预设的用于存数据的数据块，且所述数据块的数量与所述人工智能芯片的计算核心的数量相同；将所述目标文本片段分别发送到不同的计算核心，使得所述计算核心基于目标发言人模型将所述目标文本片段转换成对应的语音数据，包括：针对任一目标文本片段，将所述目标文本片段发送到所述显存池中处于空闲的目标数据块中；轮询各计算核心当前所处的状态，并确定当前处于空闲状态的目标计算核心，使得所述目标计算核心利用所述目标发言人模型将目标数据块中的目标文本片段转换成语音数据。5.根据权利要求4所述的方法，还包括：将合成的语音数据反馈给所述用户，并将所述目标数据块中的目标文本片段清空。6.根据权利要求1所述的方法，还包括：对所述语音合成请求数据中的目标文本片段进行预处理；其中，所述预处理是将目标文本片段转换成预设长度的文本数据。7.根据权利要求1所述的方法，还包括：在所述云端设备初始化阶段，针对任一发言人模型，对所述发言人模型所包括的算子进行融合；对算子融合后的发言人模型进行编译优化处理。8.根据权利要求1所述的方法，其中，所述人工智能芯片为MLU100芯片。9.一种语音合成装置，配置于配置有人工智能芯片的云端设备；所述云端设备预先部署多个用于语音合成的发言人模型；所述人工智能芯片包括多个独立处理语音合成请求的计算核心；所述装置包括：数据接收与缓存模块，用于接收用户发送的语音合成请求数据，并添加到缓存队列中；
其中，所述语音合成请求数据包括至少一个目标文本片段和用户指定的目标发言人...

【专利技术属性】
技术研发人员：丛士钧，王桂彬，贾铭，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人