用于生成合成语音的方法、装置、设备和介质制造方法及图纸

技术编号:26175184 阅读:25 留言:0更新日期:2020-10-31 14:07
本公开的实施例公开了用于生成合成语音的方法、装置、设备和介质。该方法的一具体实施方式包括:利用所获取的第一数目个声纹特征合成第二数目个声纹特征。其中,该第二数目大于该第一数目。而后,根据第二数目个声纹特征和所获取的第三数目个文本,生成合成语音集合。该实施方式实现了根据现有声纹特征扩增具有更多声纹特征的合成语音,从而为语料较少的训练样本扩增提供数据基础,有助于提升语音合成模型的准确性。

【技术实现步骤摘要】
用于生成合成语音的方法、装置、设备和介质
本公开的实施例涉及计算机
,具体涉及用于生成合成语音的方法和装置。
技术介绍
随着人工智能技术的发展,各种机器学习模型取得了越来越多的应用。对于机器学习模型来说,训练数据的数量往往是决定模型性能的主要因素。例如,在语音合成领域,对于训练数据量很少的语种,现有技术往往由于训练数据的样本量不足导致训练得到的语音合成模型的稳定性较差,且识别准确度偏低。
技术实现思路
本公开提出了用于生成合成语音的方法、装置、设备和介质。第一方面,本公开的实施例提供了一种用于生成合成语音的方法,该方法包括:获取第一数目个声纹特征;利用第一数目个声纹特征合成第二数目个声纹特征,其中,第二数目大于第一数目;获取第三数目个文本;根据第二数目个声纹特征和第三数目个文本,生成合成语音集合。在一些实施例中,上述利用第一数目个声纹特征合成第二数目个声纹特征,包括:从第一数目个声纹特征中选取声纹特征进行按比例融合操作,生成第二数目个声纹特征。在一些实施例中,上述获取第一数目个声纹特征,包括:获取第一语音集合,其中,上述第一语音集合中包括语种一致的语音;将第一语音集合中的语音输入至预先训练的声纹识别模型,得到与输入的语音对应的声纹特征。在一些实施例中,上述获取第一语音集合,包括:获取第二语音集合,其中,第二语音集合中包括的语音的数目大于第一语音集合中包括的语音的数目;将第二语音集合中的语音输入至预先训练的语音识别模型,得到与输入的语音对应的识别文本;根据所得到的识别文本的识别率,从第二语音集合中选取语音生成第一语音集合。在一些实施例中,上述根据所得到的识别文本的识别率,从第二语音集合中选取语音生成第一语音集合,包括:响应于确定所得到的识别文本的识别率大于预设阈值,将所得到的识别文本对应的语音输入至预先训练的语音质量检测模型,得到与输入的语音对应的质量得分;根据所得到的质量得分,从识别率大于预设阈值的识别文本对应的语音中选取语音生成第一语音集合。第二方面,本公开的实施例提供了一种用于训练语音合成模型的方法,该方法包括:获取训练样本集合,其中,训练样本集合包括如第一方面中任一实施例的方法生成的合成语音集合和与合成语音集合对应的第三数目个文本;获取初始语音合成模型;将训练样本集合中的训练样本的文本作为输入,将与输入的文本对应的合成语音作为期望输出,训练得到语音合成模型。在一些实施例中,该方法还包括:获取目标声纹特征;从训练样本集合中选取目标声纹特征对应的训练样本生成目标训练样本集合;将语音合成模型确定为初始目标声纹语音合成模型;将目标训练样本集合中的目标训练样本的文本作为输入,将与输入的文本对应的合成语音作为期望输出,训练得到目标声纹语音合成模型。第三方面,本公开的实施例提供了一种用于生成合成语音的装置,该装置包括:第一获取单元,被配置成获取第一数目个声纹特征;合成单元,被配置成利用第一数目个声纹特征合成第二数目个声纹特征,其中,第二数目大于第一数目;第二获取单元,被配置成获取第三数目个文本;生成单元,被配置成根据第二数目个声纹特征和第三数目个文本,生成合成语音集合。第四方面,本公开的实施例提供了一种用于训练语音合成模型的装置,该装置包括:第三获取单元,被配置成获取训练样本集合,其中,训练样本集合包括如第一方面中任一实施例的方法生成的合成语音集合和与合成语音集合对应的第三数目个文本;第四获取单元,被配置成获取初始语音合成模型;训练单元,被配置成将训练样本集合中的训练样本的文本作为输入,将与输入的文本对应的合成语音作为期望输出,训练得到语音合成模型。第五方面,本公开的实施例提供了一种用于生成合成语音的服务器,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行,使得该一个或多个处理器实现如上述用于生成合成语音的方法或用于训练语音合成模型的方法中任一实施例的方法。第六方面,本公开的实施例提供了一种用于生成合成语音的计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述用于生成合成语音的方法或用于训练语音合成模型的方法中任一实施例的方法。本公开的实施例提供的用于生成合成语音的方法和装置,通过所获取的第一数目个声纹特征合成第二数目个声纹特征。其中,第二数目大于第一数目。而后,根据第二数目个声纹特征和所获取的第三数目个文本,生成合成语音集合。实现了根据现有声纹特征扩增具有更多声纹特征的合成语音,从而为语料较少的训练样本扩增提供数据基础。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:图1是本公开的一个实施例可以应用于其中的示例性系统架构图;图2是根据本公开的用于生成合成语音的方法的一个实施例的流程图;图3是根据本公开的用于生成合成语音的方法的一个应用场景的示意图;图4是根据本公开的用于训练语音合成模型的方法的又一个实施例的流程图;图5是根据本公开的用于生成合成语音的装置的一个实施例的结构示意图;图6是根据本公开的用于训练语音合成模型的装置的一个实施例的结构示意图;图7是适于用来实现本公开的实施例的服务器的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本公开的实施例,而非对本公开的实施例的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开的实施例相关的部分。需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。图1示出了可以应用本公开的实施例的用于生成合成语音的方法或用于生成合成语音的装置的实施例的示例性系统架构100。如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送数据等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如视频播放软件、新闻资讯类应用、音频处理类应用、录音软件、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有麦克风并且支持音频录制的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模本文档来自技高网...

【技术保护点】
1.一种用于生成合成语音的方法,包括:/n获取第一数目个声纹特征;/n利用所述第一数目个声纹特征合成第二数目个声纹特征,其中,所述第二数目大于所述第一数目;/n获取第三数目个文本;/n根据所述第二数目个声纹特征和第三数目个文本,生成合成语音集合。/n

【技术特征摘要】
1.一种用于生成合成语音的方法,包括:
获取第一数目个声纹特征;
利用所述第一数目个声纹特征合成第二数目个声纹特征,其中,所述第二数目大于所述第一数目;
获取第三数目个文本;
根据所述第二数目个声纹特征和第三数目个文本,生成合成语音集合。


2.根据权利要求1所述的方法,其中,所述利用所述第一数目个声纹特征合成第二数目个声纹特征,包括:
从所述第一数目个声纹特征中选取声纹特征进行按比例融合操作,生成第二数目个声纹特征。


3.根据权利要求1或2所述的方法,其中,所述获取第一数目个声纹特征,包括:
获取第一语音集合,其中,所述第一语音集合中包括语种一致的语音;
将所述第一语音集合中的语音输入至预先训练的声纹识别模型,得到与输入的语音对应的声纹特征。


4.根据权利要求3所述的方法,其中,所述获取第一语音集合,包括:
获取第二语音集合,其中,所述第二语音集合中包括的语音的数目大于所述第一语音集合中包括的语音的数目;
将所述第二语音集合中的语音输入至预先训练的语音识别模型,得到与输入的语音对应的识别文本;
根据所得到的识别文本的识别率,从所述第二语音集合中选取语音生成所述第一语音集合。


5.根据权利要求4所述的方法,其中,所述根据所得到的识别文本的识别率,从所述第二语音集合中选取语音生成所述第一语音集合,包括:
响应于确定所得到的识别文本的识别率大于预设阈值,将所得到的识别文本对应的语音输入至预先训练的语音质量检测模型,得到与输入的语音对应的质量得分;
根据所得到的质量得分,从识别率大于预设阈值的识别文本对应的语音中选取语音生成所述第一语音集合。


6.一种用于训练语音合成模型的方法,包括:
获取训练样本集合,其中,所述训练样本集合包括如权利要求1-5之一所述的合成语音集合和与所述合成语音集合对...

【专利技术属性】
技术研发人员:殷翔
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1