语音合成方法、装置及计算机可读存储介质制造方法及图纸

技术编号:29205755 阅读:46 留言:0更新日期:2021-07-10 00:41
本公开实施例提供一种语音合成方法、装置及计算机可读存储介质,语音合成方法包括:响应于接收到的目标文本,将目标文本进行切分处理,得到目标文本对应的至少两个子文本;基于所述至少两个子文本生成至少两个合成子任务,其中,每个合成子任务用于指示将对应的子文本进行语音合成得到对应的音频数据,一个合成子任务对应一个子文本;基于目标文本的请求时间以及子文本在目标文本中的顺序,确定至少两个合成子任务中每个合成子任务的处理优先级;基于处理优先级执行合成子任务,得到合成子任务对应的音频数据。本公开实施例用于语音合成。本公开实施例用于语音合成。本公开实施例用于语音合成。

【技术实现步骤摘要】
语音合成方法、装置及计算机可读存储介质


[0001]本公开实施例涉及计算机
,尤其涉及一种语音合成方法、装置及计算机可读存储介质。

技术介绍

[0002]语音合成技术可以将文字数据转换为音频数据进行播放,在许多技术有着广泛应用,例如,在线教育行业,翻译行业等。通常,可以利用语音合成模型对文字数据进行语音合成得到音频数据,但语音合成模型在速度上往往不能满足实时性要求。

技术实现思路

[0003]有鉴于此,本公开实施例提供一种语音合成方法、装置及计算机可读存储介质,用以改善因为合成模型的处理速度,导致语音合成实时性差的缺陷。
[0004]第一方面,本公开实施例提供了一种语音合成方法,其包括:响应于接收到的目标文本,将目标文本进行切分处理,得到目标文本对应的至少两个子文本;基于至少两个子文本生成至少两个合成子任务,其中,每个合成子任务用于指示将对应的子文本进行语音合成得到对应的音频数据,一个合成子任务对应一个子文本;基于目标文本的请求时间以及子文本在目标文本中的顺序,确定至少两个合成子任务中每个合成子任务的处理优先级;基于处理优先级执行合成子任务,得到合成子任务对应的音频数据。
[0005]第二方面,本公开实施例提供了一种语音合成装置,其包括:切分模块,配置为响应于接收到的目标文本,将目标文本进行切分处理,得到目标文本对应的至少两个子文本;任务模块,配置为基于至少两个子文本并生成至少两个合成子任务,其中,每个合成子任务用于指示将对应的子文本进行语音合成得到对应的音频数据,一个合成子任务对应一个子文本;优先级模块,配置为基于目标文本的请求时间以及子文本在目标文本中的顺序,确定至少两个合成子任务中每个合成子任务的处理处理优先级;语音合成模块,配置为基于按照确定的处理处理优先级执行合成子任务,得到合成子任务对应的音频数据。
[0006]第三方面,本公开实施例提供了一种电子设备,其包括:至少一个处理器和存储器。存储器存储有至少一个程序,至少一个程序在被至少一个处理器执行时,使得至少一个处理器实现根据本公开实施例的方法。
[0007]第四方面,本申请公开实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序在被处理器执行时,使所述处理器实现根据本公开如第一方面或第一方面的任意一些实施例所描述的语音合成方法。
[0008]本公开实施例提供的语音合成方法、装置及计算机可读存储介质,响应于接收到的目标文本,将目标文本进行切分处理,得到目标文本对应的至少两个子文本;基于所 述至少两个子文本生成至少两个合成子任务,其中,每个合成子任务 用于指示将对应的子文本进行语音合成得到对应的音频数据,一个合成子任务对应一个子文本;基于目标文本的请求时间以及子文本在目标文本中的顺序,确定至少两个合成子任务中每个合成子任务的
处理优先级;基于处理优先级执行合成子任务,得到合成子任务对应的音频数据。因为将目标文本切分为至少两个子文本,并生成至少两个合成子任务,使得一个目标文本可以按照合成子任务多次交付,只要完成一个合成子任务,就可以输出一段对应的音频数据,提高了语音合成的实时性。
附图说明
[0009]后文将参照附图以示例性而非限制性的方式详细描述本公开实施例的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比值绘制的。附图中:图1为根据本公开实施例的一种语音合成方法的流程图;图2为根据本公开实施例的一种切分效果示意图;图3为根据本公开实施例的一种处理优先级示意图;图4为根据本公开实施例的一种并行处理的效果示意图;图5为根据本公开实施例的一种语音合成方法的架构图;图6为根据本公开实施例的一种语音合成装置的结构图;图7为根据本公开实施例的一种电子设备的结构图。
具体实施方式
[0010]下面结合本公开实施例附图进一步说明本公开实施例具体实现。
实施例
[0011]图1为根据本公开实施例的一种语音合成方法的流程图。该语音合成方法包括以下步骤:101、响应于接收到的目标文本,将目标文本进行切分处理,得到目标文本对应的至少两个子文本。
[0012]在本公开中,文本包含文字信息,或者文本用于记录文字信息,目标文本是等待进行语音合成的文本,目标文本的数量可以是一个或多个。语音合成指的是将根据文本生成该文本对应的音频数据,或者说将文本转换为音频。
[0013]需要说明的是,目标文本的数量可以是至少一个,对每个目标文本都可以进行切分处理。目标文本可以是通过语音合成请求获得的,可选地,在一种示例中,接收至少一个语音合成请求,一个语音合成请求对应至少一个目标文本,语音合成请求用于指示将对应的目标文本转换为音频数据输出。此处只是示例性说明。
[0014]可选地,在本公开的一些实施例中,切分处理包括分词,并且其中,将目标文本进行切分处理,得到目标文本对应的至少两个子文本,包括:将目标文本进行分词得到m个词组,m为大于0的整数;基于m个词组确定目标文本对应的至少两个子文本。进一步可选地,在本公开的另一些实施例中,切分处理还包括重组,并且其中,基于m个词组确定目标文本对应的至少两个子文本,包括:基于语音合成的处理速度,将m个词组进行重组得到n个子文本,n为大于0的整数,且n≤m。需要说明的是,一个词组可以是最小的语音合成单位,一个词组可以包含一个或多个文字,一个子文本可以包含一个或多个连续的词组。在本公开中,文
本包含的文字可以是汉语文字、英语文字、日语文字等各种语言文字。示例性地,如图2所示,图2根据为本公开实施例的一种切分效果示意图,图2示出了一个目标文本21,该目标文本21包含文字“中华人民共和国是一个伟大的国家”,对该目标文本进行分词后,得到6个词组22,分别为:“中华人民共和国”、“是”、“一个”、“伟大”、“的”、“国家”,这些词组是最小的语音合成单元,不可再分割,然后将“中华人民共和国”作为一个子文本23,将“是”和“一个”组成一个子文本23,将“伟大”、“的”、“国家”组成一个子文本23,得到3个子文本。此处只是示例性说明。
[0015]102、基于至少两个子文本生成至少两个合成子任务。
[0016]其中,每个合成子任务用于指示将对应的子文本进行语音合成得到对应的音频数据,一个合成子任务对应一个子文本。需要说明的是,如果目标文本有多个,可以对每个目标文本进行切分处理得到至少一个子文本,所有目标文本切分处理得到的子文本的集合即为目标文本对应的至少两个子文本。
[0017]可选地,在本公开的一些实施例中,可以是每一个子文本都生成一个合成子任务,也可以是部分子文本生成合成子任务,基于所述至少两个子文本生成至少两个合成子任务,包括:响应于确定缓存数据库中包含子文本对应的音频数据,从缓存数据库中获取音频数据;以及响应于确定缓存数据库中不包含子文本对应的音频数据,则对子文本生成合成子任务;得到至少两个合成子任务。如果缓存数据库中包含子文本对应的音频数据,则本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:响应于接收到的目标文本,将所述目标文本进行切分处理,得到所述目标文本对应的至少两个子文本;基于所述至少两个子文本生成至少两个合成子任务,其中,每个所述合成子任务用于指示将对应的所述子文本进行语音合成得到对应的音频数据,一个所述合成子任务对应一个所述子文本;基于所述目标文本的请求时间以及所述子文本在所述目标文本中的顺序,确定所述至少两个合成子任务中每个合成子任务的处理优先级;基于所述处理优先级执行所述合成子任务,得到所述合成子任务对应的音频数据。2.根据权利要求1所述的方法,其特征在于,所述目标文本的数量为至少两个,所述基于所述目标文本的请求时间以及所述子文本在所述目标文本中的顺序,确定所述至少两个合成子任务中每个合成子任务的处理优先级,包括:根据所述合成子任务所属的目标文本的请求时间以及所述子文本在所述目标文本中的顺序,得到所述至少两个合成子任务中每个合成子任务的交付时间,每个所述合成子任务的交付时间用于指示完成所述合成子任务的时间;基于交付时间确定所述至少两个合成子任务的处理优先级。3.根据权利要求2所述的方法,其特征在于,所述根据所述合成子任务所属的目标文本的请求时间以及所述子文本在所述目标文本中的顺序,得到所述至少两个合成子任务中每个合成子任务的交付时间,包括:对于每个所述合成子任务,根据所述子文本在所述目标文本中的顺序确定所述合成子任务对应的子文本的偏移时间,所述偏移时间用于指示所述合成子任务开始执行的时间相对于所述合成子任务所属的目标文本的请求时间的偏移量;根据所述合成子任务所属的目标文本的请求时间,所述合成子任务对应的子文本的偏移时间,以及语音合成的处理速度确定所述合成子任务的交付时间。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:在所述合成子任务完成并得到所述合成子任务的音频数据时,基于所述合成子任务的交付时间输出所述音频数据。5.根据权利要求1所述的方法,其特征在于,所述切分处理包括分词,并且其中,所述将所述目标文本进行切分处理,得到所述目标文本对应的至少两个子文本,包括:将所述目标文本进行分词得到m个词组,m为大于0的整数;基于所述m个词组确定所述目标文本对应的至少两个子文本。6.根据权利要求5所述的方法,其特征在于,所述切分处理还包括重组,并且其中,所述基于所述m个词组确定所述目标文本对应的至少两个子文本,包括:基于语音合成的处理速度,将所述m个词组进行重组得到n个子文本,n为大于0的整数,且n≤m。7.根据权利要求1所述的方法...

【专利技术属性】
技术研发人员:徐灿叶旭文
申请(专利权)人:北京世纪好未来教育科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1