语音合成方法、装置及计算机可读存储介质制造方法及图纸

技术编号：29205755 阅读：46 留言：0更新日期：2021-07-10 00:41

本公开实施例提供一种语音合成方法、装置及计算机可读存储介质，语音合成方法包括：响应于接收到的目标文本，将目标文本进行切分处理，得到目标文本对应的至少两个子文本；基于所述至少两个子文本生成至少两个合成子任务，其中，每个合成子任务用于指示将对应的子文本进行语音合成得到对应的音频数据，一个合成子任务对应一个子文本；基于目标文本的请求时间以及子文本在目标文本中的顺序，确定至少两个合成子任务中每个合成子任务的处理优先级；基于处理优先级执行合成子任务，得到合成子任务对应的音频数据。本公开实施例用于语音合成。本公开实施例用于语音合成。本公开实施例用于语音合成。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法、装置及计算机可读存储介质

[0001]本公开实施例涉及计算机
，尤其涉及一种语音合成方法、装置及计算机可读存储介质。

技术介绍

[0002]语音合成技术可以将文字数据转换为音频数据进行播放，在许多技术有着广泛应用，例如，在线教育行业，翻译行业等。通常，可以利用语音合成模型对文字数据进行语音合成得到音频数据，但语音合成模型在速度上往往不能满足实时性要求。

技术实现思路

[0003]有鉴于此，本公开实施例提供一种语音合成方法、装置及计算机可读存储介质，用以改善因为合成模型的处理速度，导致语音合成实时性差的缺陷。
[0004]第一方面，本公开实施例提供了一种语音合成方法，其包括：响应于接收到的目标文本，将目标文本进行切分处理，得到目标文本对应的至少两个子文本；基于至少两个子文本生成至少两个合成子任务，其中，每个合成子任务用于指示将对应的子文本进行语音合成得到对应的音频数据，一个合成子任务对应一个子文本；基于目标文本的请求时间以及子文本在目标文本中的顺序，确定至少两个合成子任务中每个合成子任务的处理优先级；基于处理优先级执行合成子任务，得到合成子任务对应的音频数据。
[0005]第二方面，本公开实施例提供了一种语音合成装置，其包括：切分模块，配置为响应于接收到的目标文本，将目标文本进行切分处理，得到目标文本对应的至少两个子文本；任务模块，配置为基于至少两个子文本并生成至少两个合成子任务，其中，每个合成子任务用于指示将对应的子文本进行语音合成得到对应的音频数据，一个合成子任务...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，其特征在于，包括：响应于接收到的目标文本，将所述目标文本进行切分处理，得到所述目标文本对应的至少两个子文本；基于所述至少两个子文本生成至少两个合成子任务，其中，每个所述合成子任务用于指示将对应的所述子文本进行语音合成得到对应的音频数据，一个所述合成子任务对应一个所述子文本；基于所述目标文本的请求时间以及所述子文本在所述目标文本中的顺序，确定所述至少两个合成子任务中每个合成子任务的处理优先级；基于所述处理优先级执行所述合成子任务，得到所述合成子任务对应的音频数据。2.根据权利要求1所述的方法，其特征在于，所述目标文本的数量为至少两个，所述基于所述目标文本的请求时间以及所述子文本在所述目标文本中的顺序，确定所述至少两个合成子任务中每个合成子任务的处理优先级，包括：根据所述合成子任务所属的目标文本的请求时间以及所述子文本在所述目标文本中的顺序，得到所述至少两个合成子任务中每个合成子任务的交付时间，每个所述合成子任务的交付时间用于指示完成所述合成子任务的时间；基于交付时间确定所述至少两个合成子任务的处理优先级。3.根据权利要求2所述的方法，其特征在于，所述根据所述合成子任务所属的目标文本的请求时间以及所述子文本在所述目标文本中的顺序，得到所述至少两个合成子任务中每个合成子任务的交付时间，包括：对于每个所述合成子任务，根据所述子文本在所述目标文本中的顺序确定所述合成子任务对应的子文本的偏移时间，所述偏移时间用于指示所述合成子任务开始执行的时间相对于所述合成子任务所属的目标文本的请求时间的偏移量；根据所述合成子任务所属的目标文本的请求时间，所述合成子任务对应的子文本的偏移时间，以及语音合成的处理速度确定所述合成子任务的交付时间。4.根据权利要求2所述的方法，其特征在于，所述方法还包括：在所述合成子任务完成并得到所述合成子任务的音频数据时，基于所述合成子任务的交付时间输出所述音频数据。5.根据权利要求1所述的方法，其特征在于，所述切分处理包括分词，并且其中，所述将所述目标文本进行切分处理，得到所述目标文本对应的至少两个子文本，包括：将所述目标文本进行分词得到m个词组，m为大于0的整数；基于所述m个词组确定所述目标文本对应的至少两个子文本。6.根据权利要求5所述的方法，其特征在于，所述切分处理还包括重组，并且其中，所述基于所述m个词组确定所述目标文本对应的至少两个子文本，包括：基于语音合成的处理速度，将所述m个词组进行重组得到n个子文本，n为大于0的整数，且n≤m。7.根据权利要求1所述的方法...

【专利技术属性】
技术研发人员：徐灿，叶旭文，
申请(专利权)人：北京世纪好未来教育科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人