一种语音合成方法、装置、设备及存储介质制造方法及图纸

技术编号：46596187 阅读：1 留言：0更新日期：2025-10-10 21:29

本申请公开了一种语音合成方法、装置、设备及存储介质，属于语音合成技术领域，用以降低语音合成过程中用户的等待时间。所述方法包括：获取用于进行语音合成的目标文本，并对目标文本采用多种预设的短句切分方式进行切分，得到多个第一短句字符串；基于各第一短句的字符长度，通过预设对应关系表确定各第一短句对应的第一长度和第一耗时；基于各第一短句对应的第一长度确定各第一短句生成语音后的第一时长，以根据各第一短句对应的第一时长和第一耗时，确定对各第一短句字符串进行流式语音合成时用户的等待时间；将等待时间小于预设阈值的第一短句字符串确定为目标短句字符串，并基于目标短句字符串进行流式语音合成。

全部详细技术资料下载

【技术实现步骤摘要】

本申请属于语音合成，具体涉及一种语音合成方法、装置、设备及存储介质。

技术介绍

1、现有的语音合成方法基本都是采用基于encoder-decoder架构的语音生成(tts)模型，以一段文本作为输入，生成语音向量序列作为输出，其语音生成的速度取决于输入文本的长度、tts模型参数量、模型运行的硬件环境等。在tts模型参数量、模型运行的硬件环境一定时，向模型中输入文本的长度越长，模型计算语音的速度就会越慢，而在一些实时或者近实时的场景下(比如数字人语音问答场景)，则需要缩短用户的等待时间以提升用户体验。

2、因此，需要一种能够降低语音合成过程中用户的等待时间的语音合成方法。

技术实现思路

1、本申请实施例提供一种语音合成方法，能够降低语音合成过程中用户的等待时间。

2、第一方面，本申请实施例提供了一种语音合成方法，该方法包括：获取用于进行语音合成的目标文本，并对所述目标文本采用多种预设的短句切分方式进行切分，得到多个第一短句字符串，各所述第一短句字符串中均包括多个第一短句...

【技术保护点】

1.一种语音合成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述目标文本采用多种预设的短句切分方式进行切分，得到多个第一短句字符串，包括：

3.根据权利要求2所述的方法，其特征在于，在所述将所述第二短句字符串中的第二短句和第二相邻短句进行合并，得到第三短句字符串之后，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，在基于各所述第一短句的字符长度，通过预设对应关系表确定各所述第一短句对应的第一长度和第一耗时之前，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述基于各所述第一短句对应的所...

【技术特征摘要】

1.一种语音合成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述目标文本采用多种预设的短句切分方式进行切分，得到多个第一短句字符串，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于各所述第一短句对应的所述第一长度确定各所...

【专利技术属性】
技术研发人员：姬新县，肖贺军，刘妮妮，吴扬峰，李阳，孙淼，张岩，许大虎，
申请(专利权)人：中移雄安信息通信科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人