语音合成及播报方法、教学方法、直播方法及装置制造方法及图纸

技术编号：35124289 阅读：12 留言：0更新日期：2022-10-05 09:54

公开了一种语音合成及播报方法、教学方法、直播方法及装置。基于在线语音合成服务针对第一文本合成第一音频数据；响应于所述在线语音合成服务不可用，基于本地语音合成服务针对第二文本合成第二音频数据，所述第二音频数据的音色与至少部分所述第一音频数据的音色的相似度大于或等于第一阈值。由此，在从在线语音合成服务切换到本地语音合成服务，基于本地语音合成服务进行语音合成时，通过合成音色与基于在线语音合成服务合成的至少部分第一音频数据的音色大于或等于第一阈值的第二音频数据，使得用户在听觉上可以得到自然流畅的语音合成体验。语音合成体验。语音合成体验。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成及播报方法、教学方法、直播方法及装置

[0001]本公开涉及数据处理领域，特别是涉及一种语音合成及播报方法、教学方法、直播方法及装置。

技术介绍

[0002]语音合成(text
‑
to
‑
speech，TTS)技术是一种将文本转化为语音输出的技术。随着AI浪潮的发展，语音合成的应用场景越来越广泛，比如智能音箱、虚拟助手、有声读物等。
[0003]受限于端测设备(包括手机以及其它嵌入式设备等)的资源有限性，在将语音合成应用于端侧设备时，如何在保证语音合成效果的同时尽可能降低语音合成成本，是目前亟需解决的问题。
[0004]即，需要一种能够在保证语音合成效果的同时尽可能降低语音合成成本的语音合成方案。

技术实现思路

[0005]本公开要解决的一个技术问题是提供一种能够在保证语音合成效果的同时尽可能降低语音合成成本的语音合成方案。
[0006]根据本公开的第一个方面，提供了一种语音合成方法，包括：基于在线语音合成服务针对第一文本合成第一音频数据；响应于在线语音合成服务不可用，基于本地语音合成服务针对第二文本合成第二音频数据，第二音频数据的音色与至少部分第一音频数据的音色的相似度大于或等于第一阈值。
[0007]根据本公开的第二个方面，提供了一种语音合成方法，包括：基于本地语音合成服务针对第三文本合成第三音频数据；响应于在线语音合成服务可用，基于在线语音合成服务针对第四文本合成第四音频数据，第四音频数据的音色与至少部分第三音频数据的音...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，包括：基于在线语音合成服务针对第一文本合成第一音频数据；响应于所述在线语音合成服务不可用，基于本地语音合成服务针对第二文本合成第二音频数据，所述第二音频数据的音色与至少部分所述第一音频数据的音色的相似度大于或等于第一阈值。2.根据权利要求1所述的方法，其中，所述基于本地语音合成服务针对第二文本合成第二音频数据的步骤包括：从多个声学模型中选择合成语音的音色与所述至少部分所述第一音频数据的音色的相似度大于或等于第一阈值的声学模型；使用选择的声学模型针对所述第二文本进行语音合成，得到所述第二音频数据。3.根据权利要求2所述的方法，其中，所述从多个声学模型中选择合成语音的音色与所述至少部分所述第一音频数据的音色相似度大于或等于第一阈值的声学模型的步骤包括：获取分别使用不同声学模型针对至少部分第一音频数据对应的文本合成的第三音频数据；计算各个所述第三音频数据分别与所述至少部分第一音频数据之间的相似度；选择相似度排名靠前或相似度大于或等于第二阈值的第三音频数据所对应的声学模型。4.根据权利要求2所述的方法，其中，所述从多个声学模型中选择合成语音的音色与所述至少部分所述第一音频数据的音色相似度大于或等于第一阈值的声学模型的步骤包括：响应于用户的第一交互指令，从所述多个声学模型中选择用于针对所述第二文本进行语音合成的声学模型，并且/或者该方法还包括：响应于用户的第二交互指令，更换所选择的声学模型。5.根据权利要求2所述的方法，其中，所述声学模型为使用机器学习算法训练得到的发音人模型，所述发音人模型用于输出声学参数或音频数据。6.根据权利要求1所述的方法，其中，所述在线语音合成服务基于语音库合成语音，所述语音库包括一个或多个音频素材集合，每个所述音频素材集合对应一种发音人，所述本地语音合成服从多个声学模型中选择声学模型合成语音，该方法还包括：预先确定与所述音频素材集合对应的声学模型，其中，基于与所述音频素材集合对应的声学模型合成的音频数据的音色与所述音频素材集合一致或基本一致，基于本地语音合成服务针对第二文本合成第二音频数据的步骤包括：使用与合成所述第一音频数据时使用的音频素材集合对应的声学模型，针对所述第二文本合成第二音频数据。7.根据权利要求1所述的方法，还包括：保存所述第一音频数据和/或所述第二音频数据。8.一种语音合成方法，包括：基于本地语音合成服务针对第三文本合成第三音频数据；响应于在线语音合成服务可用，基于所述在线语音合成服务针对第四文本合成第四音频数据，所述第四音频数据的音色与至少部分所述第三音频数据的音色的相似度大于或等
于第一阈值。9.一种语音播报方法，包括：获取基于在线语音合成服务针对第一文本合成的第一音频数据；响应于所述在线语音合成服务不可用，获取基于本地语音合成服务针对第二文本合成的第二音频数据，所述第二音频数据的音色与至少部分所述第一音频数据的音色的相似度大于或等于第一阈值；以及播报所述第一音频数据和/或所述第二音频数据。10.根据权利要求9所述的方法，还包括：保存所述第一音频数据和/或所述第二音频数据。11.根据权利要求9所述的方法，其中，待合成语音的文本为客户端应用程序提供的内容，待合成语音的文本包括所述第一文本和所述第二文本，该方法还包括：判断与所述客户端应用程序对应的服务器是否存在与待合成语音的文本对应的音频数据；在判定所述服务器存在与待合成语音的文本对应的音频数据的情况下，从所述服务器获取所述音频数据。12.根据权利要求11所述的方法，还包括：在判定服务器不存在与待合成语音的文本对应的音频数据的情况下，判断本地是否存在与待合成语音的文本对应的音频数据；在判定本地不存在与待合成语音的文本对应的音频数据的情况下，执行所述获取基于在线语音合成服务针对第一文本合成的第一音频数据的步骤。13.根据权利要求9所述的方法，还包括：获取待播报内容；对所述待播报内容进行解析，确定所述待播报内容中存在的待合成语音的文本和/或与语音播报相关的参数信息，其中，播报所述第一音频数据和/或所述第二音频数据的步骤包括：基于所述参数信息播报所述第一音频数据和/...

【专利技术属性】
技术研发人员：韩卫生，万玉龙，高杰，
申请(专利权)人：阿里巴巴新加坡控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人