语音合成及播报方法、教学方法、直播方法及装置制造方法及图纸

技术编号:35124289 阅读:12 留言:0更新日期:2022-10-05 09:54
公开了一种语音合成及播报方法、教学方法、直播方法及装置。基于在线语音合成服务针对第一文本合成第一音频数据;响应于所述在线语音合成服务不可用,基于本地语音合成服务针对第二文本合成第二音频数据,所述第二音频数据的音色与至少部分所述第一音频数据的音色的相似度大于或等于第一阈值。由此,在从在线语音合成服务切换到本地语音合成服务,基于本地语音合成服务进行语音合成时,通过合成音色与基于在线语音合成服务合成的至少部分第一音频数据的音色大于或等于第一阈值的第二音频数据,使得用户在听觉上可以得到自然流畅的语音合成体验。语音合成体验。语音合成体验。

【技术实现步骤摘要】
语音合成及播报方法、教学方法、直播方法及装置


[0001]本公开涉及数据处理领域,特别是涉及一种语音合成及播报方法、教学方法、直播方法及装置。

技术介绍

[0002]语音合成(text

to

speech,TTS)技术是一种将文本转化为语音输出的技术。随着AI浪潮的发展,语音合成的应用场景越来越广泛,比如智能音箱、虚拟助手、有声读物等。
[0003]受限于端测设备(包括手机以及其它嵌入式设备等)的资源有限性,在将语音合成应用于端侧设备时,如何在保证语音合成效果的同时尽可能降低语音合成成本,是目前亟需解决的问题。
[0004]即,需要一种能够在保证语音合成效果的同时尽可能降低语音合成成本的语音合成方案。

技术实现思路

[0005]本公开要解决的一个技术问题是提供一种能够在保证语音合成效果的同时尽可能降低语音合成成本的语音合成方案。
[0006]根据本公开的第一个方面,提供了一种语音合成方法,包括:基于在线语音合成服务针对第一文本合成第一音频数据;响应于在线语音合成服务不可用,基于本地语音合成服务针对第二文本合成第二音频数据,第二音频数据的音色与至少部分第一音频数据的音色的相似度大于或等于第一阈值。
[0007]根据本公开的第二个方面,提供了一种语音合成方法,包括:基于本地语音合成服务针对第三文本合成第三音频数据;响应于在线语音合成服务可用,基于在线语音合成服务针对第四文本合成第四音频数据,第四音频数据的音色与至少部分第三音频数据的音色的相似度大于或等于第一阈值。
[0008]根据本公开的第三个方面,提供了一种语音播报方法,包括:获取基于在线语音合成服务针对第一文本合成的第一音频数据;响应于在线语音合成服务不可用,获取基于本地语音合成服务针对第二文本合成的第二音频数据,第二音频数据的音色与至少部分第一音频数据的音色的相似度大于或等于第一阈值;以及播报第一音频数据和/或第二音频数据。
[0009]根据本公开的第四个方面,提供了一种语音播报方法,包括:获取基于本地语音合成服务针对第三文本合成的第三音频数据;响应于在线语音合成服务可用,获取基于在线语音合成服务针对第四文本合成的第四音频数据,第四音频数据的音色与至少部分第三音频数据的音色的相似度大于或等于第一阈值;以及播报第三音频数据和/或第四音频数据。
[0010]根据本公开的第五个方面,提供了一种教学方法,包括:确定与学生提出的问题对应的答案;获取基于在线语音合成服务针对第一部分答案合成的第一音频数据;响应于在线语音合成服务不可用,获取基于本地语音合成服务针对第二部分答案合成的第二音频数
据,第二音频数据的音色与至少部分第一音频数据的音色的相似度大于或等于第一阈值;以及播报第一音频数据和/或第二音频数据。
[0011]根据本公开的第六个方面,提供了一种直播方法,包括:获取基于在线语音合成服务针对第一部分待播报内容合成的第一音频数据;响应于在线语音合成服务不可用,获取基于本地语音合成服务针对第二部分待播报内容合成的第二音频数据,第二音频数据的音色与至少部分第一音频数据的音色的相似度大于或等于第一阈值;以及在呈现直播画面的过程中播报第一音频数据和/或第二音频数据。
[0012]根据本公开的第七个方面,提供了一种语音合成装置,包括:第一合成模块,用于基于在线语音合成服务针对第一文本合成第一音频数据;和第二合成模块,用于响应于在线语音合成服务不可用,基于本地语音合成服务针对第二文本合成第二音频数据,第二音频数据的音色与至少部分第一音频数据的音色的相似度大于或等于第一阈值。
[0013]根据本公开的第八个方面,提供了一种语音合成装置,包括:第一合成模块,用于基于本地语音合成服务针对第三文本合成第三音频数据;第二合成模块,用于响应于在线语音合成服务可用,基于在线语音合成服务针对第四文本合成第四音频数据,第四音频数据的音色与至少部分第三音频数据的音色的相似度大于或等于第一阈值。
[0014]根据本公开的第九个方面,提供了一种语音播报装置,包括:第一获取模块,用于获取基于在线语音合成服务针对第一文本合成的第一音频数据;第二获取模块,用于响应于在线语音合成服务不可用,获取基于本地语音合成服务针对第二文本合成的第二音频数据,第二音频数据的音色与至少部分第一音频数据的音色的相似度大于或等于第一阈值;以及播报模块,用于播报第一音频数据和/或第二音频数据。
[0015]根据本公开的第十个方面,提供了一种语音播报装置,包括:第一获取模块,用于获取基于本地语音合成服务针对第三文本合成的第三音频数据;第二获取模块,用于响应于在线语音合成服务可用,获取基于在线语音合成服务针对第四文本合成的第四音频数据,第四音频数据的音色与至少部分第三音频数据的音色的相似度大于或等于第一阈值似;以及播报模块,用于播报第三音频数据和/或第四音频数据。
[0016]根据本公开的第十一个方面,提供了一种教学装置,包括:确定模块,用于确定与学生提出的问题对应的答案;第一获取模块,用于获取基于在线语音合成服务针对第一部分答案合成的第一音频数据;第二获取模块,用于响应于在线语音合成服务不可用,获取基于本地语音合成服务针对第二部分答案合成的第二音频数据,第二音频数据的音色与至少部分第一音频数据的音色的相似度大于或等于第一阈值;以及播报模块,用于播报第一音频数据和/或第二音频数据。
[0017]根据本公开的第十二个方面,提供了一种直播装置,包括:第一获取模块,用于获取基于在线语音合成服务针对第一部分待播报内容合成的第一音频数据;第一获取模块,用于响应于在线语音合成服务不可用,获取基于本地语音合成服务针对第二部分待播报内容合成的第二音频数据,第二音频数据的音色与至少部分第一音频数据的音色的相似度大于或等于第一阈值;以及播报模块,用于在呈现直播画面的过程中播报第一音频数据和/或第二音频数据。
[0018]根据本公开的第十三个方面,提供了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当可执行代码被处理器执行时,使处理器执行如上述第一方面至第
六方面中任一方面所述的方法。
[0019]根据本公开的第十四个方面,提供了一种非暂时性机器可读存储介质,其上存储有可执行代码,当可执行代码被电子设备的处理器执行时,使处理器执行如上述第一方面至第六方面中任一方面所述的方法。
[0020]由此,在从在线语音合成服务切换到本地语音合成服务,基于本地语音合成服务进行语音合成时,通过合成音色与基于在线语音合成服务合成的至少部分第一音频数据的音色的相似度大于或等于第一阈值的第二音频数据,使得用户在听觉上可以得到自然流畅的语音合成体验。
附图说明
[0021]通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
[0022]图1示出了根据本公开一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,包括:基于在线语音合成服务针对第一文本合成第一音频数据;响应于所述在线语音合成服务不可用,基于本地语音合成服务针对第二文本合成第二音频数据,所述第二音频数据的音色与至少部分所述第一音频数据的音色的相似度大于或等于第一阈值。2.根据权利要求1所述的方法,其中,所述基于本地语音合成服务针对第二文本合成第二音频数据的步骤包括:从多个声学模型中选择合成语音的音色与所述至少部分所述第一音频数据的音色的相似度大于或等于第一阈值的声学模型;使用选择的声学模型针对所述第二文本进行语音合成,得到所述第二音频数据。3.根据权利要求2所述的方法,其中,所述从多个声学模型中选择合成语音的音色与所述至少部分所述第一音频数据的音色相似度大于或等于第一阈值的声学模型的步骤包括:获取分别使用不同声学模型针对至少部分第一音频数据对应的文本合成的第三音频数据;计算各个所述第三音频数据分别与所述至少部分第一音频数据之间的相似度;选择相似度排名靠前或相似度大于或等于第二阈值的第三音频数据所对应的声学模型。4.根据权利要求2所述的方法,其中,所述从多个声学模型中选择合成语音的音色与所述至少部分所述第一音频数据的音色相似度大于或等于第一阈值的声学模型的步骤包括:响应于用户的第一交互指令,从所述多个声学模型中选择用于针对所述第二文本进行语音合成的声学模型,并且/或者该方法还包括:响应于用户的第二交互指令,更换所选择的声学模型。5.根据权利要求2所述的方法,其中,所述声学模型为使用机器学习算法训练得到的发音人模型,所述发音人模型用于输出声学参数或音频数据。6.根据权利要求1所述的方法,其中,所述在线语音合成服务基于语音库合成语音,所述语音库包括一个或多个音频素材集合,每个所述音频素材集合对应一种发音人,所述本地语音合成服从多个声学模型中选择声学模型合成语音,该方法还包括:预先确定与所述音频素材集合对应的声学模型,其中,基于与所述音频素材集合对应的声学模型合成的音频数据的音色与所述音频素材集合一致或基本一致,基于本地语音合成服务针对第二文本合成第二音频数据的步骤包括:使用与合成所述第一音频数据时使用的音频素材集合对应的声学模型,针对所述第二文本合成第二音频数据。7.根据权利要求1所述的方法,还包括:保存所述第一音频数据和/或所述第二音频数据。8.一种语音合成方法,包括:基于本地语音合成服务针对第三文本合成第三音频数据;响应于在线语音合成服务可用,基于所述在线语音合成服务针对第四文本合成第四音频数据,所述第四音频数据的音色与至少部分所述第三音频数据的音色的相似度大于或等
于第一阈值。9.一种语音播报方法,包括:获取基于在线语音合成服务针对第一文本合成的第一音频数据;响应于所述在线语音合成服务不可用,获取基于本地语音合成服务针对第二文本合成的第二音频数据,所述第二音频数据的音色与至少部分所述第一音频数据的音色的相似度大于或等于第一阈值;以及播报所述第一音频数据和/或所述第二音频数据。10.根据权利要求9所述的方法,还包括:保存所述第一音频数据和/或所述第二音频数据。11.根据权利要求9所述的方法,其中,待合成语音的文本为客户端应用程序提供的内容,待合成语音的文本包括所述第一文本和所述第二文本,该方法还包括:判断与所述客户端应用程序对应的服务器是否存在与待合成语音的文本对应的音频数据;在判定所述服务器存在与待合成语音的文本对应的音频数据的情况下,从所述服务器获取所述音频数据。12.根据权利要求11所述的方法,还包括:在判定服务器不存在与待合成语音的文本对应的音频数据的情况下,判断本地是否存在与待合成语音的文本对应的音频数据;在判定本地不存在与待合成语音的文本对应的音频数据的情况下,执行所述获取基于在线语音合成服务针对第一文本合成的第一音频数据的步骤。13.根据权利要求9所述的方法,还包括:获取待播报内容;对所述待播报内容进行解析,确定所述待播报内容中存在的待合成语音的文本和/或与语音播报相关的参数信息,其中,播报所述第一音频数据和/或所述第二音频数据的步骤包括:基于所述参数信息播报所述第一音频数据和/...

【专利技术属性】
技术研发人员:韩卫生万玉龙高杰
申请(专利权)人:阿里巴巴新加坡控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1