一种文本转语音的处理方法、终端及服务器技术

技术编号:29280903 阅读:13 留言:0更新日期:2021-07-16 23:17
一种文本转语音的处理方法、终端及服务器,用以降低终端播放语音的时延。本文方法及装置可应用于人工智能、人机交互等领域。其中,终端检测到用于指示文本转语音的指令;将所述文本发送服务器;从所述服务器下载由所述文本转换而成的音频数据;判断预设时长内是否下载到首帧可以播放的音频数据;若预设时长内下载到首帧可以播放的音频数据,继续下载剩余的音频数据。频数据。频数据。

A processing method, terminal and server for converting text to speech

【技术实现步骤摘要】
一种文本转语音的处理方法、终端及服务器


[0001]本申请涉及音频
,尤其涉及一种文本转语音的处理方法、终端及服务器。

技术介绍

[0002]目前,文本到语音(text to speech,TTS)技术成为人机对话的重要技术,实现了“让机器说话”的目的。TTS技术的用途很广,包括电子邮件的阅读、语音助手、语音提示等等。
[0003]TTS技术主要是将每个文字转换成对应的语音,然后将语音拼接(或称为合成)为音频流来播放。目前,语音合成主要包括离线合成和在线合成。离线合成可以由终端自行实现,但是需要终端内存储海量文字对应的语音。在线合成可以是服务器合成。具体来说,终端连接到服务器,将文本发送服务器,服务器将文本对应的音频合成音频流之后,将音频流发送给终端播放。
[0004]但是,在线合成过程中,服务器返回音频流的时间无法控制。例如,终端连接服务器之后,服务器合成音频流较慢,花费较长时间才返回音频流,导致终端播放音频的时延较长,影响用户体验。

技术实现思路

[0005]本申请的目的在于提供了一种文本转语音的处理方法、终端以及服务器,用以降低终端播放语音的时延。
[0006]第一方面,提供一种文本转语音的处理方法,该方法可以由终端执行或者由终端中的芯片执行。该方法包括:检测到用于指示文本转语音的指令;将所述文本发送服务器;从所述服务器下载由所述文本转换而成的音频数据;判断预设时长内是否下载到首帧可以播放的音频数据;若预设时长内下载到首帧可以播放的音频数据,继续下载剩余的音频数据。
[0007]应理解,终端或服务器的网络质量动态变化,网络质量较好时,终端下载速度较快,网络质量较差时,可能下载速度较慢。在本申请实施例中,终端将文本发送服务器,以请求服务器实现文本转语音之后,终端从服务器下载语音数据。如果预设时长内下载了首帧可以播放的音频数据,则继续下载剩余的音频数据。否则在离线数据库中确定所述文本对应的音频信号,并将所述音频信号合成音频数据。因此,尽可能的缩短终端语音播放的时延,以避免用户输入文本转语音的指示之后,迟迟无法播放出语音的情况。
[0008]其中,所述首帧可以播放的音频数据可以为首次下载的包括预设长度的音频数据。或者,所述首帧可以播放的音频数据可以为首次下载的包括至少一帧完整音频的数据。
[0009]在本申请实施例中,终端与服务器约定压缩策略,例如预定服务器每次压缩的音频数据的数据长度相同,且为预设长度;还可以约定服务器每次压缩的音频数据中包括至少一帧完整的音频。这样的话,终端每次下载预设长度的音频数据,而且每次下载的音频数据都包括至少一帧完整的音频。也就是说,终端在预设时长内首次下载到预设长度的音频
数据,或者,首次下载到包括至少一帧完整音频的数据时,可以继续下载剩余音频数据,否则使用离线合成方式。因此,尽可能的缩短终端语音播放的时延,以避免用户输入文本转语音的指示之后,迟迟无法播放出语音的情况。
[0010]在一种可能的设计中,终端还可以:将下载的音频数据存储到缓存区域中;确定所述缓存区域内的音频数据的内存占用量达到门限时,播放所述首帧可以播放的音频数据。
[0011]应理解,缓存区域中存储的一定数量的音频数据,可以保证播放首帧可以播放的音频数据之后,继续播放下一帧音频数据,以确保首帧播放完毕,不卡顿。
[0012]在一些实施例中,终端播放所述首帧可以播放的音频数据,包括:将所述首帧可以播放的音频数据传递给解析器进行解析,得到解压后的音频数据;将经过解析器解析后的音频数据传递给解码器进行解码,得到预设音频格式的音频数据;将经过解码器解码后的音频数据传递给播放器播放。
[0013]需要说明的是,上述是终端从服务器下载了首帧可以播放的音频数据之后,将音频数据顺利播放的流程,在实际应用中,可以包括可以上述更多或很少的流程,本申请实施例不作限定。
[0014]在一些实施例中,从服务器下载的音频数据可以但不限于为Opus格式。Opus格式是低延时、高保真的语音编码格式,相对于其他的编码格式保真性较好。
[0015]第二方面,还提供一种文本转语音的处理方法,该方法可以由服务器执行或者由服务器中的处理芯片执行。该方法包括:接收终端发送的本文转语音的请求,所述请求中携带文本;将所述文本转换为音频数据;对所述音频数据进行压缩,每次压缩得到的音频数据的数据长度相同;向所述终端分别发送压缩后的语音数据。
[0016]在本申请实施例中,终端与服务器约定压缩策略,例如预定服务器使用静态压缩机制,例如每次压缩的音频数据的数据长度相同。还可以约定音频数据的数据长度为预设长度;还可以约定服务器每次压缩的音频数据中包括至少一帧完整的音频。这样的话,终端每次下载预设长度的音频数据,而且每次下载的音频数据都包括至少一帧完整的音频。也就是说,终端在预设时长内首次下载到预设长度的音频数据,或者,首次下载到包括至少一帧完整音频的数据时,可以继续下载剩余音频数据,否则使用离线合成方式。因此,尽可能的缩短终端语音播放的时延,以避免用户输入文本转语音的指示之后,迟迟无法播放出语音的情况。
[0017]在一种可能的设计中,所述每次压缩得到的音频数据的音频格式为可以但不限于Opus格式。Opus格式是低延时、高保真的语音编码格式,相对于其他的编码格式保真性较好。
[0018]其中,终端与服务器约定压缩策略可以有多种实现方式,包括但不限定于如下所述的方式1-方式3。
[0019]方式1,服务器确定使用静态压缩机制以及每次压缩的音频数据的数据长度之后,可以通知终端。例如,服务器向终端发送第一指示信息,例如,第一指示信息用于指示服务器使用的静态压缩机制且每次压缩的音频数据的数据长度为预设长度,例如为108字节。
[0020]方式2,终端可以要求服务器使用静态压缩机制,并要求每次压缩的音频数据的数据长度为预设长度。例如,终端向服务器发送第二指示信息,该第二指示信息用于指示服务器使用静态压缩机制,并指示服务器每次压缩的音频数据的数据长度为预设长度,例如为
108字节。
[0021]方式3,服务器生产商生成服务器时,默认设置服务器使用静态压缩机制,且每次压缩的音频数据的数据长度为预设长度;例如为108字节。终端下载音频流时,默认下载数据长度为预设长度的音频流。
[0022]上述方式可以使得终端与服务器约定的压缩策略更加灵活,可选择方式更多。
[0023]第三方面,本申请实施例还提供了一种终端,所述终端包括执行第一方面或者第一方面的任意一种可能的设计的方法的模块/单元;这些模块/单元可以通过硬件实现,也可以通过硬件执行相应的软件实现。
[0024]第四方面,本申请实施例还提供了一种服务器,所述服务器包括执行第二方面或者第二方面的任意一种可能的设计的方法的模块/单元;这些模块/单元可以通过硬件实现,也可以通过硬件执行相应的软件实现。
[0025]第五方面,还提供一种终端,包括:通信模块,用于与其他设备通本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本转语音的处理方法,其特征在于,应用于终端,所述方法包括:检测到用于指示文本转语音的指令;将所述文本发送服务器;从所述服务器下载由所述文本转换而成的音频数据;判断预设时长内是否下载到首帧可以播放的音频数据;若预设时长内下载到首帧可以播放的音频数据,继续下载剩余的音频数据。2.如权利要求1所述的方法,其特征在于,所述方法还包括:若所述预设时长内未下载到首帧可以播放的音频数据,在离线数据库中确定将所述文本对应的音频信号,并将所述音频信号合成音频数据。3.如权利要求1或2所述的方法,其特征在于,所述首帧可以播放的音频数据为首次下载的包括预设长度的音频数据。4.如权利要求1-3任一所述的方法,其特征在于,所述首帧可以播放的音频数据为首次下载的包括至少一帧完整音频的数据。5.如权利要求1-4任一所述的方法,其特征在于,从所述服务器下载由所述文本转换而成的音频数据,包括:每次从所述服务器下载数据长度为预设长度的音频数据。6.如权利要求1-5任一所述的方法,其特征在于,所述方法还包括:将下载的音频数据存储到缓存区域中;确定所述缓存区域内的音频数据的内存占用量达到门限时,播放所述首帧可以播放的音频数据。7.如权利要求6所述的方法,其特征在于,播放所述首帧可以播放的音频数据,包括:将所述首帧可以播放的音频数据传递给解析器进行解析,得到解压后的音频数据;将经过解析器解析后的音频数据传递给解码器进行解码,得到预设音频格式的音频数据;将经过解码器解码后的音频数据传递给播放器播放。8.如权利要求1-7任一所述的方法,其特征在于,从服务器下载的音频数据为Opus格式。9.一种文本转语音的处理方法,其特征在于,应用于服务器,所述方法包括:接收终端发送的本文转语音的请求,所述请求中携带文本;将所述文本转换为音频数据;对所述音频数据进行压缩,每次压缩得到的音频数据的数据长度相同;向所述终端分别发送压缩后的语音数据。10.如...

【专利技术属性】
技术研发人员:刘涛
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1