语音交互方法、系统、装置、电子设备、存储介质及车辆制造方法及图纸

技术编号:38015397 阅读:14 留言:0更新日期:2023-06-30 10:40
本公开提供了一种语音交互方法、系统、装置、电子设备、存储介质及车辆,涉及计算机技术领域,尤其涉及语音交互领域。具体实现方案为:接收客户端利用目标通信链路发送的目标音频;识别所述目标音频的文本内容;利用所述文本内容,获得所述目标音频对应的应答音频;利用所述目标通信链路,将所述应答音频反馈至所述客户端,以使所述客户端接收并播放所述应答音频。通过本方案可以提高语音交互的速度。通过本方案可以提高语音交互的速度。通过本方案可以提高语音交互的速度。

【技术实现步骤摘要】
语音交互方法、系统、装置、电子设备、存储介质及车辆


[0001]本公开涉及计算机
,尤其涉及语音交互
,具体涉及一种语音交互方法、系统、装置、电子设备、存储介质及车辆。

技术介绍

[0002]语音交互是一种基于语音输入的交互模式,通常应用于车载场景、智能家居场景等;相关技术中在语音交互时,用于语音交互的客户端通常需要向云端发送多次网络请求,以获得用于播报的应答音频。
[0003]但是,在一些存在网络波动的弱网场景中,例如:经常出入隧道和高速的车载场景,网络请求的时延较高。

技术实现思路

[0004]本公开提供了一种语音交互方法、系统、装置、电子设备、存储介质及车辆。
[0005]根据本公开的第一方面,提供了一种语音交互方法,应用于语音服务端;所述方法包括:
[0006]接收客户端利用目标通信链路发送的目标音频;其中,所述目标通信链路为所述客户端与所述语音服务端所建立的通信链路,所述目标音频为语音交互时,用户所产生的音频;
[0007]识别所述目标音频的文本内容;
[0008]利用所述文本内容,获得所述目标音频对应的应答音频;
[0009]利用所述目标通信链路,将所述应答音频反馈至所述客户端,以使所述客户端接收并播放所述应答音频。
[0010]可选地,所述利用所述文本内容,获得所述目标音频对应的应答音频,包括:
[0011]将所述文本内容发送至语义服务端,以使所述语义服务端分析所述文本内容,得到语义分析结果,利用所述语义分析结果生成关于目标音频的应答文本,并向合成服务端发送所述应答文本,使得所述合成服务端利用所述应答文本,生成应答音频,并将所述应答音频反馈至所述语音服务端;
[0012]获得所述合成服务端反馈的应答音频。
[0013]可选地,还包括:
[0014]接收所述语义服务端在得到至少一个指定数据内容中的每一数据内容时,所发送的该数据内容;其中,所述至少一个指定数据内容包括所述语义分析结果和所述应答文本中的至少一个数据内容;
[0015]每当得到至少一个指定中间结果中的每一中间结果时,利用所述目标通信链路,将该中间结果发送至所述客户端,以使所述客户端在接收到所述语音服务端发送的中间结果时,执行与所接收到的中间结果相匹配的响应处理;
[0016]其中,所述至少一个指定中间结果包括接收到的数据内容以及识别得到的所述文
本内容中的至少一个数据内容。
[0017]可选地,所述应答音频包括多个子音频;
[0018]所述利用所述目标通信链路,将所述应答音频反馈至所述客户端,包括:
[0019]利用所述目标通信链路,采用流式下发音频的方式,将所述应答音频的各个子音频反馈至所述客户端。
[0020]可选地,所述利用所述目标通信链路,采用流式下发音频的方式,将所述应答音频的各个子音频反馈至所述客户端,包括:
[0021]每当得到所述应答音频的任一子音频时,利用所述目标通信链路,将所得到的子音频反馈至所述客户端。
[0022]根据本公开的第二方面,提供了一种语音交互方法,应用于客户端;所述方法包括:
[0023]获取目标音频;其中,所述目标音频为语音交互时,用户所产生的音频;
[0024]利用目标通信链路,向语音服务端发送所述目标音频,以使所述语音服务端识别所述目标音频的文本内容,利用所述文本内容,获得所述目标音频对应的应答音频,利用所述目标通信链路,将所述应答音频反馈至所述客户端;
[0025]接收并播放语音服务端利用所述目标通信链路所反馈的应答音频;
[0026]其中,所述目标通信链路为所述客户端与所述语音服务端所建立的通信链路。
[0027]可选地,还包括:
[0028]接收所述语音服务端利用所述目标通信链路,所反馈的至少一个指定中间结果中的每一中间结果;其中,所述至少一个指定中间结果包括接收到的数据内容以及识别得到的所述文本内容中的至少一个数据内容,所述接收到的数据内容包括至少一个指定数据内容中的数据内容,所述至少一个指定数据内容包括所述语义分析结果和所述应答文本中的至少一个数据内容;
[0029]执行与所接收到的中间结果相匹配的响应处理。
[0030]可选地,所述应答音频包括多个子音频;
[0031]所述语音服务端利用所述目标通信链路,将所述应答音频反馈至所述客户端的方式,包括:
[0032]利用所述目标通信链路,采用流式下发音频的方式,将所述应答音频的各个子音频反馈至所述客户端;
[0033]所述方法还包括:
[0034]在所述客户端接收到所述应答文本的情况下,识别在接收所述应答音频的各个子音频的过程中,是否存在网络波动;
[0035]若存在,利用所述应答文本,在所述客户端本地生成指定子音频;其中,所述指定子音频为所述应答音频的、除所述客户端已接收到的子音频以外的子音频。
[0036]可选地,所述利用所述应答文本,在所述客户端本地生成指定子音频,包括:
[0037]确定所述应答文本中的除指定子文本以外的子文本;其中,所述指定子文本为所述客户端已接收到的所述应答音频的子音频对应的文本;
[0038]在所述客户端本地,将所确定的子文本转换为音频,得到指定子音频。
[0039]可选地,所述识别在接收所述应答音频的各个子音频的过程中,是否存在网络波
动,包括:
[0040]检测第一指定时长以及第二指定时长的差值是否小于预定阈值;
[0041]若是,判定在接收所述应答音频的各个子音频的过程中,存在网络波动,否则,判定在接收所述应答音频的各个子音频的过程中,未存在网络波动;
[0042]其中,所述第一指定时长为客户端当前接收到的所述应答音频的子音频的待播放时长,所述第二指定时长为当前时刻与上一次接收到任一应答音频的子音频的时刻之间的时间间隔。
[0043]根据本公开的第三方面,提供了一种语音交互系统,包括:客户端以及语音服务端;
[0044]所述客户端,用于获取目标音频,利用目标通信链路,向语音服务端发送所述目标音频;其中,所述目标音频为语音交互时,用户所产生的音频;所述目标通信链路为所述客户端与所述语音服务端所建立的通信链路;
[0045]所述语音服务端,用于接收客户端利用目标通信链路发送的目标音频,识别所述目标音频的文本内容,利用所述文本内容,获得所述目标音频对应的应答音频;以及利用所述目标通信链路,将所述应答音频反馈至所述客户端;
[0046]所述客户端,还用于接收并播放语音服务端利用所述目标通信链路所反馈的应答音频。
[0047]可选地,所述系统还包括:语义服务端以及合成服务端;
[0048]所述语音服务端利用所述文本内容,获得所述目标音频对应的应答音频,包括:
[0049]将所述文本内容发送至语义服务端,以使所述语义服务端分析所述文本内容,得到语义分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音交互方法,应用于语音服务端;所述方法包括:接收客户端利用目标通信链路发送的目标音频;其中,所述目标通信链路为所述客户端与所述语音服务端所建立的通信链路,所述目标音频为语音交互时,用户所产生的音频;识别所述目标音频的文本内容;利用所述文本内容,获得所述目标音频对应的应答音频;利用所述目标通信链路,将所述应答音频反馈至所述客户端,以使所述客户端接收并播放所述应答音频。2.根据权利要求1所述的方法,其中,所述利用所述文本内容,获得所述目标音频对应的应答音频,包括:将所述文本内容发送至语义服务端,以使所述语义服务端分析所述文本内容,得到语义分析结果,利用所述语义分析结果生成关于目标音频的应答文本,并向合成服务端发送所述应答文本,使得所述合成服务端利用所述应答文本,生成应答音频,并将所述应答音频反馈至所述语音服务端;获得所述合成服务端反馈的应答音频。3.根据权利要求2所述的方法,还包括:接收所述语义服务端在得到至少一个指定数据内容中的每一数据内容时,所发送的该数据内容;其中,所述至少一个指定数据内容包括所述语义分析结果和所述应答文本中的至少一个数据内容;每当得到至少一个指定中间结果中的每一中间结果时,利用所述目标通信链路,将该中间结果发送至所述客户端,以使所述客户端在接收到所述语音服务端发送的中间结果时,执行与所接收到的中间结果相匹配的响应处理;其中,所述至少一个指定中间结果包括接收到的数据内容以及识别得到的所述文本内容中的至少一个数据内容。4.根据权利要求1

3任一项所述的方法,其中,所述应答音频包括多个子音频;所述利用所述目标通信链路,将所述应答音频反馈至所述客户端,包括:利用所述目标通信链路,采用流式下发音频的方式,将所述应答音频的各个子音频反馈至所述客户端。5.根据权利要求4所述的方法,其中,所述利用所述目标通信链路,采用流式下发音频的方式,将所述应答音频的各个子音频反馈至所述客户端,包括:每当得到所述应答音频的任一子音频时,利用所述目标通信链路,将所得到的子音频反馈至所述客户端。6.一种语音交互方法,应用于客户端;所述方法包括:获取目标音频;其中,所述目标音频为语音交互时,用户所产生的音频;利用目标通信链路,向语音服务端发送所述目标音频,以使所述语音服务端识别所述目标音频的文本内容,利用所述文本内容,获得所述目标音频对应的应答音频,利用所述目标通信链路,将所述应答音频反馈至所述客户端;接收并播放语音服务端利用所述目标通信链路所反馈的应答音频;其中,所述目标通信链路为所述客户端与所述语音服务端所建立的通信链路。7.根据权利要求6所述的方法,还包括:
接收所述语音服务端利用所述目标通信链路,所反馈的至少一个指定中间结果中的每一中间结果;其中,所述至少一个指定中间结果包括接收到的数据内容以及识别得到的所述文本内容中的至少一个数据内容,所述接收到的数据内容包括至少一个指定数据内容中的数据内容,所述至少一个指定数据内容包括所述语义分析结果和所述应答文本中的至少一个数据内容;执行与所接收到的中间结果相匹配的响应处理。8.根据权利要求6或7所述的方法,其中,所述应答音频包括多个子音频;所述语音服务端利用所述目标通信链路,将所述应答音频反馈至所述客户端的方式,包括:利用所述目标通信链路,采用流式下发音频的方式,将所述应答音频的各个子音频反馈至所述客户端;所述方法还包括:在所述客户端接收到所述应答文本的情况下,识别在接收所述应答音频的各个子音频的过程中,是否存在网络波动;若存在,利用所述应答文本,在所述客户端本地生成指定子音频;其中,所述指定子音频为所述应答音频的、除所述客户端已接收到的子音频以外的子音频。9.根据权利要求8所述的方法,其中,所述利用所述应答文本,在所述客户端本地生成指定子音频,包括:确定所述应答文本中的除指定子文本以外的子文本;其中,所述指定子文本为所述客户端已接收到的所述应答音频的子音频对应的文本;在所述客户端本地,将所确定的子文本转换为音频,得到指定子音频。10.根据权利要求8所述的方法,其中,所述识别在接收所述应答音频的各个子音频的过程中,是否存在网络波动,包括:检测第一指定时长以及第二指定时长的差值是否小于预定阈值;若是,判定在接收所述应答音频的各个子音频的过程中,存在网络波动,否则,判定在接收所述应答音频的各个子音频的过程中,未存在网络波动;其中,所述第一指定时长为客户端当前接收到的所述应答音频的子音频的待播放时长,所述第二指定时长为当前时刻与上一次接收到任一应答音频的子音频的时刻之间的时间间隔。11.一种语音交互系统,包括:客户端以及语音服务端;所述客户端,用于获取目标音频,利用目标通信链路,向语音服务端发送所述目标音频;其中,所述目标音频为语音交互时,用户所产生的音频;所述目标通信链路为所述客户端与所述语音服务端所建立的通信链路;所述语音服务端,用于接收客户端利用目标通信链路发送的目标音频,识别所述目标音频的文本内容,利用所述文本内容,获得所述目标音频对应的应答音频;以及利用所述目标通信链路,将所述应答音频反馈至所述客户端;所述客户端,还用于接收并播放语音服务端利用所...

【专利技术属性】
技术研发人员:李坚涛章福瑜
申请(专利权)人:阿波罗智联北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1