【技术实现步骤摘要】
语音交互的方法、装置、电子设备及存储介质
[0001]本公开涉及计算机
,具体涉及语音技术、自然语言处理等人工智能
,尤其涉及语音交互的方法、装置、电子设备及存储介质。
技术介绍
[0002]随着人工智能技术的进步,人机语音交互(简称:语音交互)也得到了迅速发展和广泛应用,例如,可广泛应用于智能电视、智能音箱、虚拟现实(virtual reality,VR)眼镜等智能设备,以及各种语音助手应用(APP)中。
[0003]在传统的人机语音交互中,语音识别和后续调用对话服务进行响应是串行进行的,即在语音活动检测(Voice Activity Detection,VAD)的尾点后才将进行语音识别并根据该语音识别结果调用对话服务进行响应。由此导致语音交互的响应时间较长,影响用户体验。针对该问题,现有技术提出了流式提前拉取对话资源的方案,通过提前进行流式语音识别,将VAD过程与后续调用对话服务进行响应的过程并行化,从而减少语音交互的响应时间。
[0004]本公开的专利技术人通过研究发现,上述流式提前拉取对话资源的方案,虽然可以减少语音交互的响应时间,但是在流式语音识别的过程中,并不知道用户何时会停止说话,需要在语音识别结果变化时,不停的调用对话服务,获取对应的结果并缓存起来,由此导致对话服务的请求量增加,造成大量对话服务计算资源的浪费,尤其是针对一些需要调用收费资源服务应用程序接口(Application Programming Interface,API)的情况,例如对话服务需要调用天气服务商、音 ...
【技术保护点】
【技术特征摘要】
1.一种语音交互的方法,包括:对用户发送的请求语句进行语音识别,在接收到所述请求语句后的第一预设时间内,得到至少一个中间识别结果;其中,所述第一预设时间的结束时刻,早于所述请求语句的语音活动检测的尾点时刻;响应于得到所述至少一个中间识别结果中的第一个中间识别结果,按照得到所述至少一个中间识别结果的时间顺序,依次识别所述至少一个中间识别结果的语义是否完整;响应于从所述至少一个中间识别结果中识别出第一个语义完整的中间识别结果,根据所述第一个语义完整的中间识别结果,确定第一答复语句以播放。2.根据权利要求1所述的方法,其中,所述依次识别所述至少一个中间识别结果的语义是否完整,包括:依次针对所述至少一个中间识别结果中的各中间识别结果,利用语义完整性模型,获取所述各中间识别结果作为历史最终识别结果中前缀的第一概率,以及所述各中间识别结果作为所述历史最终识别结果的第二概率;所述语义完整性模型基于用户日志中的最终识别结果进行统计计算得到;基于所述第一概率和所述第二概率确定所述各中间识别结果语义完整的第三概率;根据所述第三概率是否大于预设阈值,确定所述各中间识别结果的语义是否完整。3.根据权利要求1所述的方法,其中,所述依次识别所述至少一个中间识别结果的语义是否完整,包括:依次针对所述至少一个中间识别结果中的各中间识别结果,获取所述各中间识别结果的词向量;获取所述各中间识别结果作为历史最终识别结果中前缀的第一概率,以及所述各中间识别结果作为所述历史最终识别结果的第二概率;获取所述各中间识别结果的热度;将所述词向量、所述第一概率、所述第二概率和所述热度输入神经网络模型,经所述神经网络模型输出所述各中间识别结果语义完整的第四概率;根据所述第四概率是否大于预设阈值,确定所述当前文本的语义是否完整。4.根据权利要求3所述的方法,其中,所述获取所述各中间识别结果作为历史最终识别结果中前缀的第一概率,以及所述各中间识别结果作为所述历史最终识别结果的第二概率,包括:利用语义完整性模型,获取所述各中间识别结果作为历史最终识别结果中前缀的第一概率,以及所述各中间识别结果作为所述历史最终识别结果的第二概率;所述语义完整性模型基于用户日志中的最终识别结果进行统计计算得到。5.根据权利要求3或4所述的方法,其中,所述神经网络模型的训练包括:基于用户日志中的最终识别结果构造训练集;所述训练集包括多个训练样本,所述多个训练样本包括正样本和负样本,所述正样本具有语义完整的标注信息,所述负样本具有语义不完整的标注信息;分别针对所述多个训练样本中各训练样本,获取所述各训练样本作为历史最终识别结果中前缀的第一概率,以及所述各训练样本作为所述历史最终识别结果的第二概率;获取所述各训练样本的热度;
将所述各训练样本的所述词向量、所述第一概率、所述第二概率和所述热度输入待训练的神经网络模型,经所述待训练的神经网络模型输出所述各训练样本语义完整的预测概率;根据所述预测概率是否大于预设阈值,确定所述各训练样本的语义是否完整,得到预测结果;基于所述各训练样本的预测结果与对应的标注信息之间的差异,对所述待训练的神经网络模型进行训练,直至满足预设训练完成条件。6.根据权利要求1
‑
5中任一项所述的方法,还包括:在接收到所述请求语句后的第二预设时间内,得到所述请求语句的最终识别结果,其中,所述第二预设时间的结束时刻,晚于所述请求语句的语音活动检测的尾点时刻;响应于从所述至少一个中间识别结果中未识别出语义完整的中间识别结果,根据所述最终识别结果,确定第二答复语句以播放。7.一种语音交互的装置,包括:语音识别单元,用于对用户发送的请求语句进行语音识别,在接收到所述请求语句后的第一预设时间内,得到至少一个中间识别结果;其中,所述第一预设时间的结束时刻,早于所述请求语句的语音活动检测的尾点时刻;语义完整识别单元,用于响应于得到所述至少一个中间识别结果中的第一个中间识别结果,按照得到所述至...
【专利技术属性】
技术研发人员:吴震,王潇,苏显泽,瞿琴,吴玉芳,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。