语音交互的方法、装置、电子设备及存储介质制造方法及图纸

技术编号：32632544 阅读：9 留言：0更新日期：2022-03-12 18:07

本公开提供了语音交互的方法、装置、电子设备及可读存储介质，涉及计算机技术领域，具体涉及计算机技术领域，具体涉及语音技术、自然语言处理等人工智能技术领域。一种具体实现方案为：对用户发送的请求语句进行语音识别，在接收到请求语句后的第一预设时间内，得到至少一个中间识别结果；响应于识别出第一个语义完整的中间识别结果，获取第一个语义完整的中间识别结果的第一语义解析结果并据此确定第一答复语句；响应于识别出第二个语义完整的中间识别结果，获取第二个语义完整的中间识别结果的第二语义解析结果；响应于第一语义解析结果与第二语义解析结果一致，播放第一答复语句。句。句。

全部详细技术资料下载

【技术实现步骤摘要】
语音交互的方法、装置、电子设备及存储介质

[0001]本公开涉及计算机
，具体涉及语音技术、自然语言处理等人工智能
，尤其涉及语音交互的方法、装置、电子设备及存储介质。

技术介绍

[0002]随着人工智能技术的进步，人机语音交互(简称：语音交互)也得到了迅速发展和广泛应用，例如，可广泛应用于智能电视、智能音箱、虚拟现实(virtual reality，VR)眼镜等智能设备，以及各种语音助手应用(APP)中。
[0003]在传统的人机语音交互中，语音识别和后续调用对话服务进行响应是串行进行的，即在语音活动检测(Voice Activity Detection，VAD)的尾点后才将进行语音识别并根据该语音识别结果调用对话服务进行响应。由此导致语音交互的响应时间较长，影响用户体验。针对该问题，现有技术提出了流式提前拉取对话资源的方案，通过提前进行流式语音识别，将VAD过程与后续调用对话服务进行响应的过程并行化，从而减少语音交互的响应时间。
[0004]本公开的专利技术人通过研究发现，上述流式提前拉取对话资源的方案，虽然可以减少语音交互的响应时间，但是在流式语音识别的过程中，并不知道用户何时会停止说话，需要在语音识别结果变化时，不停的调用对话服务，获取对应的结果并缓存起来，由此导致对话服务的请求量增加，造成大量对话服务计算资源的浪费，尤其是针对一些需要调用收费资源服务应用程序接口(Application Programming Interface，API)的情况，例如对话服务需要调用天气服务商、音...

【技术保护点】

【技术特征摘要】
1.一种语音交互的方法，包括：对用户发送的请求语句进行语音识别，在接收到所述请求语句后的第一预设时间内，得到至少一个中间识别结果；其中，所述第一预设时间的结束时刻，早于所述请求语句的语音活动检测的尾点时刻；响应于从所述至少一个中间识别结果中识别出第一个语义完整的中间识别结果，获取所述第一个语义完整的中间识别结果的第一语义解析结果，并根据所述第一个语义完整的中间识别结果确定第一答复语句；响应于从所述至少一个中间识别结果中识别出第二个语义完整的中间识别结果，获取所述第二个语义完整的中间识别结果的第二语义解析结果；响应于所述第一语义解析结果与所述第二语义解析结果一致，播放所述第一答复语句。2.根据权利要求1所述的方法，其中，所述第一语义解析结果包括：领域，意图和槽位信息；所述第二语义解析结果包括：领域，意图和槽位信息；所述第一语义解析结果与所述第二语义解析结果一致，包括：所述第一语义解析结果中的领域与所述第二语义解析结果中的领域一致，所述第一语义解析结果中的意图与所述第二语义解析结果中的意图一致，所述第一语义解析结果中的槽位信息与所述第二语义解析结果中的槽位信息一致。3.根据权利要求1或2所述的方法，还包括：响应于所述第一语义解析结果与所述第二语义解析结果不一致，根据所述第二个语义完整的中间识别结果确定第二答复语句；响应于从所述至少一个中间识别结果中识别出第三个语义完整的中间识别结果，获取所述第三个语义完整的中间识别结果的第三语义解析结果；响应于所述第二语义解析结果与所述第三语义解析结果一致，播放所述第二答复语句。4.根据权利要求1
‑
3中任一项所述的方法，还包括：在接收到所述请求语句后的第二预设时间内，得到所述请求语句的最终识别结果，其中，所述第二预设时间的结束时刻，晚于所述请求语句的语音活动检测的尾点时刻。5.根据权利要求4所述的方法，其中，所述得到至少一个中间识别结果之后，还包括：响应于得到所述至少一个中间识别结果中的第一个中间识别结果，按照得到所述至少一个中间识别结果的时间顺序，依次识别所述至少一个中间识别结果的语义是否完整。6.根据权利要求5所述的方法，其中，所述得到所述请求语句的最终识别结果之后，还包括：响应于从所述至少一个中间识别结果中未识别出语义完整的中间识别结果，根据所述最终识别结果确定最终答复语句，并播放所述最终答复语句。7.根据权利要求4所述的方法，其中，所述得到所述请求语句的最终识别结果之后，还包括：响应于所述至少一个中间识别结果中任意两个相邻的语义完整的中间识别结果的语义解析结果均不一致，根据所述最终识别结果确定最终答复语句，并播放所述最终答复语
句。8.根据权利要求1
‑
7中任一项所述的方法，其中，所述获取所述第一个语义完整的中间识别结果的第一语义解析结果，包括：利用预先训练得到的语义解析模型，获取所述第一个语义完整的中间识别结果的第一语义解析结果；或者，所述获取所述第二个语义完整的中间识别结果的第二语义解析结果，包括：利用所述语义解析模型，获取所述第二个语义完整的中间识别结果的第二语义解析结果。9.根据权利要求8所述的方法，其中，所述语义解析模型的训练包括：分别将至少一个训练样本中各训练样本输入待训练的语义解析模型，经所述待训练的语义解析模型输出所述各训练样本的语义解析预测结果，所述语义解析预测结果包括：领域，意图和槽位信息；所述训练样本标注有语义解析标注信息，所述语义解析标注信息包括：领域，意图和槽位信息；基于所述各训练样本的语义解析预测结果与对应的语义解析标注信息之间的差异，对所述待训练的语义解析模型进行训练，直至满足预设训练完成条件。10.一种语音交互的装置，包括：语音识别单元，用于对用户发送的请求语句进行语音识别，在接收到所述请求语句后的第一预设时间内，得到至少一个中间识别结果；其中，所述第一预设时间的结束时刻，早于所述请求语句的语音活动检测的尾点时刻；语义解析单元，用于响应于从所述至少一个中间识别结果中识别出第一个语义完整的中间识别结果，获取所述第一个语义完整的中间识别结果的第一语义解析结...

【专利技术属性】
技术研发人员：吴震，王潇，苏显泽，瞿琴，吴玉芳，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人