一种语音交互方法、装置、计算机可读存储介质及服务器制造方法及图纸

技术编号:31747203 阅读:20 留言:0更新日期:2022-01-05 16:27
本发明专利技术属于人工智能技术领域,尤其涉及一种语音交互方法、装置、计算机可读存储介质及服务器。所述方法包括:建立与预设的电话平台之间的交互连接,并接收所述电话平台发送的用户实时语音数据;当所述电话平台处于预设的人工智能播报状态时,通过预设的自动语音识别引擎将所述用户实时语音数据识别为文本数据;通过预设的自然语言处理系统对所述文本数据进行意图识别,得到意图识别结果;若所述意图识别结果为无效意图,则返回执行所述接收所述电话平台发送的用户实时语音数据的步骤及其后续步骤;若所述意图识别结果为有效意图,则将所述自动语音识别引擎的识别结果发送至所述电话平台,停止所述电话平台的人工智能播报状态。态。态。

【技术实现步骤摘要】
一种语音交互方法、装置、计算机可读存储介质及服务器


[0001]本专利技术属于人工智能
,尤其涉及一种语音交互方法、装置、计算机可读存储介质及服务器。

技术介绍

[0002]近年来,自动语音识别(Automatic Speech Recognition,ASR)技术已经取得了长足发展,系统响应时效和语音识别准确率都有很大的提升,人们能够直接和机器人进行语音交互,人机交互的模式一般是轮流讲话,如果人在机器播报的同时讲话,或者有环境背景声音,目前常用的处理方式是系统持续完成设定的语音内容播报,再收集处理语音输入,这种方式不够灵活,不能及时理解人话。为了解决这一问题,现有技术中还有一种处理方式是系统检测到有语音输入,立即停止语音播报,继续等待语音输入,但这种方式容易因环境噪音或者人的一些无明确意图话语而造成系统误打断语音播报,导致人机交互流畅性大大降低。

技术实现思路

[0003]有鉴于此,本专利技术实施例提供了一种语音交互方法、装置、计算机可读存储介质及服务器,以解决在现有的语音交互方法中人机交互流畅性较低的问题。
[0004]本专利技术实施例的第一方面提供了一种语音交互方法,可以包括:
[0005]建立与预设的电话平台之间的交互连接,并接收所述电话平台发送的用户实时语音数据;
[0006]当所述电话平台处于预设的人工智能播报状态时,通过预设的自动语音识别引擎将所述用户实时语音数据识别为文本数据;
[0007]通过预设的自然语言处理系统对所述文本数据进行意图识别,得到意图识别结果;
[0008]若所述意图识别结果为无效意图,则返回执行所述接收所述电话平台发送的用户实时语音数据的步骤及其后续步骤;
[0009]若所述意图识别结果为有效意图,则将所述自动语音识别引擎的识别结果发送至所述电话平台,停止所述电话平台的人工智能播报状态。
[0010]在第一方面的一种具体实现方式中,所述建立与预设的电话平台之间的交互连接,并接收所述电话平台发送的用户实时语音数据,可以包括:
[0011]接收所述电话平台发送的会话初始协议请求,并向所述电话平台发送会话初始协议响应信息;所述会话初始协议响应信息中包括媒体资源控制协议端口的端口信息和语音交互端口的端口信息;
[0012]接收所述电话平台根据所述媒体资源控制协议端口的端口信息发送的自动语音识别请求,并向所述电话平台发送自动语音识别响应信息;
[0013]接收所述电话平台根据所述语音交互端口的端口信息发送的用户实时语音数据。
[0014]在第一方面的一种具体实现方式中,所述通过预设的自动语音识别引擎将所述用户实时语音数据识别为文本数据,可以包括:
[0015]根据预设的第一超时阈值判断所述用户实时语音数据是否已经传输完成;所述第一超时阈值表示每一段语音之间停顿时长的阈值;
[0016]若所述用户实时语音数据已经传输完成,则将所述用户实时语音数据转发至所述自动语音识别引擎,以使所述自动语音识别引擎将所述用户实时语音数据识别为所述文本数据;
[0017]接收所述自动语音识别引擎发送的所述文本数据。
[0018]在第一方面的一种具体实现方式中,所述通过预设的自然语言处理系统对所述文本数据进行意图识别,得到意图识别结果,可以包括:
[0019]统计所述文本数据中的文字数量;
[0020]若所述文字数量小于预设的数量阈值时,将所述文本数据和所述第一超时阈值发送至所述自然语言处理系统,以使所述自然语言处理系统根据所述文本数据和所述第一超时阈值进行意图识别,得到所述意图识别结果;
[0021]接收所述自然语言处理系统发送的所述意图识别结果。
[0022]在第一方面的一种具体实现方式中,所述将所述自动语音识别引擎的识别结果发送至所述电话平台,停止所述电话平台的人工智能播报状态,可以包括:
[0023]向所述自动语音识别引擎发送结束识别请求,以使所述自动语音识别引擎停止进行自动语音识别;
[0024]接收所述自动语音识别引擎发送的结束识别响应信息,并向所述自动语音识别引擎发送识别结果获取请求;
[0025]接收所述自动语音识别引擎的识别结果,并将所述自动语音识别引擎的识别结果发送至所述电话平台,停止所述电话平台的人工智能播报状态。
[0026]在第一方面的一种具体实现方式中,所述语音交互方法还可以包括:
[0027]当所述电话平台处于预设的人工智能播报结束状态时,通过所述自动语音识别引擎将所述用户实时语音数据识别为文本数据;
[0028]通过所述自然语言处理系统对所述文本数据进行意图识别,得到意图识别结果;
[0029]若所述意图识别结果为不完整意图,则返回执行所述接收所述电话平台发送的用户实时语音数据的步骤及其后续步骤;
[0030]若所述意图识别结果为完整意图,则将所述自动语音识别引擎的识别结果发送至所述电话平台。
[0031]在第一方面的一种具体实现方式中,所述语音交互方法还可以包括:
[0032]当检测不到所述用户实时语音数据时,对检测不到所述用户实时语音数据的时长进行计时;
[0033]若检测不到所述用户实时语音数据的时长大于预设的第二超时阈值,则向所述自动语音识别引擎发送结束识别请求,以使所述自动语音识别引擎停止进行自动语音识别。
[0034]本专利技术实施例的第二方面提供了一种语音交互装置,可以包括:
[0035]语音数据接收模块,用于建立与预设的电话平台之间的交互连接,并接收所述电话平台发送的用户实时语音数据;
[0036]自动语音识别模块,用于当所述电话平台处于预设的人工智能播报状态时,通过预设的自动语音识别引擎将所述用户实时语音数据识别为文本数据;
[0037]自然语言处理模块,用于通过预设的自然语言处理系统对所述文本数据进行意图识别,得到意图识别结果;
[0038]识别结果发送模块,用于若所述意图识别结果为有效意图,则将所述自动语音识别引擎的识别结果发送至所述电话平台,停止所述电话平台的人工智能播报状态。
[0039]在第二方面的一种具体实现方式中,所述语音数据接收模块可以包括:
[0040]会话初始协议响应单元,用于接收所述电话平台发送的会话初始协议请求,并向所述电话平台发送会话初始协议响应信息;所述会话初始协议响应信息中包括媒体资源控制协议端口的端口信息和语音交互端口的端口信息;
[0041]自动语音识别响应单元,用于接收所述电话平台根据所述媒体资源控制协议端口的端口信息发送的自动语音识别请求,并向所述电话平台发送自动语音识别响应信息;
[0042]语音数据接收单元,用于接收所述电话平台根据所述语音交互端口的端口信息发送的用户实时语音数据。
[0043]在第二方面的一种具体实现方式中,所述自动语音识别模块可以包括:
[0044]传输完成判断单元,用于根据预设的第一超时阈值判断所述用户实时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音交互方法,其特征在于,包括:建立与预设的电话平台之间的交互连接,并接收所述电话平台发送的用户实时语音数据;当所述电话平台处于预设的人工智能播报状态时,通过预设的自动语音识别引擎将所述用户实时语音数据识别为文本数据;通过预设的自然语言处理系统对所述文本数据进行意图识别,得到意图识别结果;若所述意图识别结果为无效意图,则返回执行所述接收所述电话平台发送的用户实时语音数据的步骤及其后续步骤;若所述意图识别结果为有效意图,则将所述自动语音识别引擎的识别结果发送至所述电话平台,停止所述电话平台的人工智能播报状态。2.根据权利要求1所述的语音交互方法,其特征在于,所述建立与预设的电话平台之间的交互连接,并接收所述电话平台发送的用户实时语音数据,包括:接收所述电话平台发送的会话初始协议请求,并向所述电话平台发送会话初始协议响应信息;所述会话初始协议响应信息中包括媒体资源控制协议端口的端口信息和语音交互端口的端口信息;接收所述电话平台根据所述媒体资源控制协议端口的端口信息发送的自动语音识别请求,并向所述电话平台发送自动语音识别响应信息;接收所述电话平台根据所述语音交互端口的端口信息发送的用户实时语音数据。3.根据权利要求1所述的语音交互方法,其特征在于,所述通过预设的自动语音识别引擎将所述用户实时语音数据识别为文本数据,包括:根据预设的第一超时阈值判断所述用户实时语音数据是否已经传输完成;所述第一超时阈值表示每一段语音之间停顿时长的阈值;若所述用户实时语音数据已经传输完成,则将所述用户实时语音数据转发至所述自动语音识别引擎,以使所述自动语音识别引擎将所述用户实时语音数据识别为所述文本数据;接收所述自动语音识别引擎发送的所述文本数据。4.根据权利要求3所述的语音交互方法,其特征在于,所述通过预设的自然语言处理系统对所述文本数据进行意图识别,得到意图识别结果,包括:统计所述文本数据中的文字数量;若所述文字数量小于预设的数量阈值时,将所述文本数据和所述第一超时阈值发送至所述自然语言处理系统,以使所述自然语言处理系统根据所述文本数据和所述第一超时阈值进行意图识别,得到所述意图识别结果;接收所述自然语言处理系统发送的所述意图识别结果。5.根据权利要求1所述的语音交互方法,其特征在于,所述将所述自动语音识别引擎的识别结果发送至所述电话平台,停止所述...

【专利技术属性】
技术研发人员:李杰汪滔恽承悦
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1