一种基于VAD算法打断智能语音机器人对话的方法技术

技术编号:20656083 阅读:29 留言:0更新日期:2019-03-23 07:36
本发明专利技术公开了一种基于VAD算法打断智能语音机器人对话的方法,所述方法包括:用户在网页界面通过网页即时通信模块发起语音交流,智能语音机器人按照预设话术进行语音播放;语音活动检测模块通过VAD算法检测判断用户是否发出声音,并过滤背景声音与噪音;识别用户发出声音,中断智能语音机器人的语音输出,等待用户发言结束;将用户发言音频数据发送至实时语音识别模块识别用户发言内容,并通过自然语言理解模块识别用户意图;识别用户发言结束,智能语音机器人根据识别用户意图改变,选择切换新话术节点;识别用户意图未改变,继续当前话术节点。本发明专利技术解决了用户与智能语音机器人沟通中无法实时打断智能语音机器人语音输出、切换话术的技术问题。

A Method of Interrupting the Dialogue of Intelligent Voice Robot Based on VAD Algorithms

The invention discloses a method of interrupting the conversation of intelligent voice robot based on VAD algorithm, which includes: users initiate voice communication through instant messaging module of web page interface, intelligent voice robot plays voice according to preset speech skill, voice activity detection module detects and judges whether users emit voice by VAD algorithm, and filters background voice and noise; Recognize the user's voice, interrupt the voice output of the intelligent voice robot and wait for the end of the user's speech; send the voice data of the user's speech to the real-time speech recognition module to recognize the content of the user's speech, and recognize the user's intention through the natural language understanding module; recognize the end of the user's speech, the intelligent voice robot chooses to switch the new speech node according to the change of the user's intention. Identify the user's intention unchanged and continue with the current session node. The invention solves the technical problem that the voice output of the intelligent voice robot can not be interrupted in real time and the voice technology can be switched in the communication between the user and the intelligent voice robot.

【技术实现步骤摘要】
一种基于VAD算法打断智能语音机器人对话的方法
本专利技术涉及智能语音对话领域,尤其涉及一种基于VAD算法打断智能语音机器人对话的方法。
技术介绍
随着计算机和人工智能技术的飞速发展,智能语音对话被广泛的开发和应用,智能机器人已经越来越多地走进了人们的生活和工作中,生活和工作中的机器人应用领域越来越广,智能机器人时代即将到来,并且大量在社会中广泛使用。目前,可以通过ASR(实时语音识别)与NLP(自然语言理解),实现机器实时理解人类声音语言,在客服、销售等场景进行AI智能沟通,对人类声音语言进行大规模语料训练,在指定场景下,可以得到识别质量较好的识别模型,机器人将人类的声音实时发送到ASR中进行识别,得到文本形式的识别结果,用于关键字匹配,或者语义处理,得到预设的问题与答案,在以音频形式播放出来,以匹配人与机器的语音沟通。虽然现有方案能支持机器人与人类的语言沟通,但是基本以人与机器人之间一问一答的形式为主,很难做到人类水平的插话交流,比较死板且不自然。针对访客的突然插话接入,机器人若无动于衷,显得不礼貌,交流不友好,用户必须听完完整的机器人预设话术,且在机器人话术输出的时段内无法打断或提出疑问,在沟通上难以实现及时、快捷;另一方面,访客的插话打断,可能有更迫切的问题询问,若不及时切换到相关问题节点上,会浪费客户时间。综上所述,现有智能语音机器人与人的语音交流方案在交互体验、沟通效率上仍有待提高。
技术实现思路
为了提高智能语音机器人的话术水平,实现用户随时打断智能语音机器人语音输出、智能语音机器人在沟通中切换话术的功能,本专利技术提出了一种基于VAD算法打断智能语音机器人对话的方法。本专利技术采用如下技术方案:一种基于VAD算法打断智能语音机器人对话的方法,所述方法包括:S1、用户在网页界面通过网页即时通信模块发起语音交流,智能语音机器人按照预设话术进行语音播放;S2、智能语音机器人内的语音活动检测模块通过VAD算法实时检测判断用户是否发出声音,并过滤背景声音与噪音;S3、若语音活动检测模块识别用户发出声音,中断智能语音机器人的语音输出,等待用户发言结束;S4、智能语音机器人实时将用户发言音频数据发送至实时语音识别模块识别用户发言内容,并通过自然语言理解模块识别用户意图;S5、语音活动检测模块识别用户发言结束,智能语音机器人根据识别用户意图改变,选择切换新话术节点;识别用户意图未改变,继续当前话术节点。作为优选,所述智能语音机器人还包括第一SIP客户端,所述网页界面还包括第二SIP客户端,所述第一SIP客户端通过会话发起协议、实时传输协议向第二SIP客户端播放话术内容,所述网页即时通信模块通过会话发起协议、实时传输协议向智能语音机器人传输用户的实时音频数据。作为优选,所述通过VAD算法判断用户是否发出声音的步骤如下:(1)所述语音活动检测模块基于用户发言的音频数据计算最近1秒内复数个采样节点的声音频率;(2)设置阈值,当采样节点的声音频率达到阈值时,则将采样节点计为一次有效音频;(3)连续n个的采样节点均为有效音频时,计为一次有声片段;(4)一段时间内的有声片段超过m个时,则判断当前用户处于发言状态。本专利技术的有益效果是:1、针对现有方案的不足,本专利技术提供了基于VAD算法的打断智能语音机器人对话方案,以提升交互体验、提高沟通效率;2、本专利技术包括且不限于通过各类VAD智能声音检测技术检查智能语音机器人与用户实时交流过程中,对用户意图的识别、切换,智能语音机器人及时响应访客问题与意图,做到更接近人类日常沟通的体验;3、用户或智能语音机器人发起语音交流后,一直实时检查用户是否发声,识别并做语音分析,检查当前对话用户更明确的问题与意图,并在预设的话术中寻找相关回复;4、对话过程中,智能语音机器人在进行当前节点的语音交流时,也一直通过自然语言理解模块识别用户最新意图,且在识别到最新意图时,及时响应,将进行的对话保留现场,切换到新的对话节点上;5、新的对话节点完成后,智能语音机器人会自动切回之前通话节点,继续交流,也包括用户持续打断对话,并不断切换至新的节点;6、在机器人与访客实时语音交流的过程中实时检测客户声音,并识别意图,及时响应最新的访客问题。能带来更友好、更近乎人类交流的服务体验,大大提升沟通效率与交互体验。附图说明图1是本专利技术的流程示意图;图2是本专利技术中通过VAD算法判断用户是否发出声音流程示意图;图3是本专利技术中智能语音机器人与网页界面的结构示意图。图1-3中:1、智能语音机器人,2、第一SIP客户端,3、实时语音识别模块,4、自然语言理解模块,5、语音活动检测模块,6、网页界面,7、网页即时通信模块,8、第二SIP客户端。具体实施方式下面通过具体实施例,并结合附图,对本专利技术的技术方案作进一步的具体描述:实施例:如附图1-3所示的一种基于VAD算法打断智能语音机器人对话的方法,所述方法包括:S1、用户在网页界面6通过网页即时通信模块7发起语音交流,智能语音机器人1按照预设话术进行语音播放;S2、智能语音机器人1内的语音活动检测模块5通过VAD算法实时检测判断用户是否发出声音,并过滤背景声音与噪音;S3、若语音活动检测模块5识别用户发出声音,中断智能语音机器人1的语音输出,等待用户发言结束;S4、智能语音机器人1实时将用户发言音频数据发送至实时语音识别模块3识别用户发言内容,并通过自然语言理解模块4识别用户意图;S5、语音活动检测模块5识别用户发言结束,智能语音机器人1根据识别用户意图改变,选择切换新话术节点;识别用户意图未改变,继续当前话术节点。当用户或智能语音机器人1发起语音交流时,智能语音机器人1会实时将访客声音送入实时语音识别模块3和自然语言理解模块4中进行语音识别与语音处理,分析语音内容与用户意图;在智能语音机器人1播放语音时,同时实时检测用户是否发声,并过滤背景声与噪音,当语音活动检测模块5中的VAD算法识别到用户说话时,中断智能语音机器人1语音输出,等待用户说话结束;同时将用户的音频数据输送到实时语音识别模块3和自然语言理解模块4中识别用户说话内容与意图,匹配相关问题和回复话术;当用户说话结束时,语音活动检测模块5识别出用户发言结束,智能语音机器人1根据最新匹配的话术内容,进行语音回复。所述智能语音机器人1还包括第一SIP客户端2,所述网页界面6还包括第二SIP客户端8,所述第一SIP客户端2通过会话发起协议、实时传输协议向第二SIP客户端8播放话术内容,所述网页即时通信模块7通过会话发起协议、实时传输协议向智能语音机器人1传输用户的实时音频数据,通过智能语音机器人1内的第一SIP客户端2和网页界面6内的第二SIP客户端8、网页即时通信模块7实现用户、智能语音机器人1之间的全双工实时语音通话,智能语音机器人1通过会话发起协议、实时传输协议由第一SIP客户端2向第二SIP客户端8发送回复的话术内容,用户在网页界面6通过会话发起协议、实时传输协议由网页即时通信模块7向智能语音机器人1传输用户的实时音频数据。所述通过VAD算法判断用户是否发出声音的步骤如下:(1)所述语音活动检测模块5基于用户发言的音频数据计算最近1秒内复数个采样节点的声音频率;(2)设置阈值,当采样节点的声音频率达到阈值时,则将采样本文档来自技高网...

【技术保护点】
1.一种基于VAD算法打断智能语音机器人对话的方法,其特征是,所述方法包括:S1、用户在网页界面通过网页即时通信模块发起语音交流,智能语音机器人按照预设话术进行语音播放;S2、智能语音机器人内的语音活动检测模块通过VAD算法实时检测判断用户是否发出声音,并过滤背景声音与噪音;S3、若语音活动检测模块识别用户发出声音,中断智能语音机器人的语音输出,等待用户发言结束;S4、智能语音机器人实时将用户发言音频数据发送至实时语音识别模块识别用户发言内容,并通过自然语言理解模块识别用户意图;S5、语音活动检测模块识别用户发言结束,智能语音机器人根据识别用户意图改变,选择切换新话术节点;识别用户意图未改变,继续当前话术节点。

【技术特征摘要】
1.一种基于VAD算法打断智能语音机器人对话的方法,其特征是,所述方法包括:S1、用户在网页界面通过网页即时通信模块发起语音交流,智能语音机器人按照预设话术进行语音播放;S2、智能语音机器人内的语音活动检测模块通过VAD算法实时检测判断用户是否发出声音,并过滤背景声音与噪音;S3、若语音活动检测模块识别用户发出声音,中断智能语音机器人的语音输出,等待用户发言结束;S4、智能语音机器人实时将用户发言音频数据发送至实时语音识别模块识别用户发言内容,并通过自然语言理解模块识别用户意图;S5、语音活动检测模块识别用户发言结束,智能语音机器人根据识别用户意图改变,选择切换新话术节点;识别用户意图未改变,继续当前话术节点。2.根据权利要求1所述的一种基于VAD算法打断智能语音机器人对话的方法...

【专利技术属性】
技术研发人员:刘鹏孙传报
申请(专利权)人:浙江百应科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1