人机会话的处理方法、装置及电子设备制造方法及图纸

技术编号:20122458 阅读:33 留言:0更新日期:2019-01-16 12:53
本发明专利技术实施例提供一种人机会话的处理方法、装置及电子设备,其中,方法包括:在设备完成上一条语音指令后,对上一条语音指令的内容进行识别,确定用户是否有基于上一条语音指令而再次输入语音指令的需求;如果确定用户有再次输入语音指令的需求,则启动语音活动检测VAD;否则,结束本次会话。本发明专利技术实施例的方案可以在不需要反复唤醒设备的基础上,满足用户想主动与设备进行连续会话的需求,改善用户使用体验,提高会话效率。

Man-machine conversation processing methods, devices and electronic devices

The embodiment of the present invention provides a processing method, device and electronic device for man-machine conversation, in which the method includes: after the device completes the last voice instruction, the content of the last voice instruction is identified to determine whether the user needs to input voice instruction again based on the last voice instruction; if the user needs to input voice instruction again, the method is activated. Moving voice activity detects VAD; otherwise, end the session. The scheme of the embodiment of the present invention can satisfy the user's need for continuous conversation with the device on the basis of not requiring the device to wake up repeatedly, improve the user's experience and improve the conversation efficiency.

【技术实现步骤摘要】
人机会话的处理方法、装置及电子设备
本申请涉及计算机
,尤其涉及一种人机会话的处理方法、装置及电子设备。
技术介绍
在人机会话的场景下,用户向设备输入一条语音指令后,设备会执行用户输入的语音指令,例如增大音量、播放视频等,指令执行完毕后,还可以通过TTS(TextToSpeech,文字转语音)向用户进行反馈,比如播放“音量已经增大”、“视频已打开”等。当设备完成一条语音指令后,认为整个会话终止了,便进入休眠状态。但是,在连续会话场景下,如果用户还有进一步的语音指令想输入,则需要重新唤醒设备。重新唤醒设备无论从时间上还是程序上都会导致较大的使用不便,例如,用户要重新输入语音唤醒词,并且,唤醒设备也会花一定的时间,从而严重影响使用体验。
技术实现思路
本专利技术提供了一种人机会话的处理方法、装置及电子设备,在不需要反复唤醒设备的基础上,满足用户想主动与设备进行连续会话的需求,改善用户使用体验,提高会话效率。为达到上述目的,本专利技术的实施例采用如下技术方案:第一方面,提供了一种人机会话的处理方法,包括:在设备完成上一条语音指令后,对上一条语音指令的内容进行识别,确定用户是否有基于上一条语音指令而再次输入语音指令的需求;如果确定用户有再次输入语音指令的需求,则启动语音活动检测;否则,结束本次会话。第二方面,提供了另一种人机会话的处理方法,包括:对所接收的语音指令的内容进行识别;判断用户是否有再次输入语音指令的需求;根据判断结果,执行人机会话操作。第三方面,提供了一种人机会话的处理装置,包括:指令识别模块,用于在设备完成上一条语音指令后,对上一条语音指令的内容进行识别,确定用户是否有基于上一条语音指令而再次输入语音指令的需求;语音检测模块,用于如果确定用户有再次输入语音指令的需求,则启动语音活动检测;否则,结束本次会话。第四方面,提供了另一种人机会话的处理装置,包括:内容识别模块,用于对所接收的语音指令的内容进行识别;需求判断模块,用于判断用户是否有再次输入语音指令的需求;执行操作模块,用于根据判断结果,执行人机会话操作。第五方面,提供了一种电子设备,包括:存储器,用于存储程序;处理器,耦合至所述存储器,用于执行所述程序,以用于:在设备完成上一条语音指令后,对上一条语音指令的内容进行识别,确定用户是否有基于上一条语音指令而再次输入语音指令的需求;如果确定用户有再次输入语音指令的需求,则启动语音活动检测;否则,结束本次会话。第六方面,提供了另一种电子设备,包括:存储器,用于存储程序;处理器,耦合至所述存储器,用于执行所述程序,以用于:对所接收的语音指令的内容进行识别;判断用户是否有再次输入语音指令的需求;根据判断结果,执行人机会话操作。本专利技术提供的人机会话的处理方法、装置及电子设备,在设备完成上一条语音指令后,通过对用户是否会输入下一条语音指令进行预测判断,从而能够提高设备执行用户的连续语音指令的效率,提升用户体验。上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本专利技术实施例的人机会话的处理的逻辑示意图一;图2为本专利技术实施例的人机会话的处理的逻辑示意图二;图3为本专利技术实施例的人机会话的处理的系统结构图;图4a为本专利技术实施例的人机会话的处理方法流程图一;图4b为本专利技术实施例的人机会话的处理方法流程图一;图5a为本专利技术实施例的人机会话的处理装置结构图一;图5b为本专利技术实施例的人机会话的处理装置结构图二;图6为本专利技术实施例的人机会话的处理装置结构图三;图7为本专利技术实施例的电子设备的结构示意图一;图8为本专利技术实施例的电子设备的结构示意图二。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。在现有人机会话的场景中,用户向机器输入一条语音指令后,机器会执行用户输入的语音指令,例如增大音量、播放视频等,指令执行完毕后,还可以通过TTS向用户进行反馈,比如播放“音量已经增大”。当然,通过TTS向用户进行反馈并不是必要的操作,设备可以执行语音反馈;或者设备会针对该语音指令进行回答,例如用户输入“讲个笑话”,则设备会选取笑话通过TTS来进行回答,再例如用户输入“今天天气如何”,设备会通过TTS播报天气预报。为了方便描述,无论是设备通过TTS向用户回答了问题还是进行了反馈还是仅执行了语音指令对应的操作而没有进行反馈,我们将这几种情形都统称为“设备完成语音指令”。本专利技术改变了现有技术中,在设备完成语音指令后,马上结束会话的处理流程,其核心思想在于,在设备完成语音指令后,先对前一次用户输入的语音指令的内容进行判断,确认用户是否还会输入下一条语音指令,如果判定为用户还会输入下一条语音指令,则在设备完成语音指令后,进入语音活动检测(VoiceActivityDetection,VAD)流程,如果判定为用户不会输入下一条语音指令,则终止会话,从而提高用户连续会话的效率。如图1所示,为本专利技术实施例的人机会话的处理的逻辑示意图。在该逻辑图中,人机会话的基础流程依次为用户唤醒、VAD、语音输入、ASR(AutomaticSpeechRecognition,自动语音识别)、语义解析、指令执行、系统反馈、TTS,此流程构成一个闭环。如果通过对上一条语音指令的内容进行判断后,用户需要有连续发语音指令的需求,则在TTS之后可再启动VAD进行语音检测,重复原有会话流程。另外,本申请还要解决在考虑连续会话场景下,在上述流程中的各环节判断整个会话终止的问题。现有的判断会话终止的方案为从用户唤醒到最终TTS反馈整个流程完结作为会话终止判断条件,基本上不考虑连续会话场景,在会话流程中的各环节一旦出现异常情况,会进行错误类型判断,并通过TTS进行异常反馈,TTS播报之后认为一个会话单元终止。在一些特殊情况下,如语音系统主动向用户提问时,TTS播报后会重新从VAD环节开始进行会话流程。图2为在连续会话场景下,终止会话的处理逻辑图,在该逻辑中,大体包括5个步骤:领域判断、VAD、ASR、语义解析、执行语音指令。领域判断:判断上一语音指令完成后是否需要进入连续会话(连续会话)状态。如果根据上一语音指令的内容,判断用户还有进一步发出语音指令的需求,则启动VAD;否则,结束本次会话。VAD:启动VAD后,在设定时间内如果检测到语音信号,则将语音信号发送至ASR进行语音解析,形成文本;如果没有检测到语音信号,则结束本次会话。ASR:对语音信号进行文本解析,如果解析得到文本内容,则将文本内容进行语义解析;如果文本解析后未得到文本内容,则终止本次会话。语义解析:对文本内容进行语义解析,判断文本中本文档来自技高网...

【技术保护点】
1.一种人机会话的处理方法,其特征在于,包括:在设备完成上一条语音指令后,对上一条语音指令的内容进行识别,确定用户是否有基于上一条语音指令而再次输入语音指令的需求;如果确定用户有再次输入语音指令的需求,则启动语音活动检测;否则,结束本次会话。

【技术特征摘要】
1.一种人机会话的处理方法,其特征在于,包括:在设备完成上一条语音指令后,对上一条语音指令的内容进行识别,确定用户是否有基于上一条语音指令而再次输入语音指令的需求;如果确定用户有再次输入语音指令的需求,则启动语音活动检测;否则,结束本次会话。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:在启动所述语音活动检测后,如果在指定的检测时间内没有检测到语音信号,则结束本次会话;否则,对检测到的语音信号进行自动语音识别。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:统计所述用户在各次会话过程中,用户从设备唤醒成功到发出语音指令的第一平均时间;统计所述用户在各次会话过程中,从启动所述语音活动检测到用户发出语音指令的第二平均时间;根据所述第一平均时间和所述第二平均时间计算得到所述指定的检测时间。4.根据权利要求3所述的方法,其特征在于,所述根据所述第一平均时间和所述第二平均时间计算得到所述指定的检测时间,包括:根据T4=T3+(T2-T3)/2计算得到所述指定的检测时间T4;其中,所述T2为所述第一平均时间T1和预设冗余时间之和,所述T3为所述第二平均时间。5.根据权利要求2所述的方法,其特征在于,所述方法还包括:在对检测到的所述语音信号进行所述自动语音识别后,如果未识别出文本内容,则结束本次会话;否则,对识别出的文本内容进行语义解析。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:在对识别出的所述文本内容进行语义解析后,如果解析得到的语义未进入任一预置的领域,或者解析得到的语义明确为结束本次会话,则结束本次会话;否则,根据解析得到的语义所进入的领域生成语音指令,并根据语音指令控制相应设备执行操作。7.一种人机会话的处理方法,其特征在于,包括:对所接收的语音指令的内容进行识别;...

【专利技术属性】
技术研发人员:刘广兴许毅
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1