人机交互中的结束语音对话的方法及语音识别装置制造方法及图纸

技术编号:13631306 阅读:77 留言:0更新日期:2016-09-02 11:52
本申请公开了一种人机交互中结束语音对话的方法和语音识别装置。所述方法包括步骤:在开启语音对话后检测声音能量,如果检测不到预设定阈值的声音能量,则开启图像检测;如果图像检测不到人,则关闭图像检测并关闭语音对话。根据本发明专利技术的实施例,将图像检测的信息和静音检测相结合,来判断是否结束语音对话状态,可以在用户离开的场景,更快的结束对话,降低功耗。

【技术实现步骤摘要】

本公开一般涉及人机交互
,具体涉及人机交互中的结束语音对话的方法及语音识别装置
技术介绍
当前,越来越多的电子产品支持语音对话的交互方式,这些电子产品包括手机、平板电脑、其它手持智能设备等。同时,为了节省产品的电力消耗和提高续航时间,往往设置在对话开始前唤醒机器进行语音对话,并在结束语音对话后进入待机或休眠模式,使更多的硬件电路停止工作,消耗功率更低。机器如何正确地判断与用户的语音对话结束以维持低电力消耗也就成为一项重要的技术。业界已经开发多种使机器判断语音对话结束的方法。例如,苹果公司的siri语音助手提供两种结束语音对话的方式:一种是siri给出用户提问问题的答案,一问一答结束。例如,用户对siri说“北京天气”,siri会向用户说出一个答案,本轮对话结束;如果要再和siri说话,必须再次唤醒siri。另一种是进行多轮对话,由对话内容决定多轮对话的结束。例如,用户对siri说“我想打电话”,siri会提醒你说出姓名。上述方法中,人机交互非常不自然,用户可能一直在对话,中间有不同的主题,通过内容判断是否对话结束,非常不可靠。而且,有时命中多轮对话,有时没有,用户完全无法预期,用户体验较差。一种改进的方式是设置一个超时机制,这样的一个例子是一次对话后,在一定时间,例如15秒内,机器保持对话状态,15秒后,机器停止语音识别,及对话停止。对于设置超时机制的方法,虽然一定程度减轻了对话提早结束的问题,但是,设置多长时间超时合适没有逻辑依据,仅是大致的判断。 这种超时机制有可能浪费功耗,例如,有可能用户已经离开了机器,但是机器仍然要等待超时时间。另一种结束语音对话的途径是设置一个命令词,如“拜拜”,但这需要正确识别语境和命令词,另一种方法是设置一个按钮,告诉机器对话已经结束,停止语音识别。这种方法比较死板,需要用户机械的操作。
技术实现思路
鉴于现有技术中的上述缺陷或不足,期望提供一种自然的、并且能够维持机器在非交互方式下低功耗的结束人机语音交互的方式。在一个方面,本申请提供一种人机交互中结束语音对话的方法,所述方法包括步骤:A、在开启语音对话后检测声音能量,如果检测不到预设定阈值的声音能量,则开启图像检测;B、如果图像检测不到人,则关闭图像检测并关闭语音对话。可选地,所述方法进一步包括:在步骤B中,如果图像检测到人,则继续保持语音对话。可选地,所述方法进一步包括:在步骤B中,如果图像检测到人,则在预设定时间内再次检测声音能量,并且如果在预设定时间内再次检测声音能量检测不到预设定阈值的声音能量,则关闭图像检测并关闭语音对话。可选地,所述方法进一步包括:在步骤B中,所述图像检测到人包括检测到人的头部。可选地,所述方法进一步包括:在步骤B中,如果图像检测到人,且在预设定时间内未检测到声音能量,还主动发出提醒用户对话的语音提示。可选地,所述方法进一步包括:在步骤B中,图像检测到人包括检测到人的正脸、侧脸或背脸,并且,图像检测到人的正脸、侧脸或背脸时主动发出不同的语音提示。可选地,所述方法进一步包括:在步骤B中,图像检测到人的正 脸后再次检测声音能量的预设定时间比图像检测到人的侧脸后再次检测声音能量的预设定时间更长。可选地,所述方法进一步包括:结合语音识别、语义理解、图像识别多种输入方式,建立学习模型,判断是否结束对话。在另一方面,本申请还提供一种人机交互中语音识别装置,所述语音识别装置包括:语音对话装置,其用于采集外部声音能量和发出语音消息;静音检测装置,其用于在开启语音对话装置后检测声音能量,如果检测不到预设定阈值的声音能量,则开启图像检测装置;图像检测装置,其用于检测人;对话结束装置,其用于如果图像检测装置检测不到人,则关闭图像检测装置并关闭语音对话装置。可选地,所述对话结束装置进一步用于:如果图像检测装置检测到人,则保持语音对话装置继续工作。可选地,所述对话结束装置进一步用于:如果图像检测装置检测到人,则静音检测装置在预设定时间内再次检测声音能量,并且如果在预设定时间内再次检测声音能量检测不到预设定阈值的声音能量,则关闭图像检测装置并关闭语音对话装置。可选地,所述语音对话装置进一步用于:如果所述图像检测装置检测到人,且静音检测装置在预设定时间内未检测到声音能量,则所述语音对话装置主动发出提醒用户对话的语音提示。可选地,所述图像检测装置检测到人包括检测到人的正脸、侧脸或背脸,并且,图像检测到人的正脸、侧脸或背脸时主动发出不同的语音提示。可选地,所述语音识别装置进一步用于:图像检测装置检测到人的正脸后再次检测声音能量的预设定时间比图像检测装置检测到人的侧脸后再次检测声音能量的预设定时间更长。本专利技术通过将图像检测的信息和静音检测相结合,来判断是否结束语音对话状态,可以在用户离开的场景,更快的结束对话,降低功耗。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1示出根据本专利技术的一个实施例的结束语音对话的方法的流程图;图2示出根据本专利技术的一个实施例的语音识别装置的方框图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。先参考图1,其是根据本专利技术的一个实施例的结束语音对话的方法的流程图。在该实施例中,一种具有人机语音交互功能的电子设备,例如手机或平板电脑,其包括语音识别装置和图像检测装置,图像检测装置包括各种摄像头,并且该设备具有多种操作状态。就语音对话功能而言,其在关闭语音对话功能的操作下功耗最低。因此,在不进行语音对话的情况下,语音对话处于关闭状态以维持机器最小的电力消耗。当用户要进行语音对话后,通过特定方式开启该机器的语音输入。例如,在机器的系统设置中打开语音对话的功能,或者通过机器上某个按键或按钮打开语音对话功能。开始语音对话后,机器即开始采集用户的语音输入,并能够根据系统功能向用户发出交互的语音消息。这种交互,有的是给机器的操作命令,有的是向机器提出问题,要机器作答。当用户通过语音交互实现相关操作,或者获知其需要的问题答案, 再或者简单地,用户不想继续语音交互而转向其它事务时,机器能够智能地识别语音对话结束,自动地退出语音对话。其识别步骤包括:在步骤100,在开启语音对话后检测声音能量,如果检测不到预设定阈值的声音能量,则开启图像检测;在步骤200,如果图像检测不到人,则关闭图像检测并关闭语音对话。这里的声音能量是对静音状态的检测。在对话过程中,机器如果检测到用户语音停顿,声音能量未能达到预设定的阈值,则开启图像检测装置,通过结合图像信息进一步确认是否结束对话。对于声音能量的该预设定的阈值,可以根据人正常对话时语音较低或适中的水平来确定。如果在步骤200中图像检测不到人,则可以判断用户不在机器前,就关闭图像检测并关闭语音对话,以此来保持机器的低功率消耗,维持长的续航能力。这里图像检测到人,包括检测到人的轮廓,头部、躯干、四肢等的影像。进一步地,如果在步骤2本文档来自技高网
...

【技术保护点】
一种人机交互中结束语音对话的方法,其特征在于,所述方法包括步骤:A、在开启语音对话后检测声音能量,如果检测不到预设定阈值的声音能量,则开启图像检测;B、如果图像检测不到人,则关闭图像检测并关闭语音对话。

【技术特征摘要】
1.一种人机交互中结束语音对话的方法,其特征在于,所述方法包括步骤:A、在开启语音对话后检测声音能量,如果检测不到预设定阈值的声音能量,则开启图像检测;B、如果图像检测不到人,则关闭图像检测并关闭语音对话。2.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:在步骤B中,如果图像检测到人,则继续保持语音对话。3.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:在步骤B中,如果图像检测到人,则在预设定时间内再次检测声音能量,并且如果在预设定时间内再次检测声音能量检测不到预设定阈值的声音能量,则关闭图像检测并关闭语音对话。4.根据权利要求2或3所述的方法,其特征在于,所述方法进一步包括:在步骤B中,所述图像检测到人包括检测到人的头部。5.根据权利要求2所述的方法,其特征在于,所述方法进一步包括:在步骤B中,如果图像检测到人,且在预设定时间内未检测到声音能量,还主动发出提醒用户对话的语音提示。6.根据权利要求3所述的方法,其特征在于,所述方法进一步包括:在步骤B中,图像检测到人包括检测到人的正脸、侧脸或背脸,并且,图像检测到人的正脸、侧脸或背脸时主动发出不同的语音提示。7.根据权利要求6所述的方法,其特征在于,所述方法进一步包括:在步骤B中,图像检测到人的正脸后再次检测声音能量的预设定时间比图像检测到人的侧脸后再次检测声音能量的预设定时间更长。8.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:结合语音识别、语义理解、图像识别多种输入方式,建立学习模型,判断是否结束对话...

【专利技术属性】
技术研发人员:陈本东牛建伟潘复平曹立新
申请(专利权)人:北京地平线机器人技术研发有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1