人机交互中的语音唤醒方法及语音识别装置制造方法及图纸

技术编号:13629239 阅读:32 留言:0更新日期:2016-09-02 07:43
本申请公开了人机交互中的语音唤醒方法和语音识别装置,所述语音唤醒方法包括以下步骤:静音检测步骤,包括:在机器检测到声音能量时,进行唤醒词检出,如果声音能量包括唤醒词,则唤醒机器开始语音识别,否则,启动图像检测;图像检测步骤,包括:在图像检测中,如果检测到人,则唤醒机器开始语音识别,否则继续检测声音能量。通过本发明专利技术的方法和语音识别装置,能够结合图像检测,实现自然地人机交互,同时保持待机状态下的低电力消耗。

【技术实现步骤摘要】

本公开一般涉及人机交互
,具体涉及人机交互中的语音唤醒方法及语音识别装置
技术介绍
当前,越来越多的电子产品支持语音对话的交互方式,这些电子产品包括手机、平板电脑、其它手持智能设备等。同时,为了节省产品的电力消耗和提高续航时间,往往设置多种休眠模式,在休眠模式下,更多的硬件电路停止工作,消耗的功率更低,一旦恢复正常工作,则需要从休眠模式下唤醒,其中一种唤醒方式就是通过语音对话唤醒。在人机交互中,休眠模式的唤醒通常有两种方式,一种是按键唤醒,即通过按压电子产品(例如手机)上的按键,退出休眠模式;另一种是语音唤醒词唤醒,用户通过发出唤醒词的语音,被手机识别出,退出休眠模式。设置这种唤醒的原因,是机器录音检出唤醒词的功耗要远小于一直处于命令词识别状态的功耗。一个典型的例子是苹果公司的siri,其实现了这两种唤醒方式。只有唤醒后,用户的语音才会被机器作为语音识别的输入,用户才可以继续说出自己的命令。这样,在非手持的情况下,几乎每次想向siri发出指令,都需要先说“嘿,siri”,这非常不自然。大部分人机交互产品,都沿袭了siri的这种交互方式。上述方法,存在人机交互很不自然,用户每次都需要唤醒机器再说命令词,与人的自然交流差别很大的弊端。有的公司开始改进这种方式,比如,设置一个超时机制,在一次唤醒后,只有用户15秒内都不说话,机器才进入待唤醒模式,需要再次唤醒,才能发出指令,否则,可以直接说出指令。这种设置超时机制的方法,虽然一定程度上减轻了用户唤醒的次数,但是设置多长时间的超时合适没有逻辑依据,只是大致的判断。
技术实现思路
鉴于现有技术中的上述缺陷或不足,期望提供一种人机交互自然,又节省电子产品的待机功耗的技术方案。在本专利技术的第一方面,提供一种人机交互中的语音唤醒方法,所述语音唤醒方法包括以下步骤:静音检测步骤,包括在机器检测到声音能量时,进行唤醒词检出,如果声音能量包括唤醒词,则唤醒机器开始语音识别,否则启动图像检测,转入图像检测步骤;图像检测步骤,包括在图像检测中,如果检测到人,则唤醒机器开始语音识别,否则转入静音检测步骤,继续检测声音能量。可选地,根据上述语音唤醒方法,在所述图像检测步骤中,所述检测到人是检测到人的头部。可选地,根据上述语音唤醒方法,在所述图像检测步骤中,所述检测到人是检测到人的脸部。可选地,根据上述语音唤醒方法,在所述图像检测步骤中,如果检测到人的脸部是识别过的脸部,则还主动发出语音识别状态就绪的语音提示。可选地,根据上述语音唤醒方法,在所述图像检测步骤中,如果检测到人的脸部是识别过的脸部,则还以已存储的昵称或尊称或戏谑称呼主动发出语音提示。可选地,根据上述语音唤醒方法,在所述静音检测步骤中,如果声音能量不包括唤醒词,则利用声源定位信息辅助调整摄像头的拍摄角度,进行图像检测。可选地,根据上述语音唤醒方法,在唤醒机器开始语音识别后,在设定阈值的时间内,机器持续进行语音识别。可选地,根据上述语音唤醒方法,通过对上述语音唤醒过程中语音识别、语义理解、图像检测和识别等多种方式的输入和输出结果的分析,建立学习模型,判断是否进入唤醒后状态的人机对话模式。在本专利技术的第二方面,提供一种人机交互中的语音识别装置,所
述语音识别装置包括:静音检测部件,用于检测声音能量,如果检测到声音,则启动唤醒词识别部件;唤醒词识别部件,用于进行唤醒词检出,如果检测到唤醒词,则启动语音唤醒部件,否则,启动图像检测部件;图像检测部件,用于图像检测,如果检测到人,则启动语音唤醒部件,否则指示静音检测部件继续检测声音;语音唤醒部件,用于唤醒机器开始语音识别。可选地,根据上述的语音识别装置,所述图像检测部件检测到人是检测到人的头部。可选地,根据上述的语音识别装置,所述图像检测部件检测到人是检测到人的脸部。可选地,根据上述的语音识别装置,所述图像检测部件如果检测到人的脸部是识别过的脸部,则还主动发出语音识别状态就绪的语音提示。可选地,根据上述的语音识别装置,所述图像检测部件如果检测到人的脸部是识别过的脸部,则还以已存储的昵称或尊称或戏谑称呼主动发出语音提示。可选地,根据上述的语音识别装置,所述静音检测部件还用于如果检测到的声音能量不包括唤醒词,则利用声源定位信息辅助调整摄像头的拍摄角度,进行图像检测。可选地,根据上述的语音识别装置,所述语音识别装置在被唤醒开始语音识别后,在设定阈值的时间内,能够持续进行语音识别。可选地,根据上述的语音识别装置,所述语音识别装置通过对上述语音唤醒过程中语音识别、语义理解、图像检测和识别等多种方式的输入和输出结果的分析,建立学习模型,判断是否进入唤醒后状态的人机对话模式。本专利技术通过将图像检测和语音识别的信息结合,来判断机器是否进入唤醒后状态。结合图像检测,可以在人脸部不离开手机时,继续进行语音识别,减少唤醒词的使用,使人机对话更自然。通过静音检
测来触发图像检测,又可以避免总是运行图像检测带来的过多功耗。另外,根据图像检测的不同内容,机器可以具有不同的反应,不同的主动说话内容,实现更生动的人机交互体验。通过图像信息,可以降低误唤醒的概率。通过本专利技术提供的语音唤醒方法和语音识别装置,能够结合图像检测,实现自然地人机交互,同时保持待机状态下的低电力消耗。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是根据本专利技术的一个实施例的语音唤醒方法的流程图;图2示出根据本专利技术的语音识别装置的运行状态转换图;图3是根据本专利技术的一个实施例的语音识别装置的方框图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。先参考图1,其是根据本专利技术的一个实施例的语音唤醒方法的流程图。通常情况下,具有人机语音交互功能的电子产品,例如手机或平板电脑,具有多种运行状态。例如,图2示出根据本专利技术的语音识别装置的运行状态转换图,其多种运行状态包括:无检测状态(关机),如机器断电,无任何程序在运行,功耗为零或者极低;静音检测状态,此时机器的静音检测模块在工作,功耗低;唤醒词检测状态,此时能检出唤醒词,功耗较低;图像检测状态,此时能检测出人或人脸等;语音唤醒后状态(命令词/通用识别状态),此时能识别出命令词或者
非限定词的句子,功耗高。在静音检测状态下,机器具有极低的功耗,以此来保持长时间工作的能力。在语音唤醒后状态下,机器在后台运行一个或一些应用程序,但同时机器能够接受操作者的语音输入指令,以此来完成一系列的任务。在使用语音识别功能前,都可以使仅静音检测模块在工作,以此来降低功耗。返回至图1。在步骤S101,在静音检测状态,机器以极低功耗循环地执行静音检测的例行程序,检测机器周围的声音能量输入。在步骤S102,一旦机器检测到周围达到一定大小的声音能量,则启动唤醒词识别模块,进行唤醒词识别(步骤S103)。在步骤S104,唤醒词识别模块识别采集的声音能量本文档来自技高网
...

【技术保护点】
一种人机交互中的语音唤醒方法,其特征在于,所述语音唤醒方法包括以下步骤:静音检测步骤,包括:在机器检测到声音能量时,进行唤醒词检出,如果声音能量包括唤醒词,则唤醒机器开始语音识别,否则启动图像检测,转入图像检测步骤;图像检测步骤,包括:在图像检测中,如果检测到人,则唤醒机器开始语音识别,否则转入静音检测步骤,继续检测声音能量。

【技术特征摘要】
1.一种人机交互中的语音唤醒方法,其特征在于,所述语音唤醒方法包括以下步骤:静音检测步骤,包括:在机器检测到声音能量时,进行唤醒词检出,如果声音能量包括唤醒词,则唤醒机器开始语音识别,否则启动图像检测,转入图像检测步骤;图像检测步骤,包括:在图像检测中,如果检测到人,则唤醒机器开始语音识别,否则转入静音检测步骤,继续检测声音能量。2.根据权利要求1所述的语音唤醒方法,其特征在于,在所述图像检测步骤中,所述检测到人是检测到人的头部。3.根据权利要求1所述的语音唤醒方法,其特征在于,在所述图像检测步骤中,所述检测到人是检测到人的脸部。4.根据权利要求3所述的语音唤醒方法,其特征在于,在所述图像检测步骤中,如果检测到人的脸部是识别过的脸部,则还主动发出语音识别状态就绪的语音提示。5.根据权利要求4所述的语音唤醒方法,其特征在于,如果检测到人的脸部是识别过的脸部,则还以已存储的昵称或尊称或戏谑称呼主动发出语音提示。6.根据权利要求1所述的语音唤醒方法,其特征在于,在所述静音检测步骤中,如果声音能量不包括唤醒词,则利用声源定位信息辅助调整摄像头的拍摄角度,进行图像检测。7.根据权利要求1所述的语音唤醒方法,其特征在于,在唤醒机器开始语音识别后,在设定阈值的时间内,机器持续进行语音识别。8.根据权利要求1-7中任一项所述的语音唤醒方法,其特征在于,所述方法还包括通过对上述语音唤醒过程中语音识别、语义理解、图像检测和识别等多种方式的输入和输出结果的分析,建立学习模型,判断是否进入唤醒后状态的人机对话模式。9.一种人机交互中的语音识别装置,其特征...

【专利技术属性】
技术研发人员:陈本东牛建伟潘复平曹立新杨德刚
申请(专利权)人:北京地平线机器人技术研发有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1