人机交互中的语音唤醒方法及语音识别装置制造方法及图纸

技术编号：13629239 阅读：32 留言：0更新日期：2016-09-02 07:43

本申请公开了人机交互中的语音唤醒方法和语音识别装置，所述语音唤醒方法包括以下步骤：静音检测步骤，包括：在机器检测到声音能量时，进行唤醒词检出，如果声音能量包括唤醒词，则唤醒机器开始语音识别，否则，启动图像检测；图像检测步骤，包括：在图像检测中，如果检测到人，则唤醒机器开始语音识别，否则继续检测声音能量。通过本发明专利技术的方法和语音识别装置，能够结合图像检测，实现自然地人机交互，同时保持待机状态下的低电力消耗。

全部详细技术资料下载

【技术实现步骤摘要】

本公开一般涉及人机交互
，具体涉及人机交互中的语音唤醒方法及语音识别装置。
技术介绍
当前，越来越多的电子产品支持语音对话的交互方式，这些电子产品包括手机、平板电脑、其它手持智能设备等。同时，为了节省产品的电力消耗和提高续航时间，往往设置多种休眠模式，在休眠模式下，更多的硬件电路停止工作，消耗的功率更低，一旦恢复正常工作，则需要从休眠模式下唤醒，其中一种唤醒方式就是通过语音对话唤醒。在人机交互中，休眠模式的唤醒通常有两种方式，一种是按键唤醒，即通过按压电子产品(例如手机)上的按键，退出休眠模式；另一种是语音唤醒词唤醒，用户通过发出唤醒词的语音，被手机识别出，退出休眠模式。设置这种唤醒的原因，是机器录音检出唤醒词的功耗要远小于一直处于命令词识别状态的功耗。一个典型的例子是苹果公司的siri，其实现了这两种唤醒方式。只有唤醒后，用户的语音才会被机器作为语音识别的输入，用户才可以继续说出自己的命令。这样，在非手持的情况下，几乎每次想向siri发出指令，都需要先说“嘿，siri”，这非常不自然。大部分人机交互产品，都沿袭了siri的这种交互方式。上述方法，存在人机交互很不自然，用户每次都需要唤醒机器再说命令词，与人的自然交流差别很大的弊端。有的公司开始改进这种方式，比如，设置一个超时机制，在一次唤醒后，只有用户15秒内都不说话，机器才进入待唤醒模式，需要再次唤醒，才能发出指令，否则，可以直接说出指令。这种设置超时机制的方法，虽然一定程度上减轻了用户唤醒的次数，但是设置多长时间的超时合适没有逻辑依据，只是大致的判断。
技术实现思路
鉴于现有技术中的上述缺陷或不足...

【技术保护点】
一种人机交互中的语音唤醒方法，其特征在于，所述语音唤醒方法包括以下步骤：静音检测步骤，包括：在机器检测到声音能量时，进行唤醒词检出，如果声音能量包括唤醒词，则唤醒机器开始语音识别，否则启动图像检测，转入图像检测步骤；图像检测步骤，包括：在图像检测中，如果检测到人，则唤醒机器开始语音识别，否则转入静音检测步骤，继续检测声音能量。

【技术特征摘要】
1.一种人机交互中的语音唤醒方法，其特征在于，所述语音唤醒方法包括以下步骤：静音检测步骤，包括：在机器检测到声音能量时，进行唤醒词检出，如果声音能量包括唤醒词，则唤醒机器开始语音识别，否则启动图像检测，转入图像检测步骤；图像检测步骤，包括：在图像检测中，如果检测到人，则唤醒机器开始语音识别，否则转入静音检测步骤，继续检测声音能量。2.根据权利要求1所述的语音唤醒方法，其特征在于，在所述图像检测步骤中，所述检测到人是检测到人的头部。3.根据权利要求1所述的语音唤醒方法，其特征在于，在所述图像检测步骤中，所述检测到人是检测到人的脸部。4.根据权利要求3所述的语音唤醒方法，其特征在于，在所述图像检测步骤中，如果检测到人的脸部是识别过的脸部，则还主动发出语音识别状态就绪的语音提示。5.根据权利要求4所述的语音唤醒方法，其特征在于，如果检测到人的脸部是识别过的脸部，则还以已存储的昵称或尊称或戏谑称呼主动发出语音提示。6.根据权利要求1所述的语音唤醒方法，其特征在于，在所述静音检测步骤中，如果声音能量不包括唤醒词，则利用声源定位信息辅助调整摄像头的拍摄角度，进行图像检测。7.根据权利要求1所述的语音唤醒方法，其特征在于，在唤醒机器开始语音识别后，在设定阈值的时间内，机器持续进行语音识别。8.根据权利要求1-7中任一项所述的语音唤醒方法，其特征在于，所述方法还包括通过对上述语音唤醒过程中语音识别、语义理解、图像检测和识别等多种方式的输入和输出结果的分析，建立学习模型，判断是否进入唤醒后状态的人机对话模式。9.一种人机交互中的语音识别装置，其特征...

【专利技术属性】
技术研发人员：陈本东，牛建伟，潘复平，曹立新，杨德刚，
申请(专利权)人：北京地平线机器人技术研发有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人