人机交互中的结束语音对话的方法及语音识别装置制造方法及图纸

技术编号：13631306 阅读：77 留言：0更新日期：2016-09-02 11:52

本申请公开了一种人机交互中结束语音对话的方法和语音识别装置。所述方法包括步骤：在开启语音对话后检测声音能量，如果检测不到预设定阈值的声音能量，则开启图像检测；如果图像检测不到人，则关闭图像检测并关闭语音对话。根据本发明专利技术的实施例，将图像检测的信息和静音检测相结合，来判断是否结束语音对话状态，可以在用户离开的场景，更快的结束对话，降低功耗。

全部详细技术资料下载

【技术实现步骤摘要】

本公开一般涉及人机交互
，具体涉及人机交互中的结束语音对话的方法及语音识别装置。
技术介绍
当前，越来越多的电子产品支持语音对话的交互方式，这些电子产品包括手机、平板电脑、其它手持智能设备等。同时，为了节省产品的电力消耗和提高续航时间，往往设置在对话开始前唤醒机器进行语音对话，并在结束语音对话后进入待机或休眠模式，使更多的硬件电路停止工作，消耗功率更低。机器如何正确地判断与用户的语音对话结束以维持低电力消耗也就成为一项重要的技术。业界已经开发多种使机器判断语音对话结束的方法。例如，苹果公司的siri语音助手提供两种结束语音对话的方式：一种是siri给出用户提问问题的答案，一问一答结束。例如，用户对siri说“北京天气”，siri会向用户说出一个答案，本轮对话结束；如果要再和siri说话，必须再次唤醒siri。另一种是进行多轮对话，由对话内容决定多轮对话的结束。例如，用户对siri说“我想打电话”，siri会提醒你说出姓名。上述方法中，人机交互非常不自然，用户可能一直在对话，中间有不同的主题，通过内容判断是否对话结束，非常不可靠。而且，有时命中多轮对话，有时没有，用户完全无法预期，用户体验较差。一种改进的方式是设置一个超时机制，这样的一个例子是一次对话后，在一定时间，例如15秒内，机器保持对话状态，15秒后，机器停止语音识别，及对话停止。对于设置超时机制的方法，虽然一定程度减轻了对话提早结束的问题，但是，设置多长时间超时合适没有逻辑依据，仅是大致的判断。这种超时机制有可能浪费功耗，例如，有可能用户已经离开了机器，但是机器仍然要等待超时时间。另一种结...

【技术保护点】
一种人机交互中结束语音对话的方法，其特征在于，所述方法包括步骤：A、在开启语音对话后检测声音能量，如果检测不到预设定阈值的声音能量，则开启图像检测；B、如果图像检测不到人，则关闭图像检测并关闭语音对话。

【技术特征摘要】
1.一种人机交互中结束语音对话的方法，其特征在于，所述方法包括步骤：A、在开启语音对话后检测声音能量，如果检测不到预设定阈值的声音能量，则开启图像检测；B、如果图像检测不到人，则关闭图像检测并关闭语音对话。2.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：在步骤B中，如果图像检测到人，则继续保持语音对话。3.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：在步骤B中，如果图像检测到人，则在预设定时间内再次检测声音能量，并且如果在预设定时间内再次检测声音能量检测不到预设定阈值的声音能量，则关闭图像检测并关闭语音对话。4.根据权利要求2或3所述的方法，其特征在于，所述方法进一步包括：在步骤B中，所述图像检测到人包括检测到人的头部。5.根据权利要求2所述的方法，其特征在于，所述方法进一步包括：在步骤B中，如果图像检测到人，且在预设定时间内未检测到声音能量，还主动发出提醒用户对话的语音提示。6.根据权利要求3所述的方法，其特征在于，所述方法进一步包括：在步骤B中，图像检测到人包括检测到人的正脸、侧脸或背脸，并且，图像检测到人的正脸、侧脸或背脸时主动发出不同的语音提示。7.根据权利要求6所述的方法，其特征在于，所述方法进一步包括：在步骤B中，图像检测到人的正脸后再次检测声音能量的预设定时间比图像检测到人的侧脸后再次检测声音能量的预设定时间更长。8.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：结合语音识别、语义理解、图像识别多种输入方式，建立学习模型，判断是否结束对话...

【专利技术属性】
技术研发人员：陈本东，牛建伟，潘复平，曹立新，
申请(专利权)人：北京地平线机器人技术研发有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人