自然交互语音控制方法及装置制造方法及图纸

技术编号:21895685 阅读:37 留言:0更新日期:2019-08-17 16:00
本发明专利技术实施例公开了一种自然交互语音控制方法及装置,包括:获取语音信号,若语音信号与预设语音控制指令一致,获取图像信号;若图像信号满足预设条件,则预设语音控制指令对应的家电设备响应。本发明专利技术实施例提供的方法,通过获取语音信号,若语音信号与预设语音唤醒指令一致,则获取图像信号。若图像信号满足预设条件,则预设语音控制指令对应的家电设备响应。由于在通过语音识别进行语音控制的同时,还可以基于图像信号是否满足预设条件,来决定家电设备是否响应,从而避免了唤醒词或命令词误识别的可能性,提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时,通过人眼视线确认,决定哪个设备响应,更加便捷和人性化。

Natural Interactive Speech Control Method and Device

【技术实现步骤摘要】
自然交互语音控制方法及装置
本专利技术涉及人工智能
,具体涉及一种自然交互语音控制方法及装置。
技术介绍
随着信息技术的不断发展,人们生活水平的提高,智能家电设备进入到千家万户。语音识别技术日渐成熟,越来越多的智能家电设备都引入语音识别技术。在相关技术中,需要通过语音的方式来对智能家电进行控制,如对智能家电进行语音唤醒等。而在实际使用中,各种噪声、聊天等干扰都可能导致智能家电被误控制,从而控制准确率较低。
技术实现思路
为此,本专利技术实施例提供一种自然交互语音控制方法及装置,以解决现有技术中在语音控制中误控制的问题。为了实现上述目的,本专利技术实施例提供如下技术方案:根据本专利技术实施例的第一方面,提供一种自然交互语音控制方法,包括:获取语音信号,若所述语音信号与预设语音控制指令一致,则获取图像信号;若所述图像信号满足预设条件,则所述预设语音控制指令对应的家电设备响应。进一步地,所述预设条件为所述图像信号对应图像中存在人眼视线朝向所述预设语音控制指令对应的家电设备。进一步地,所述所述预设语音控制指令对应的家电设备响应之前,还包括:提取所述图像信号对应图像中的感兴趣区域,将所述感兴趣区域输入至训练后的预设模型中,根据训练后的预设模型的输出结果,确定所述图像信号是否满足所述预设条件。进一步地,所述将所述感兴趣区域输入至训练后的预设模型中之前,还包括:获取训练样本集,所述训练样本集包括人眼视线朝向家电设备的样本感兴趣区域及人眼视线不朝向家电设备的样本感兴趣区域;基于所述训练样本集对预设模型进行训练,得到训练后的预设模型。进一步地,所述预设模型包括基础网络层、全连接网络层及损失函数层。进一步地,所述根据训练后的预设模型的输出结果,确定所述图像信号是否满足所述预设条件,包括:若训练后的预设模型输出的数值大于预设阈值,则确定所述图像信号满足所述预设条件,若训练后的预设模型输出的数值不大于所述预设阈值,则确定所述图像信号不满足所述预设条件。进一步地,获取图像信号之前,还包括:对所述语音信号作预处理,以去除所述语音信号中的噪声信号;提取预处理后的语音信号中的声学特征,并基于预设语音算法对所述声学特征进行识别,以确定所述语音信号与预设语音控制指令是否一致。根据本专利技术实施例的第二方面,提供一种自然交互语音控制装置,包括:第一获取模块,用于获取语音信号,若所述语音信号与预设语音控制指令一致,则获取图像信号;语音控制模块,用于当所述图像信号满足预设条件时,则所述预设语音控制指令对应的家电设备响应。根据本专利技术实施例的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与处理器通信连接的至少一个存储器,其中:存储器存储有可被处理器执行的程序指令,处理器调用程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的自然交互语音控制方法。根据本专利技术的第四方面,提供了一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的自然交互语音控制方法。本专利技术实施例具有如下优点:通过获取语音信号,若所述语音信号与预设语音控制指令一致,则获取图像信号。若所述图像信号满足预设条件,则所述预设语音控制指令对应的家电设备响应。由于在通过语音识别进行语音控制的同时,还可以基于图像信号是否满足预设条件,来决定家电设备是否响应,从而避免了唤醒词或命令词误识别的可能性,提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时,通过人眼视线确认,决定哪个设备响应,更加便捷和人性化。附图说明为了更清楚地说明本专利技术的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本专利技术可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本专利技术所能产生的功效及所能达成的目的下,均应仍落在本专利技术所揭示的
技术实现思路
得能涵盖的范围内。图1为本专利技术实施例提供的一种自然交互语音控制方法的整体流程示意图;图2为本专利技术实施例提供的一种预设模型的结构示意图;图3为本专利技术实施例提供的一种自然交互语音控制装置的整体结构示意图;图4为本专利技术实施例提供的一种电子设备的结构示意图。具体实施方式以下由特定的具体实施例说明本专利技术的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本专利技术的其他优点及功效,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。随着信息技术的不断发展,人们生活水平的提高,智能家电设备进入到千家万户。语音识别技术日渐成熟,越来越多的智能家电设备都引入语音识别技术。在相关技术中,需要通过唤醒词或命令词来控制智能家电。而在实际使用中,各种噪声、聊天等干扰都可能导致智能家电被误唤醒或者误命令,从而唤醒或者命令的准确率较低。针对上述情形,如图1所述,示出了本专利技术具体实施例一种自然交互语音控制方法的整体流程图,包括:S1、获取语音信号,若所述语音信号与预设语音控制指令一致,则获取图像信号;S2、若所述图像信号满足预设条件,则所述预设语音控制指令对应的家电设备响应。其中,语音信号可以通过语音采集卡获取,图像信号可以通过图像传感器获取,本专利技术实施例对此不作具体限定。预设语音控制指令可以为具体的某一唤醒词,也可以为具体的某一命令词。语音信号与预设语音控制指令一致可以指的是语音信号中用户说的唤醒词或命令词与预设的唤醒词或命令词一致。需要说明的是,获取到的图像信号对应图像中的用户与获取到的语音信号对应的用户可以不是同一用户,本专利技术实施例对此不作具体限定。本专利技术实施例提供的方法,通过获取语音信号,若所述语音信号与预设语音控制指令一致,则获取图像信号。若所述图像信号满足预设条件,则所述预设语音控制指令对应的家电设备响应。由于在通过语音识别进行语音控制的同时,还可以基于图像信号是否满足预设条件,来决定家电设备是否响应,从而避免了唤醒词或命令词误识别的可能性,提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时,通过人眼视线确认,决定哪个设备响应,更加便捷和人性化。在本专利技术任一上述具体实施例的基础上,提供一种自然交互语音控制方法,所述预设条件为所述图像信号对应图像中存在人眼视线朝向所述预设语音控制指令对应的家电设备。具体地,以语音控制具体为唤醒为例,由于用户在通过语音方式有意识地唤醒家电设备时,其视线通常也是聚焦在家电设备上的。而若用户无意识地讲话触发了唤醒词时,其实现通常是不会聚焦在家电设备上的。因此,基于该原理,预设条件可以为图像信号对应图像中存在人眼视线朝向所述预设语音控制指令对应的家电设备。需要说明的是,预设语音控制指令对应的家电设备即为用户期望的待唤醒的家电设备。本专利技术实施例提供的方法,通过本文档来自技高网
...

【技术保护点】
1.一种自然交互语音控制方法,其特征在于,包括:获取语音信号,若所述语音信号与预设语音控制指令一致,则获取图像信号;若所述图像信号满足预设条件,则所述预设语音控制指令对应的家电设备响应。

【技术特征摘要】
1.一种自然交互语音控制方法,其特征在于,包括:获取语音信号,若所述语音信号与预设语音控制指令一致,则获取图像信号;若所述图像信号满足预设条件,则所述预设语音控制指令对应的家电设备响应。2.根据权利要求1所述的自然交互语音控制方法,其特征在于,所述预设条件为所述图像信号对应图像中存在人眼视线朝向所述预设语音控制指令对应的家电设备。3.根据权利要求2所述的自然交互语音控制方法,其特征在于,所述所述预设语音控制指令对应的家电设备响应之前,还包括:提取所述图像信号对应图像中的感兴趣区域,将所述感兴趣区域输入至训练后的预设模型中,根据训练后的预设模型的输出结果,确定所述图像信号是否满足所述预设条件。4.根据权利要求3所述的自然交互语音控制方法,其特征在于,所述将所述感兴趣区域输入至训练后的预设模型中之前,还包括:获取训练样本集,所述训练样本集包括人眼视线朝向家电设备的样本感兴趣区域及人眼视线不朝向家电设备的样本感兴趣区域;基于所述训练样本集对预设模型进行训练,得到训练后的预设模型。5.根据权利要求3或4所述的自然交互语音控制方法,其特征在于,所述预设模型包括基础网络层、全连接网络层及损失函数层。6.根据权利要求3所述的自然交互语音控制方法,其特征在于,所述根据训练后的预设...

【专利技术属性】
技术研发人员:崔潇潇郎芬玲
申请(专利权)人:北京探境科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1