语音定向识别交互方法、装置、设备及介质制造方法及图纸

技术编号:22000159 阅读:48 留言:0更新日期:2019-08-31 05:23
本专利申请涉及人机语音交互领域,公开了一种语音定向识别交互方法,包括如下步骤:拾取正前方的声音信号进行识别,得到语音文本内容,获取该语音文本内容;基于图像采集角度和采集距离,获取同时满足所述图像采集角度和所述采集距离的人脸图像;根据所述语音文本内容和所述人脸图像,判断是否作出回复;其中,所述图像采集角度为60‑70度,所述采集距离小于等于1m。本专利申请还公开了一种语音定向识别交互装置、电子设备及计算机存储介质,本专利提供的语音定向识别交互方法符合日常交流习惯,能有效消除局外人的声音跟环境的声音,实现与正在前方交互的用户达成有效的拟人化沟通。

Interactive methods, devices, devices and media for speech directional recognition

【技术实现步骤摘要】
语音定向识别交互方法、装置、设备及介质
本专利技术涉及人机语音交互领域,具体涉及一种语音定向识别交互方法、装置、设备及介质。
技术介绍
目前机器人或者语音助手的应用普遍处于复杂的环境下,比如会议室、户外、商场等嘈杂环境,从而会出现噪音、混响、人声干扰、回声等各种问题,并且在人机语音交互过程中,用于收声的阵列麦克风也会识别周围360度范围内的声音,为了解决误识环境音的问题,“唤醒词”技术在语音交互中被采用。在实际应用中,只有当机器人或语音交互助手接受到唤醒词之后才会对语音内容进行识别;否则,不进行识别。“唤醒词”技术是当前主流机器人或智能设备进行人机交互时的主要触发方式。使用唤醒词唤醒的问题在于,对作为交互的主体人来说,他必须学习使用唤醒词,如果在一个陌生的地方遇到一个机器人,交互主题人完全不知道唤醒它的是哪一个唤醒词,如果没有唤醒词,将无法与它交流。再者,每次跟机器人对话前都要说一遍“唤醒词”,这样的交互流程不仅机械且影响交互的节奏,并且也会出现忘记说出“唤醒词”或频繁说出“唤醒词”的情况,导致主体交互人说完了一大段话,而机器人没有在聆听。一般跟机器人交互都是站在其正前方,但是由于全向阵列麦克风的收音会导致收音过程中会混入局外人的声音跟环境的声音,即机器人身后或者左右有人声或者噪音也会收入并且识别,从而会降低语音识别的正确性,即使识别正确也有可能导致机器人错误应答,不能和正在前方交互的用户达成有效沟通。为解决上述问题,中国专利CN105204628A公开了一种基于视觉唤醒的语音控制方法,包括语音控制设备接收到至少部分的语音信号后,启动安装在其上的图像接收单元,由图像接收单元获取图像并传送到图像识别单元进行识别,当识别到视线朝向所述语音控制设备的人脸时,进行语音识别。但是该专利仍然没有解决环境噪音的干扰,当语音控制设备360度范围内出现多个声源时,比如图像接收单元识别到人脸同时在语音控制设备接收到周围多个语音信号时,语音控制设备的识别效果会受到外界环境音的干扰。
技术实现思路
为了克服现有技术的不足,本专利技术的目的之一在于提供一种语音定向识别交互方法,结合人脸图像和声音信号确定特定交互对象后进行针对性回复,符合日常交流习惯。本专利技术的目的之一采用以下技术方案实现:一种语音定向识别交互方法,其特征在于,包括如下步骤:获取采集到的语音文本内容;获取同时满足图像采集角度和采集距离的人脸图像;根据所述语音文本内容和所述人脸图像,判断是否作出回复;其中,所述图像采集角度为60-70度,所述采集距离小于等于1m,且所述语音文本内容的采集方法为:对正前方的声音信号进行定向拾取和信号增强后,进行语音识别。进一步地,所述人脸图像的采集步骤如下:对采集到的图像数据进行特征提取,再通过人脸检测算法判断图像中是否包含人脸,若不包含人脸,对所述图像数据不作处理;若包含人脸,则利用人脸角度估计算法和人脸距离估计算法计算图像中人脸的3D角度信息和距离信息,若人脸的3D角度信息和距离信息均满足条件,则保留该图像数据作为人脸图像;若不满足条件,则不采集。进一步地,当同时获取到所述语音文本内容和所述人脸图像时,即针对所述语音文本内容作出回复,否则不作回复。进一步地,所述人脸角度估计算法采用基于卷积神经网络的人脸检测算法,包括如下步骤:建立人脸图片库,并对所述人脸图片库进行特征提取和分析,提取五官的形态和位置进行统计,得到统计分析结果;采用深度卷积神经网络方法对所述统计分析结果进行训练得到建立部位分类器,根据人脸分类器对所述图像数据中的人脸进行评分,然后根据每个特征部位的得分进行规则分析得到人脸候选区域,最后结合边界回归算法得到最终的人脸检测结果。进一步地,所述人脸角度估计算法采用了LVQ算法预先训练人脸在镜头中的90个角度模型,通过输入人脸的眼部特征匹配相应角度,最后得到人脸的3D角度信息。进一步地,所述声音信号定向拾取后采用广义旁瓣消除器算法进行信号增强,具体为:将声音信号进行能量归一化,然后通过固定波束形成器产生主瓣上的正向语音参考信号,并通过旁瓣消除器产生噪声参考信号,最后利用噪声抵消器将消除主瓣信号上的噪声成分。本专利技术的目的之二在于提供一种语音定向识别交互装置,采用以下技术方案实现:语音定向识别交互装置,包括:语音拾取设备,用于定向拾取正前方的声音信号,并进行语音识别,得到语音文本内容;图像采集设备,预先设置有图像采集角度和采集距离,并采集同时满足所述图像采集角度和所述采集距离的人脸图像;处理单元,用于获取所述语音文本内容和所述人脸图像,并判断是否作出回复。进一步地,所述语音拾取设备定向拾取的收音范围为:收音角度60-70度,收音距离小于等于1m。本专利技术的目的之三在于提供执行专利技术目的之一的电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,所述计算机程序被处理器执行时实现上述的语音定向识别交互方法。本专利技术的目的之四在于提供存储专利技术目的之一的计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的语音定向识别交互方法。相比现有技术,本专利技术的有益效果在于:定向识别来自正前方的声音信号,限制拾取声音信号的角度和距离,并对拾取到的声音信号进行信号增强,有助于消除环境噪音的干扰,避免拾取周围多个声音信号而影响识别效果;限制图像采集设备采集人脸图像的角度和距离,更符合日常交流模式,只有同时获取到特定范围和距离内的声音信号和人脸图像时,才相应回话,不仅更符合日常交流模式,更有助于达成有效沟通,增加人机沟通的拟人化效果。附图说明图1是本专利技术实施例1语音定向识别交互方法的流程示意图;图2为本专利技术实施例2提供的语音定向识别交互装置的示意图;图3是本专利技术实施例3的电子设备的结构框图。具体实施方式以下将结合附图,对本专利技术进行更为详细的描述,需要说明的是,下参照附图对本专利技术进行的描述仅是示意性的,而非限制性的。各个不同实施例之间可以进行相互组合,以构成未在以下描述中示出的其他实施例。实施例1语音定向识别交互方法,通过定向获取语音信号和符合要求的人脸图像,以进行语音交互,如图1所示,包括如下步骤:获取采集到的语音文本内容;获取同时满足图像采集角度和采集距离的人脸图像;根据获取到的语音文本内容和人脸图像,判断是否作出回复;其中,所述图像采集角度为60-70度,所述采集距离小于等于1m。且上述语音文本内容的采集方法为:对正前方的声音信号进行定向拾取和信号增强后,进行语音识别。当同时获取到所述语音文本内容和所述人脸图像时,即针对所述语音文本内容作出回复,否则不作回复。在本实施例中,基于人脸检测算法、人脸角度估计算法和距离检测算法判断是否有人脸出现在60-70度角度范围且人脸距离在1m的距离范围内,利用人脸角度估计算法和距离检测算法采集人脸图像的步骤如下:首先,对采集到的图像数据进行特征提取,再通过人脸检测算法判断图像中是否包含人脸,若不包含人脸,对所述图像数据不作处理。若包含人脸,则利用人脸角度估计算法和距离检测算法计算图像中人脸的3D角度信息和距离信息,若人脸的3D角度信息和距离信息均满足条件,则保留该图像数据作为人脸图像;若不满足条件,则不作处理。上述人脸检测算法基于卷积神经网络方法,具体包括如下步骤:建立本文档来自技高网
...

【技术保护点】
1.一种语音定向识别交互方法,其特征在于,包括如下步骤:获取采集到的语音文本内容;获取同时满足图像采集角度和采集距离的人脸图像;根据所述语音文本内容和所述人脸图像,判断是否作出回复;其中,所述图像采集角度为60‑70度,所述采集距离小于等于1m,且所述语音文本内容的采集方法为:对正前方的声音信号进行定向拾取和信号增强后,进行语音识别。

【技术特征摘要】
1.一种语音定向识别交互方法,其特征在于,包括如下步骤:获取采集到的语音文本内容;获取同时满足图像采集角度和采集距离的人脸图像;根据所述语音文本内容和所述人脸图像,判断是否作出回复;其中,所述图像采集角度为60-70度,所述采集距离小于等于1m,且所述语音文本内容的采集方法为:对正前方的声音信号进行定向拾取和信号增强后,进行语音识别。2.如权利要求1所述的语音定向识别交互方法,其特征在于,所述人脸图像的采集步骤如下:对采集到的图像数据进行特征提取,再通过人脸检测算法判断图像中是否包含人脸,若不包含人脸,对所述图像数据不作处理;若包含人脸,则利用人脸角度估计算法和人脸距离估计算法计算图像中人脸的3D角度信息和距离信息,若人脸的3D角度信息和距离信息均满足条件,则保留该图像数据作为人脸图像;若不满足条件,则不采集。3.如权利要求1或2所述的语音定向识别交互方法,其特征在于,当同时获取到所述语音文本内容和所述人脸图像时,即针对所述语音文本内容作出回复,否则不作回复。4.如权利要求2所述的所述的语音定向识别交互方法,其特征在于,所述人脸角度估计算法采用基于卷积神经网络的人脸检测算法,包括如下步骤:建立人脸图片库,并对所述人脸图片库进行特征提取和分析,提取五官的形态和位置进行统计,得到统计分析结果;采用深度卷积神经网络方法对所述统计分析结果进行训练得到建立部位分类器,根据人脸分类器对所述图像数据中的人脸进行评分,然后根据每个特征部位的得分进行规则分析得到人脸候选...

【专利技术属性】
技术研发人员:嵇望汪斌林达李林峰
申请(专利权)人:浙江远传信息技术股份有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1