语音交互方法、语音交互装置及机器人制造方法及图纸

技术编号:16464308 阅读:99 留言:0更新日期:2017-10-27 10:42
本发明专利技术实施例提供一种语音交互方法、装置及机器人,所述方法应用于机器人,包括:当接收的声音信号的声源角度在所述机器人的预设角度范围内时,获取图像,识别所述图像中的一个或多个人脸的角度;选取所述人脸角度与所述声源角度最接近的人脸为说话人;以及调整所述机器人的角度,使得所述说话人的脸部中心落在所述机器人前方中心位置,以便于对所述声音信号进行响应。通过本方法、装置及机器人,可以使机器人的语音交互功能更智能化和拟人化。

Voice interaction method, voice interactive device and robot

The embodiment of the invention provides a method, device and robot voice interaction, including the method applied to the robot, obtaining images at a preset angle range of the robot when the received sound signal when the sound source, one or more of the face recognition the image in the perspective of face selection; the face angle and the sound source point closest to the speaker; and adjust the angle of the robot, so that the speaker's face fell in front of the robot center center, in order to respond to the voice signal. This method, device and robot can make the voice interaction function of robot more intelligent and anthropomorphic.

【技术实现步骤摘要】
语音交互方法、语音交互装置及机器人
本专利技术属于机器人领域,尤其涉及一种语音交互方法、语音交互装置及机器人。
技术介绍
随着现代科技的飞速发展,智能机器人的应用范围越来越广泛,不管是家中,还是商场、银行等公共场所都能够见到智能机器人的身影。机器人与说话人的语音交互,一直是机器人智能化,拟人化的重要环节,除了对话上的交互之外,机器人相对于说话人的方向,站位,也是非常重要的智能化体现。现有机器人与说话人语音交互过程中,通常是说话人主动站位到机器人正前方,使得语音交互更流畅。相对而言,机器人不能根据说话人的语音方向自动站位,智能化、拟人化有待改进。
技术实现思路
综上所述,本专利技术实施例提供一种语音交互方法、语音交互装置及机器人,用以实现机器人与说话人语音交互时,准确面向说话人,更加智能化和拟人化。第一方面,本专利技术实施例提供一种语音交互方法,应用于机器人,包括:当接收的声音信号的声源角度在所述机器人的预设角度范围内时,获取图像,识别所述图像中的一个或多个人脸的角度;选取所述人脸角度与所述声源角度最接近的人脸为说话人;以及调整所述机器人的角度,使得所述说话人的脸部中心落在所述机器人前方中心位置,以便于对所述声音信号进行响应。进一步的,所述方法还包括:接收所述声音信号;检测所述声音信号的能量;以及当所述声音信号的能量达到所述机器人的阈值,定位所述声音信号的声源角度。进一步的,所述方法还包括:当接收的声音信号的声源角度不在所述机器人的预设角度范围内时,调整所述机器人的角度,使得接收所述声音信号的角度在所述机器人的预设角度范围内。进一步的,所述方法在所述调整所述机器人的角度,使得所述说话人的脸部中心落在所述机器人前方中心位置步骤之后,还包括:判断是否超过所述机器人预设的时间间隔;以及,当超过所述机器人预设的时间间隔,获取所述说话人的人脸图像,识别说话人的人脸角度,调整所述机器人的角度,使得所述说话人的脸部中心落在所述机器人前方中心位置。进一步的,在所述方法中,对所述声音信号进行响应包括:对所述声音信号进行语音识别;根据语音识别的结果,进行自然语言理解,检索对应的答案;以及,将所述答案以语音合成或者肢体动作的方式回应给所述说话人。进一步的,所述声源角度为声源方向与所述机器人正面中心方向之间的角度。进一步的,所述人脸角度为所述人脸与所述图像拍摄方向之间的角度。第二方面,本专利技术实施例提供一种语音交互装置,应用于机器人,包括:拾音模块,用于判断接收的声音信号的声源角度是否在所述机器人的预设角度范围内;图像获取模块,用于当接收的声音信号的声源角度在所述机器人的预设角度范围内时,获取图像,识别所述图像中的一个或多个人脸的角度;以及选取所述人脸角度与所述声源角度最接近的人脸为说话人;以及角度调整模块,用于调整所述机器人的角度,使得所述说话人的脸部中心落在所述机器人前方中心位置,以便于对所述声音信号进行响应。进一步的,所述拾音模块进一步包括:能量检测子模块,用于检测接收到所述声音信号的能量;声源定位子模块,用于当所述声音信号的能量达到所述机器人的阈值,定位所述声音信号的声源角度;以及语音识别子模块,用于对所述声音信号进行语音识别。进一步的,所述装置还包括:交互响应模块,用于根据所述语音识别的结果,进行自然语言理解,检索对应的答案,将所述答案以语音合成或者肢体动作的方式回应给所述说话人。进一步的,所述角度调整模块还用于,当接收的所述声音信号的声源角度不在所述机器人的预设角度范围内时,调整所述机器人的角度,使得接收所述声音信号的角度在所述机器人的预设角度范围内。进一步的,所述装置还包括:计时模块,用于每隔一段时间间隔,触发所述图像获取模块重新获取说话人的人脸图像,识别说话人的人脸角度;以及,触发角度调整模块调整所述机器人的角度,使得所述说话人的脸部中心落在所述机器人前方中心位置。进一步的,所述声源角度为声源方向与所述机器人正面中心方向之间的角度。进一步的,所述人脸角度为所述人脸与所述图像拍摄方向之间的角度。第三方面,本专利技术实施例提供一种机器人。该机器人包括设置在所述机器人上的语音交互装置;所述语音交互装置采用上述实施例提供的技术方案实现。通过本专利技术实施例提供的语音交互方法、语音交互装置及机器人,通过定位声源角度和人脸角度,并通过二者的重合度从多人的场景中确定说话人,并且自动将机器人的正面准确转向说话人,然后进行语音交互。使得机器人与说话人语音交互时更加智能化和拟人化。此外,因为机器人的正面准确转向说话人,机器人的拾音方向正好与声源方向重合,使得拾音角度最优,也十分有利于声音信号的准确获取。附图说明为了更清楚地说明本专利技术或现有技术中的方案,下面将对实施例或现有技术描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1为本专利技术实施例一所提供的一种语音交互方法的流程示意图;图2为本专利技术实施例二所提供的一种语音交互方法的流程示意图;图3为本专利技术实施例三所提供的一种语音交互装置的组成结构示意图;图4位本专利技术实施例四所提供的一种语音交互装置的组成结构示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例,附图中给出了本专利技术的较佳实施例。本专利技术可以以许多不同的形式来实现,并不限于本文所描述的实施例,相反地,提供这些实施例的目的是使对本专利技术的公开内容的理解更加透彻全面。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本专利技术。本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本专利技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。实施例一本专利技术实施例一提供一种语音交互方法,应用于机器人。在本专利技术实施例中,机器人的设计通常采用与一般成人的高度相似,比如165厘米高。为了便于拾音,通常利用环形麦克风阵列进行拾音,比如6麦克方案,阵列处在头部的某个位置,比如头顶,水平放置,主麦克风(0号麦克风)位于头部正面中心;麦克风阵列指定的波束增强方向就在0°方向。通过麦克风阵列获取声音信号后,可以进行自动本文档来自技高网
...
语音交互方法、语音交互装置及机器人

【技术保护点】
一种语音交互方法,应用于机器人,其特征在于,包括:当接收的声音信号的声源角度在所述机器人的预设角度范围内时,获取图像,识别所述图像中的一个或多个人脸的角度;选取所述人脸角度与所述声源角度最接近的人脸为说话人;以及调整所述机器人的角度,使得所述说话人的脸部中心落在所述机器人前方中心位置,以便于对所述声音信号进行响应。

【技术特征摘要】
1.一种语音交互方法,应用于机器人,其特征在于,包括:当接收的声音信号的声源角度在所述机器人的预设角度范围内时,获取图像,识别所述图像中的一个或多个人脸的角度;选取所述人脸角度与所述声源角度最接近的人脸为说话人;以及调整所述机器人的角度,使得所述说话人的脸部中心落在所述机器人前方中心位置,以便于对所述声音信号进行响应。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:接收所述声音信号;检测所述声音信号的能量;以及当所述声音信号的能量达到所述机器人的阈值,定位所述声音信号的声源角度。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:当接收的声音信号的声源角度不在所述机器人的预设角度范围内时,调整所述机器人的角度,使得接收所述声音信号的角度在所述机器人的预设角度范围内。4.根据权利要求1所述的方法,其特征在于,在所述调整所述机器人的角度,使得所述说话人的脸部中心落在所述机器人前方中心位置步骤之后,还包括:判断是否超过所述机器人预设的时间间隔;以及,当超过所述机器人所述预设的时间间隔时,获取所述说话人的人脸图像,识别说话人的人脸角度,调整所述机器人的角度,使得所述说话人的脸部中心落在所述机器人前方中心位置。5.根据权利要求1至4任一所述的方法,其特征在于,所述对所述声音信号进行响应包括:对所述声音信号进行语音识别;根据语音识别的结果,进行自然语言理解,检索对应的答案;以及将所述答案以语音合成或者肢体动作的方式回应给所述说话人。6.根据权利要求1至4任一所述的方法,其特征在于,所述声源角度为声源方向与所述机器人正面中心方向之间的角度。7.根据权利要求1至4任一所述的方法,其特征在于,所述人脸角度为所述人脸与所述图像拍摄方向之间的角度。8.一种语音交互装置,应用于机器人,其特征在于,包括:拾音模块,用于判断接收的声音信号的声源角度是否在所述机器人的预...

【专利技术属性】
技术研发人员:蒋化冰陈岳峰廖凯齐鹏举方园米万珠舒剑吴琨管伟罗璇
申请(专利权)人:上海木爷机器人技术有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1