说话人识别方法、装置和机器人制造方法及图纸

技术编号:19623302 阅读:24 留言:0更新日期:2018-12-01 06:25
本申请实施例涉及一种说话人识别方法、装置和机器人。所述方法包括:确定说话人的方位信息;如果所述方位信息位于所述机器人的视觉范围外,获取所述说话人的声音特征;将所述声音特征基于预设数据库进行识别并获得识别结果,所述预设数据库包括声音特征、声音特征对应的用户信息和声音特征对应的历史交互信息;根据所述识别结果和所述历史交互信息确定所述说话人的身份。本申请实施例在说话人位于机器人视觉范围外时,通过获取说话人的声音特征,并将所述声音特征基于预设数据库进行识别确定所述说话人的身份。在用户不在机器人视觉范围内对机器人说话时,能识别说话人的身份,提高机器人的智能度,也提升了用户体验。

Speaker Recognition Method, Device and Robot

The embodiment of the application relates to a speaker recognition method, device and robot. The method includes: determining the speaker's orientation information; acquiring the speaker's voice feature if the orientation information is outside the vision range of the robot; recognizing the voice feature based on the preset database and obtaining the recognition result, and the preset database includes the correspondence of voice feature and voice feature. Historical interaction information corresponding to user information and voice characteristics; the identity of the speaker is determined according to the recognition result and the historical interaction information. In the embodiment of this application, when the speaker is outside the vision range of the robot, the speaker's identity is determined by acquiring the speaker's voice characteristics and recognizing the voice features based on a preset database. When the user does not speak to the robot within the scope of the robot vision, it can recognize the identity of the speaker, improve the intelligence of the robot, and also enhance the user experience.

【技术实现步骤摘要】
说话人识别方法、装置和机器人
本申请实施例涉及人工智能领域,例如涉及一种说话人识别方法、装置和机器人。
技术介绍
随着人工智能技术的发展,机器人为人类的生产生活带来了很多便利。当前用户对机器人进行控制时,可对机器人预先设置唤醒词,通过“唤醒词+命令内容”的方式发布语音命令,当机器人听到一个特定的唤醒词(例如机器人的名字)时,就知道用户在呼唤自己,从而执行用户的语音命令。在研究现有技术过程中,专利技术人发现相关技术中至少存在如下问题:现有技术中机器人只能单纯的执行用户发布的任务,而无法结合用户的身份与用户进行智能对话,智能度较低。如果机器人能通过识别用户的面部特征而确定用户的身份,并进一步针对用户的身份与用户进行交谈,将能很好的提升用户体验,提高智能度。但是如果用户在对机器人说话时不在机器人的视觉范围内,机器人将无法识别用户的身份。
技术实现思路
本申请实施例的一个目的是提供一种说话人识别方法、装置和机器人,在用户不在机器人视觉范围内对机器人说话时,能识别说话人的身份,提高机器人的智能度。第一方面,本申请实施例提供了一种说话人识别方法,所述方法应用于机器人,所述方法包括:确定说话人的方位信息;如果所述方位信息位于所述机器人的视觉范围外,获取所述说话人的声音特征;将所述声音特征基于预设数据库进行识别并获得识别结果,所述预设数据库包括声音特征、声音特征对应的用户信息和声音特征对应的历史交互信息;根据所述识别结果和所述历史交互信息确定所述说话人的身份。第二方面,本申请实施例还提供了说话人识别装置,所述装置应用于机器人,所述装置包括:方位确定模块,用于确定说话人的方位信息;声音特征获取模块,用于如果所述方位信息位于所述机器人的视觉范围外,获取所述说话人的声音特征;声音识别模块,用于将所述声音特征基于预设数据库进行识别并获得识别结果,所述预设数据库包括声音特征、声音特征对应的用户信息和声音特征对应的历史交互信息;身份确认模块,用于根据所述识别结果和所述历史交互信息确定所述说话人的身份。第三方面,本申请实施例还提供了一种机器人,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的方法。第四方面,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被机器人执行时,使所述机器人执行上述的方法。本申请实施例提供的说话人识别方法、装置和机器人,在说话人位于机器人视觉范围外时,通过获取说话人的声音特征,并将所述声音特征基于预设数据库进行识别并获得识别结果,然后根据所述识别结果和机器人的历史交互信息确定所述说话人的身份。在用户不在机器人视觉范围内对机器人说话时,能识别说话人的身份,提高机器人的智能度,也提升了用户体验。附图说明一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。图1是本申请说话人识别方法和装置的应用场景示意图;图2是本申请的一个实施例的预设数据库存储示意图;图3是本申请说话人识别方法的一个实施例的流程图;图4是本申请说话人识别方法的一个实施例的流程图;图5是本申请说话人识别装置的一个实施例的结构示意图;图6是本申请说话人识别装置的一个实施例的结构示意图;图7是本申请实施例提供的机器人的硬件结构示意图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请提供的说话人识别方法和装置适用于图1所示的应用场景,包括机器人10和用户20。机器人10可以为可移动机器人或者不可移动机器人,用户10可以为任意数量的、具有相同或者相近操作行为的群体,例如家庭、工作组或者个人。用户20可以对机器人10进行设置或者发布命令。在一些实施例中,机器人10具有存储和运算能力,其可以存储有预设数据库,所述预设数据库中可以事先存储已知用户的声音特征(例如声纹特征)、面部特征和用户信息等(请参照图2)。机器人10具有声音特征识别能力,能够将说话人的声音特征与预设数据库中已知用户的声音特征进行对比,识别出说话人的身份。在另一些实施例中,机器人10还具有面部识别能力,能够将用户的面部特征与预设数据库中已知用户的面部特征进行对比,识别出用户的身份。其中,当说话人位于机器人视觉范围内时,可以通过识别说话人面部特征的方法识别说话人的身份,当说话人位于机器人视觉范围外时,可以通过识别说话人的声音特征识别说话人的身份。具体的,可以通过传声器阵列定位说话人的位置,然后通过判断该位置是否位于机器人视觉范围内来判断所述说话人是否在机器人视觉范围内。机器人10识别出说话人的身份后,可以根据说话人的身份与说话人进行对话,提高机器人的智能度,也提高用户体验。在另一些实施例中,该预设数据库也可以设置在云端服务器或者其他服务器上,机器人10通过网络访问该预设数据库。图1中仅示例性的示出了一个用户和一个机器人,在实际应用中,还可以包括更多的用户和机器人。图3为本申请实施例提供的说话人识别方法的流程示意图,所述方法可由图1中的机器人10执行,如图3所示,所述方法包括:101:确定说话人的方位信息。具体的,可以通过麦克风阵列定位声源位置,即说话人的位置。102:如果所述方位信息位于所述机器人的视觉范围外,获取所述说话人的声音特征。如果所述说话人位于所述机器人的视觉范围外,则可以通过识别声音特征的方法识别说话人的身份。其中,所述声音特征例如声纹特征,可以通过例如麦克风阵列采集说话人的语音信号,然后机器人10基于预先训练好的声纹模型(例如神经网络模型)对语音信号进行声纹特征提取。103:将所述声音特征基于预设数据库进行识别并获得识别结果,所述预设数据库包括声音特征、声音特征对应的用户信息和声音特征对应的历史交互信息。其中,所述预设数据库可以预先存储一个或者多个已知用户的声音特征和该声音特征对应的用户信息,机器人10将说话人的声音特征与预设数据库中的声音特征进行对比识别,以识别说话人的身份。其中,在一些实施例中,预设数据库中的数据存储格式可以采取图2所示的格式,每条数据包括ID、称呼、面部特征、声纹特征和历史交互次数中的一个或者多个。通常预先存储的场合,可以存储每条数据的完善信息。在机器人与用户的交互过程中,还可以不断更新和完善所述预设数据库,增加新的数据,在一次交互中,可能只能更新一条数据的部分信息,可以通过多次交互逐步完善数据的完整信息。104:根据所述识别结果和所述历史交互信息确定所述说话人的身份。将所述说话人的声音特征与预设数据库中的各个声音特征进行比对,将获得至少一个识别结果和所述识别结果对应的相似度。其中,所述历史交互信息包括历史交互本文档来自技高网...

【技术保护点】
1.一种说话人识别方法,所述方法应用于机器人,其特征在于,所述方法包括:确定说话人的方位信息;如果所述方位信息位于所述机器人的视觉范围外,获取所述说话人的声音特征;将所述声音特征基于预设数据库进行识别并获得识别结果,所述预设数据库包括声音特征、声音特征对应的用户信息和声音特征对应的历史交互信息;根据所述识别结果和所述历史交互信息确定所述说话人的身份。

【技术特征摘要】
1.一种说话人识别方法,所述方法应用于机器人,其特征在于,所述方法包括:确定说话人的方位信息;如果所述方位信息位于所述机器人的视觉范围外,获取所述说话人的声音特征;将所述声音特征基于预设数据库进行识别并获得识别结果,所述预设数据库包括声音特征、声音特征对应的用户信息和声音特征对应的历史交互信息;根据所述识别结果和所述历史交互信息确定所述说话人的身份。2.根据权利要求1所述的方法,其特征在于,所述历史交互信息包括历史交互次数;所述根据所述识别结果和所述历史交互信息确定所述说话人的身份,包括:如果所述识别结果中相似度大于预设相似度阈值的声音特征为一个,则确定该声音特征对应的用户为说话人;如果所述识别结果中包括至少两个相似度大于预设相似度阈值的声音特征,且包括0个疑似声音特征,则确定相似度最大的声音特征对应的用户为说话人,所述疑似声音特征为相似度与最大相似度的差值小于预设差值阈值的声音特征;如果所述识别结果中包括至少两个相似度大于预设相似度阈值的声音特征,且包括至少一个疑似声音特征,则结合历史交互次数和相似度、从相似度最大的声音特征和疑似声音特征中、确定一个或至少两个声音特征对应的用户为说话人。3.根据权利要求2所述的方法,其特征在于,所述结合历史交互次数和相似度、从相似度最大的声音特征和疑似声音特征中、确定一个或至少两个声音特征对应的用户为说话人,包括:根据相似度最大的声音特征和疑似声音特征的相似度和历史交互次数获得各声音特征的相似度判定概率;如果相似度最大的声音特征和疑似声音特征中,包括0个第二疑似声音特征,则确定相似度判定概率最大的声音特征对应的用户为所述说话人,所述第二疑似声音特征为与最大相似度判定概率的差值小于预设差值阈值的相似度判定概率对应的声音特征;如果相似度最大的声音特征和疑似声音特征中,包括至少一个第二疑似声音特征,则确定相似度判定概率最大的声音特征和第二疑似声音特征对应的用户为所述说话人。4.根据权利要求1-3任意一项所述的方法,其特征在于,所述预设数据库还包括声音特征对应的面部特征;所述方法还包括:如果确定出所述说话人的身份,则使机器人头部转向所述方位信息指示的方向;根据确定出的身份对应的面部特征验证所述身份的正确性,如果所述身份对应的面部特征位于所述机器人的视觉范围内,则所述身份正确,如果所述身份对应的面部特征不位于所述机器人的视觉范围内,则所述身份错误。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:如果存在验证正确的身份,则根据所述身份与所述身份对应的用户进行对话;如果不存在验证正确的身份,则获取所述机器人视觉范围内说话人的面部特征,并将该面部特征基于所述预设数据库进行识别;如果识别成功,则获取所述视觉范围内说话人的声音特征,并根据该声音特征在预设数据库内更新或者创建识别成功的面部特征对应的声音特征;如果识别失败,则将所述视觉范围内说话人的面部特征和声音特征对应的加入所述预设数据库内。6.根据权利要求1所述的方法,其特征在于,所述预设数据库还包括声音特征对应的面部特征;所述方法还包括:如果所述方位信息位于所述机器人的视觉范围内,则获取所述说话人的面部特征,并将所述面部特征基于所述预设数据库进行识别;如果识别成功,则获取所述说话人的声音特征,并根据所述说话人的声音特征在所述预设数据库中创建或者更新所述面部特征对应的声音特征;如果识别失败,则获取所述说话人的声音特征,将所述说话人的声音特征和所述面部特征对应的加入所述预设数据库内。7.一种说话人识别装置,所述装置应用于机器人,其特征在于,所述装置包括:方位确定模块,用于确定说话人的方位信息;声音特征获取模块,用于如果所述方位信息位于所述机器人的视觉范围外,获取所述说话人的声音特征;声音识别模块,用于将所述声音特...

【专利技术属性】
技术研发人员:骆磊
申请(专利权)人:达闼科技北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1