The embodiment of the application relates to a speaker recognition method, device and robot. The method includes: determining the speaker's orientation information; acquiring the speaker's voice feature if the orientation information is outside the vision range of the robot; recognizing the voice feature based on the preset database and obtaining the recognition result, and the preset database includes the correspondence of voice feature and voice feature. Historical interaction information corresponding to user information and voice characteristics; the identity of the speaker is determined according to the recognition result and the historical interaction information. In the embodiment of this application, when the speaker is outside the vision range of the robot, the speaker's identity is determined by acquiring the speaker's voice characteristics and recognizing the voice features based on a preset database. When the user does not speak to the robot within the scope of the robot vision, it can recognize the identity of the speaker, improve the intelligence of the robot, and also enhance the user experience.
【技术实现步骤摘要】
说话人识别方法、装置和机器人
本申请实施例涉及人工智能领域,例如涉及一种说话人识别方法、装置和机器人。
技术介绍
随着人工智能技术的发展,机器人为人类的生产生活带来了很多便利。当前用户对机器人进行控制时,可对机器人预先设置唤醒词,通过“唤醒词+命令内容”的方式发布语音命令,当机器人听到一个特定的唤醒词(例如机器人的名字)时,就知道用户在呼唤自己,从而执行用户的语音命令。在研究现有技术过程中,专利技术人发现相关技术中至少存在如下问题:现有技术中机器人只能单纯的执行用户发布的任务,而无法结合用户的身份与用户进行智能对话,智能度较低。如果机器人能通过识别用户的面部特征而确定用户的身份,并进一步针对用户的身份与用户进行交谈,将能很好的提升用户体验,提高智能度。但是如果用户在对机器人说话时不在机器人的视觉范围内,机器人将无法识别用户的身份。
技术实现思路
本申请实施例的一个目的是提供一种说话人识别方法、装置和机器人,在用户不在机器人视觉范围内对机器人说话时,能识别说话人的身份,提高机器人的智能度。第一方面,本申请实施例提供了一种说话人识别方法,所述方法应用于机器人,所述方法包括:确定说话人的方位信息;如果所述方位信息位于所述机器人的视觉范围外,获取所述说话人的声音特征;将所述声音特征基于预设数据库进行识别并获得识别结果,所述预设数据库包括声音特征、声音特征对应的用户信息和声音特征对应的历史交互信息;根据所述识别结果和所述历史交互信息确定所述说话人的身份。第二方面,本申请实施例还提供了说话人识别装置,所述装置应用于机器人,所述装置包括:方位确定模块,用于确定说话人的方位信 ...
【技术保护点】
1.一种说话人识别方法,所述方法应用于机器人,其特征在于,所述方法包括:确定说话人的方位信息;如果所述方位信息位于所述机器人的视觉范围外,获取所述说话人的声音特征;将所述声音特征基于预设数据库进行识别并获得识别结果,所述预设数据库包括声音特征、声音特征对应的用户信息和声音特征对应的历史交互信息;根据所述识别结果和所述历史交互信息确定所述说话人的身份。
【技术特征摘要】
1.一种说话人识别方法,所述方法应用于机器人,其特征在于,所述方法包括:确定说话人的方位信息;如果所述方位信息位于所述机器人的视觉范围外,获取所述说话人的声音特征;将所述声音特征基于预设数据库进行识别并获得识别结果,所述预设数据库包括声音特征、声音特征对应的用户信息和声音特征对应的历史交互信息;根据所述识别结果和所述历史交互信息确定所述说话人的身份。2.根据权利要求1所述的方法,其特征在于,所述历史交互信息包括历史交互次数;所述根据所述识别结果和所述历史交互信息确定所述说话人的身份,包括:如果所述识别结果中相似度大于预设相似度阈值的声音特征为一个,则确定该声音特征对应的用户为说话人;如果所述识别结果中包括至少两个相似度大于预设相似度阈值的声音特征,且包括0个疑似声音特征,则确定相似度最大的声音特征对应的用户为说话人,所述疑似声音特征为相似度与最大相似度的差值小于预设差值阈值的声音特征;如果所述识别结果中包括至少两个相似度大于预设相似度阈值的声音特征,且包括至少一个疑似声音特征,则结合历史交互次数和相似度、从相似度最大的声音特征和疑似声音特征中、确定一个或至少两个声音特征对应的用户为说话人。3.根据权利要求2所述的方法,其特征在于,所述结合历史交互次数和相似度、从相似度最大的声音特征和疑似声音特征中、确定一个或至少两个声音特征对应的用户为说话人,包括:根据相似度最大的声音特征和疑似声音特征的相似度和历史交互次数获得各声音特征的相似度判定概率;如果相似度最大的声音特征和疑似声音特征中,包括0个第二疑似声音特征,则确定相似度判定概率最大的声音特征对应的用户为所述说话人,所述第二疑似声音特征为与最大相似度判定概率的差值小于预设差值阈值的相似度判定概率对应的声音特征;如果相似度最大的声音特征和疑似声音特征中,包括至少一个第二疑似声音特征,则确定相似度判定概率最大的声音特征和第二疑似声音特征对应的用户为所述说话人。4.根据权利要求1-3任意一项所述的方法,其特征在于,所述预设数据库还包括声音特征对应的面部特征;所述方法还包括:如果确定出所述说话人的身份,则使机器人头部转向所述方位信息指示的方向;根据确定出的身份对应的面部特征验证所述身份的正确性,如果所述身份对应的面部特征位于所述机器人的视觉范围内,则所述身份正确,如果所述身份对应的面部特征不位于所述机器人的视觉范围内,则所述身份错误。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:如果存在验证正确的身份,则根据所述身份与所述身份对应的用户进行对话;如果不存在验证正确的身份,则获取所述机器人视觉范围内说话人的面部特征,并将该面部特征基于所述预设数据库进行识别;如果识别成功,则获取所述视觉范围内说话人的声音特征,并根据该声音特征在预设数据库内更新或者创建识别成功的面部特征对应的声音特征;如果识别失败,则将所述视觉范围内说话人的面部特征和声音特征对应的加入所述预设数据库内。6.根据权利要求1所述的方法,其特征在于,所述预设数据库还包括声音特征对应的面部特征;所述方法还包括:如果所述方位信息位于所述机器人的视觉范围内,则获取所述说话人的面部特征,并将所述面部特征基于所述预设数据库进行识别;如果识别成功,则获取所述说话人的声音特征,并根据所述说话人的声音特征在所述预设数据库中创建或者更新所述面部特征对应的声音特征;如果识别失败,则获取所述说话人的声音特征,将所述说话人的声音特征和所述面部特征对应的加入所述预设数据库内。7.一种说话人识别装置,所述装置应用于机器人,其特征在于,所述装置包括:方位确定模块,用于确定说话人的方位信息;声音特征获取模块,用于如果所述方位信息位于所述机器人的视觉范围外,获取所述说话人的声音特征;声音识别模块,用于将所述声音特...
【专利技术属性】
技术研发人员:骆磊,
申请(专利权)人:达闼科技北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。