一种语音匹配方法及相关设备组成比例

技术编号:24012918 阅读:66 留言:0更新日期:2020-05-02 02:21
本发明专利技术实施例公开了一种语音匹配方法及相关设备,具体可以应用于人工智能AI领域中的智能机器人、智能终端、智能控制、人机交互等多个技术领域,其中的语音匹配方法包括获取音频数据以及视频数据;从所述音频数据中提取待识别的语音信息;从所述视频数据中提取N个用户的唇部运动信息,N为大于1的整数;将所述待识别的语音信息和所述N个用户的唇部运动信息输入到目标特征匹配模型中,得到所述N个用户的唇部运动信息分别与所述待识别的语音信息之间的匹配度;将匹配度最高的用户的唇部运动信息对应的用户,确定为所述待识别的语音信息所属的目标用户。本申请可以提升多人场景中的语音匹配效率和人机交互体验。

A speech matching method and related equipment

【技术实现步骤摘要】
一种语音匹配方法及相关设备
本专利技术涉及人机交互
,尤其涉及一种语音匹配方法及相关设备。
技术介绍
人机交互(Human-ComputerInteraction,HCI)主要是研究人和计算机之间的信息交换,它主要包括人到计算机和计算机到人的信息交换两部分。是与认知心理学、人机工程学、多媒体技术、虚拟现实技术等密切相关的综合学科。在人机交互技术中,多模态交互设备是语音交互、体感交互、及触控交互等多种交互模式并行的交互设备。基于多模态交互设备的人机交互:通过交互设备中的多种跟踪模块(人脸、手势、姿态、语音、及韵律)采集用户信息,并理解、处理、及管理后形成虚拟用户表达模块,与计算机进行交互对话,能够极大提升用户的交互体验。例如,目前市面上已有一些能够与人进行互动的智能机器人产品,并提出利用机器人来代替人进行老年、儿童的精神陪伴。然而,人机交互中的友好性则体现了人作为服务对象对机器人系统提出的更高要求,即通过自然的,更接近与人与人之间交流的交流方式来实现人机对话。机器人若要真正达到对老年、儿童进行情感陪护的功能要求,更好的融入其生活,首先要充分理解用户的意图,了解其心理情感变化,针对不同用户的特点和需求进行个性化交互。但在相对复杂场景下,在机器人与多人面对面交流时(多人教学,游戏,家庭日常生活等),现阶段市场上的机器人由于无法快速准确的确定被交互对象身份,就只能按照既定的程式化交互方式进行交互,极大影响了交互体验。比如,一家人的三个小孩与一个机器人的交互场景,哥哥汤姆明天打算出去郊游,弟弟杰瑞吵着要和他一起去,但姐姐克里丝告诉他明天有暴雨,所以汤姆十分沮丧地问机器人“明天天气如何”;机器人接收到该语音指令后,仅根据接收到的语音信息进行语义识别的结果进行回答:“明天天气晴,有2-3级微风。”而完全不会考虑到发问者汤姆的心情感受,因此,无法实现智能化、个性化的人机交互。
技术实现思路
本专利技术实施例提供一种语音匹配方法、神经网络的训练方法及相关设备,以提升多人场景中的语音匹配效率和人机交互体验。第一方面,本专利技术实施例提供了一种语音匹配方法,可包括:获取音频数据以及视频数据;从所述音频数据中提取待识别的语音信息,所述待识别的语音信息包括目标时间段内的语音波形序列;从所述视频数据中提取N个用户的唇部运动信息,所述N个用户的唇部运动信息中的每一个用户的唇部运动信息包括对应的用户在所述目标时间段内唇部运动的图像序列,N为大于1的整数;将所述待识别的语音信息和所述N个用户的唇部运动信息输入到目标特征匹配模型中,得到所述N个用户的唇部运动信息分别与所述待识别的语音信息之间的匹配度;将匹配度最高的用户的唇部运动信息对应的用户,确定为所述待识别的语音信息所属的目标用户。本专利技术实施例,当应用于多人对话场景中时,可以通过采集音频数据和视频数据,并通过对音频数据中的语音信息和视频数据中的唇部运行信息进行匹配,则可以确定出待识别的语音信息所属的目标用户。即在多人的场景中通过语音特征与多个用户的唇部运动特征进行匹配,识别某段待识别的语音信息具体是由哪个用户发出的,从而可以基于该识别结果进行进一步的控制或操作。区别于现有技术中的通过声纹识别技术或者声源定位技术,即专利技术实施例不依赖于人的声音(声纹易受身体状况、年龄、情绪等的影响),不受环境干扰(如环境中的噪声干扰等),抗干扰能力强,识别效率和准确度高。其中,待识别的语音信息包括在具体某个时间段内的语音波形序列,而N个用户的唇部运动信息则包括多个用户在同一场景下的该时间段内的唇部运动的图像序列(即唇部运动的视频),便于后续进行相关的特征提取和特征匹配。而采用目标特匹配模型,将待识别的语音信息以及N个用户的唇部运动信息作为该目标特征匹配模型的输入,并且将N个用户的唇部运动信息分别与待识别的语音信息之间的匹配度作为该目标特征匹配模型的输出,进而根据匹配度确定出该待识别的语音信息所属的目标用户。可选的,该目标特征匹配模型为神经网络模型。在一种可能的实现方式中,所述目标特征匹配模型包括第一模型、第二模型和第三模型;所述将所述待识别的语音信息和所述N个用户的唇部运动信息输入到目标特征匹配模型中,得到所述N个用户的唇部运动信息分别与所述待识别的语音信息之间的匹配度,包括:将所述待识别的语音信息输入到所述第一模型中,得到语音特征,所述语音特征为K维语音特征,K为大于0的整数;将所述N个用户的唇部运动信息输入到所述第二模型中,得到N个图像序列特征;所述N个图像序列特征中的每一个图像序列特征均为K维图像序列特征;将所述语音特征和所述N个图像序列特征输入到第三模型中,得到所述N个图像序列特征分别与所述语音特征之间的匹配度。本专利技术实施例,通过在目标特征匹配模型中,分别利用第一模型和第二模型对待识别的语音信息和N个用户的唇部运动信息进行特征提取(也可认为是降维过程),使得待识别的语音信息和N个用户的唇部运动信息在分别经过第一模型和第二网路的特征提取之后,均能够得到相同维度的特征,从而使得不同类型的信息可以实现特征归一化的效果。即经过上述网络的特征提取处理后,不同类型的原始数据(待识别的语音信息和N个用户的唇部运动信息)之间可转化为无量纲化指标值(即专利技术实施例中均为K维的语音特征和N个图像序列特征),各指标值处于同一数量级别,可进行综合测评分析(即本专利技术实施例中的特征匹配)。在一种可能的实现方式中,所述目标特征匹配模型为以训练用户的唇部运动信息以及M个语音信息为输入、以所述训练用户的唇部运动信息分别与所述M个语音信息之间的匹配度为M个标签,训练得到的特征匹配模型;可选的,所述M个语音信息包括与所述训练用户的唇部运动信息所匹配的语音信息以及(M-1)个与所述训练用户的唇部运动信息不匹配的语音信息。本专利技术实施例,通过将某个训练用户的唇部运动信息,以及与之匹配的语音信息和多个不匹配的语音信息作为目标特征匹配模型输入,并基于上述M个语音信息与该训练用户的唇部运动信息的实际匹配度作为标签,对初始的神经网络模型进行训练得到的目标特征匹配模型,例如,完全匹配对应的匹配度即标签为1,不匹配对应的匹配度即标签为0。在一种可能的实现方式中,所述方法还包括:确定所述目标用户的用户信息,所述用户信息包括人物属性信息、与所述待识别的语音信息对应面部表情信息、与所述待识别的语音信息对应的环境信息中的一种或多种;基于所述用户信息,生成与所述用户信息匹配的控制指令。本专利技术实施例,在确定了待识别的语音信息具体是由当前的场景中的哪个目标用户发出的之后,则可以根据该用户的属性信息(如性别、年龄、性格等)、面部表情信息(如该目标用户发出待识别的语音信息所对应的表情)以及对应的环境信息(如目标用户当前处于办公环境、家庭环境、或娱乐环境等),来确定与上述用户信息匹配的控制指令(如语音指令、操作指令等)。例如,控制智能机器朝着目标用户发出与所述表情数据和人物属性信息等匹配的语音或操作等,包括机器人的语气、机器人的头的转向以及机器人的回话内容等等。在一种可能的实现方式中,所述从所述视频数据中提取N个用户的唇部运动信息,包括:基于本文档来自技高网
...

【技术保护点】
1.一种语音匹配方法,其特征在于,包括:/n获取音频数据以及视频数据;/n从所述音频数据中提取待识别的语音信息,所述待识别的语音信息包括目标时间段内的语音波形序列;/n从所述视频数据中提取N个用户的唇部运动信息,所述N个用户的唇部运动信息中的每一个用户的唇部运动信息包括对应的用户在所述目标时间段内唇部运动的图像序列,N为大于1的整数;/n将所述待识别的语音信息和所述N个用户的唇部运动信息输入到目标特征匹配模型中,得到所述N个用户的唇部运动信息分别与所述待识别的语音信息之间的匹配度;/n将匹配度最高的用户的唇部运动信息对应的用户,确定为所述待识别的语音信息所属的目标用户。/n

【技术特征摘要】
1.一种语音匹配方法,其特征在于,包括:
获取音频数据以及视频数据;
从所述音频数据中提取待识别的语音信息,所述待识别的语音信息包括目标时间段内的语音波形序列;
从所述视频数据中提取N个用户的唇部运动信息,所述N个用户的唇部运动信息中的每一个用户的唇部运动信息包括对应的用户在所述目标时间段内唇部运动的图像序列,N为大于1的整数;
将所述待识别的语音信息和所述N个用户的唇部运动信息输入到目标特征匹配模型中,得到所述N个用户的唇部运动信息分别与所述待识别的语音信息之间的匹配度;
将匹配度最高的用户的唇部运动信息对应的用户,确定为所述待识别的语音信息所属的目标用户。


2.根据权利要求1所述的方法,其特征在于,所述目标特征匹配模型包括第一模型、第二模型和第三模型;
所述将所述待识别的语音信息和所述N个用户的唇部运动信息输入到目标特征匹配模型中,得到所述N个用户的唇部运动信息分别与所述待识别的语音信息之间的匹配度,包括:
将所述待识别的语音信息输入到所述第一模型中,得到语音特征,所述语音特征为K维语音特征,K为大于0的整数;
将所述N个用户的唇部运动信息输入到所述第二模型中,得到N个图像序列特征,所述N个图像序列特征中的每一个图像序列特征均为K维图像序列特征;
将所述语音特征和所述N个图像序列特征输入到第三模型中,得到所述N个图像序列特征分别与所述语音特征之间的匹配度。


3.根据权利要求1或2所述的方法,其特征在于,所述目标特征匹配模型为以训练用户的唇部运动信息以及M个语音信息为输入、以所述训练用户的唇部运动信息分别与所述M个语音信息之间的匹配度为M个标签,训练得到的特征匹配模型。


4.根据权利要求1-3任意一项所述的方法,其特征在于,所述方法还包括:
确定所述目标用户的用户信息,所述用户信息包括人物属性信息、与所述待识别的语音信息对应面部表情信息、与所述待识别的语音信息对应的环境信息中的一种或多种;
基于所述用户信息,生成与所述用户信息匹配的控制指令。


5.根据权利要求1-4任意一项所述的方法,其特征在于,所述从所述视频数据中提取N个用户的唇部运动信息,包括:
基于人脸识别算法,识别所述视频数据中的N个人脸区域,提取所述N个人脸区域中每个人脸区域中的唇部运动视频;
基于所述每个人脸区域中的唇部运动视频确定所述N个用户的唇部运动信息。


6.根据权利要求1-5任意一项所述的方法,其特征在于,所述从所述音频数据中提取待识别的语音信息,包括:
基于频谱识别算法,识别所述音频数据中的不同频谱的音频数据,并将目标频谱的音频数据识别为所述待识别的语音信息。


7.一种智能设备,其特征在于,包括:处理器以及与所述处理器耦合的麦克风、摄像头:
所述麦克风,用于采集音频数据;
所述摄像头,用于采集视频数据;
所述处理器,用于
获取所述音频数据以及所述视频数据;
从所述音频数据中提取待识别的语音信息,所述待识别的语音信息包括目标时间段内的语音波形序列;
从所述视频数据中提取N个用户的唇部运动信息,所述N个用户的唇部运动信息中的每一个用户的唇部运动信息包括对应的用户在所述目标时间段内唇部运动的图像序列,N为大于1的整数;
将所述待识别的语音信息和所述N个用户的唇部运动信息输入到目标特征匹配模型中,得到所述N个用户的唇部运动信息分别与所述待识别的语音信息之间的匹配度;
将匹配度最高的用户的唇部运动信息对应的用户,确定为所述待识别的语音信息所属的目标用户。


8.根据权利要求7所述的智能设备,其特征在于,所述目标特征匹配模型包括第一模型、第二模型和第三模型;所述处理器,具体用于:
将所述待识别的语音信息输入到所述第一模型中,得到语音特征,所述语音特征为K维语音特征,K为大于0的整数;
将所述N个用户的唇部运动信息输入到所述第二模型中,得到N个图像序列特征,所述N个图像序列特征中的每一个图像序列特征均为K维图像序列特征;
将所述语音特征和所述N个图像序列特征输入到第三模型中,得到所述N个图像序列特征分别与所述语音特征之间的匹配度。


9.根据权利要求7或8所述的智能设备,其特征在于,所述目标特征匹配模型为以训练用户的唇部运动信息以及M个语音信息为输入、以所述训练用户的唇部运动信息分别与所述M个语音信息之间的匹配度为M个标签,训练得到的特征匹配模型。


10.根据权利要求7-9任意一项所述的智能设备,其特征在于,所述处理器还用于:
确定所述目标用户的用户信息,所述用户信息包括人物属性信息、与所述待识别的语音...

【专利技术属性】
技术研发人员:刘恒李志刚于明雨车慧敏张红蕾
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1