一种语音匹配方法及相关设备组成比例

技术编号：24012918 阅读：66 留言：0更新日期：2020-05-02 02:21

本发明专利技术实施例公开了一种语音匹配方法及相关设备，具体可以应用于人工智能AI领域中的智能机器人、智能终端、智能控制、人机交互等多个技术领域，其中的语音匹配方法包括获取音频数据以及视频数据；从所述音频数据中提取待识别的语音信息；从所述视频数据中提取N个用户的唇部运动信息，N为大于1的整数；将所述待识别的语音信息和所述N个用户的唇部运动信息输入到目标特征匹配模型中，得到所述N个用户的唇部运动信息分别与所述待识别的语音信息之间的匹配度；将匹配度最高的用户的唇部运动信息对应的用户，确定为所述待识别的语音信息所属的目标用户。本申请可以提升多人场景中的语音匹配效率和人机交互体验。

A speech matching method and related equipment

全部详细技术资料下载

【技术实现步骤摘要】
一种语音匹配方法及相关设备
本专利技术涉及人机交互
，尤其涉及一种语音匹配方法及相关设备。
技术介绍
人机交互(Human-ComputerInteraction，HCI)主要是研究人和计算机之间的信息交换，它主要包括人到计算机和计算机到人的信息交换两部分。是与认知心理学、人机工程学、多媒体技术、虚拟现实技术等密切相关的综合学科。在人机交互技术中，多模态交互设备是语音交互、体感交互、及触控交互等多种交互模式并行的交互设备。基于多模态交互设备的人机交互：通过交互设备中的多种跟踪模块(人脸、手势、姿态、语音、及韵律)采集用户信息，并理解、处理、及管理后形成虚拟用户表达模块，与计算机进行交互对话，能够极大提升用户的交互体验。例如，目前市面上已有一些能够与人进行互动的智能机器人产品，并提出利用机器人来代替人进行老年、儿童的精神陪伴。然而，人机交互中的友好性则体现了人作为服务对象对机器人系统提出的更高要求，即通过自然的，更接近与人与人之间交流的交流方式来实现人机对话。机器人若要真正达到对老年、儿童进行情感陪护的功能要求，更好的融入其生活，首先要充分理解用户的意图，了解其心理情感变化，针对不同用户的特点和需求进行个性化交互。但在相对复杂场景下，在机器人与多人面对面交流时(多人教学，游戏，家庭日常生活等)，现阶段市场上的机器人由于无法快速准确的确定被交互对象身份，就只能按照既定的程式化交互方式进行交互，极大影响了交互体验。比如，一家人的三个小孩与一个机器人的交互场景，哥哥汤姆明天打算出去郊游，弟弟杰瑞吵着要和...

【技术保护点】
1.一种语音匹配方法，其特征在于，包括：/n获取音频数据以及视频数据；/n从所述音频数据中提取待识别的语音信息，所述待识别的语音信息包括目标时间段内的语音波形序列；/n从所述视频数据中提取N个用户的唇部运动信息，所述N个用户的唇部运动信息中的每一个用户的唇部运动信息包括对应的用户在所述目标时间段内唇部运动的图像序列，N为大于1的整数；/n将所述待识别的语音信息和所述N个用户的唇部运动信息输入到目标特征匹配模型中，得到所述N个用户的唇部运动信息分别与所述待识别的语音信息之间的匹配度；/n将匹配度最高的用户的唇部运动信息对应的用户，确定为所述待识别的语音信息所属的目标用户。/n

【技术特征摘要】
1.一种语音匹配方法，其特征在于，包括：
获取音频数据以及视频数据；
从所述音频数据中提取待识别的语音信息，所述待识别的语音信息包括目标时间段内的语音波形序列；
从所述视频数据中提取N个用户的唇部运动信息，所述N个用户的唇部运动信息中的每一个用户的唇部运动信息包括对应的用户在所述目标时间段内唇部运动的图像序列，N为大于1的整数；
将所述待识别的语音信息和所述N个用户的唇部运动信息输入到目标特征匹配模型中，得到所述N个用户的唇部运动信息分别与所述待识别的语音信息之间的匹配度；
将匹配度最高的用户的唇部运动信息对应的用户，确定为所述待识别的语音信息所属的目标用户。

2.根据权利要求1所述的方法，其特征在于，所述目标特征匹配模型包括第一模型、第二模型和第三模型；
所述将所述待识别的语音信息和所述N个用户的唇部运动信息输入到目标特征匹配模型中，得到所述N个用户的唇部运动信息分别与所述待识别的语音信息之间的匹配度，包括：
将所述待识别的语音信息输入到所述第一模型中，得到语音特征，所述语音特征为K维语音特征，K为大于0的整数；
将所述N个用户的唇部运动信息输入到所述第二模型中，得到N个图像序列特征，所述N个图像序列特征中的每一个图像序列特征均为K维图像序列特征；
将所述语音特征和所述N个图像序列特征输入到第三模型中，得到所述N个图像序列特征分别与所述语音特征之间的匹配度。

3.根据权利要求1或2所述的方法，其特征在于，所述目标特征匹配模型为以训练用户的唇部运动信息以及M个语音信息为输入、以所述训练用户的唇部运动信息分别与所述M个语音信息之间的匹配度为M个标签，训练得到的特征匹配模型。

4.根据权利要求1-3任意一项所述的方法，其特征在于，所述方法还包括：
确定所述目标用户的用户信息，所述用户信息包括人物属性信息、与所述待识别的语音信息对应面部表情信息、与所述待识别的语音信息对应的环境信息中的一种或多种；
基于所述用户信息，生成与所述用户信息匹配的控制指令。

5.根据权利要求1-4任意一项所述的方法，其特征在于，所述从所述视频数据中提取N个用户的唇部运动信息，包括：
基于人脸识别算法，识别所述视频数据中的N个人脸区域，提取所述N个人脸区域中每个人脸区域中的唇部运动视频；
基于所述每个人脸区域中的唇部运动视频确定所述N个用户的唇部运动信息。

6.根据权利要求1-5任意一项所述的方法，其特征在于，所述从所述音频数据中提取待识别的语音信息，包括：
基于频谱识别算法，识别所述音频数据中的不同频谱的音频数据，并将目标频谱的音频数据识别为所述待识别的语音信息。

7.一种智能设备，其特征在于，包括：处理器以及与所述处理器耦合的麦克风、摄像头：
所述麦克风，用于采集音频数据；
所述摄像头，用于采集视频数据；
所述处理器，用于
获取所述音频数据以及所述视频数据；
从所述音频数据中提取待识别的语音信息，所述待识别的语音信息包括目标时间段内的语音波形序列；
从所述视频数据中提取N个用户的唇部运动信息，所述N个用户的唇部运动信息中的每一个用户的唇部运动信息包括对应的用户在所述目标时间段内唇部运动的图像序列，N为大于1的整数；
将所述待识别的语音信息和所述N个用户的唇部运动信息输入到目标特征匹配模型中，得到所述N个用户的唇部运动信息分别与所述待识别的语音信息之间的匹配度；
将匹配度最高的用户的唇部运动信息对应的用户，确定为所述待识别的语音信息所属的目标用户。

8.根据权利要求7所述的智能设备，其特征在于，所述目标特征匹配模型包括第一模型、第二模型和第三模型；所述处理器，具体用于：
将所述待识别的语音信息输入到所述第一模型中，得到语音特征，所述语音特征为K维语音特征，K为大于0的整数；
将所述N个用户的唇部运动信息输入到所述第二模型中，得到N个图像序列特征，所述N个图像序列特征中的每一个图像序列特征均为K维图像序列特征；
将所述语音特征和所述N个图像序列特征输入到第三模型中，得到所述N个图像序列特征分别与所述语音特征之间的匹配度。

9.根据权利要求7或8所述的智能设备，其特征在于，所述目标特征匹配模型为以训练用户的唇部运动信息以及M个语音信息为输入、以所述训练用户的唇部运动信息分别与所述M个语音信息之间的匹配度为M个标签，训练得到的特征匹配模型。

10.根据权利要求7-9任意一项所述的智能设备，其特征在于，所述处理器还用于：
确定所述目标用户的用户信息，所述用户信息包括人物属性信息、与所述待识别的语音...

【专利技术属性】
技术研发人员：刘恒，李志刚，于明雨，车慧敏，张红蕾，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人