语音免唤醒方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：41511506 阅读：25 留言：0更新日期：2024-05-30 14:50

本发明专利技术涉及语音识别和图像识别技术领域，公开了语音免唤醒方法、装置、计算机设备及存储介质，所述方法包括：获取当前用户的有效语音数据和有效图像数据；获取有效图像数据中的唇部数据和人脸数据；利用声纹识别模型识别有效语音数据中的说话人数据；基于唇部数据、人脸数据和说话人数据对当前用户的身份进行验证；在当前用户身份验证通过的情况下，识别有效语音数据中的用户意图；执行用户意图对应的操作。本发明专利技术通过在身份验证通过时，进入语音免唤醒模式，执行对应的操作，在实现语音免唤醒的同时提高了设备使用的安全性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音识别和图像识别，具体涉及语音免唤醒方法、装置、计算机设备及存储介质。

技术介绍

1、随着人工智能和语音识别技术的快速发展，越来越多的智能设备开始支持语音控制。然而，在实际使用中，往往需要不断地下达指令来唤醒设备，这在一定程度上降低了用户的使用体验。为了解决这个问题，近年来出现了一种新的技术——语音免唤醒技术。

2、现在主流的语音免唤醒技术是基于图像和语音融合的免唤醒技术。通过获取多人的唇动信息，确定唇动人员，结合语音信息判断唇动人员是否发声，若发声则确认为发声人员，识别发声人的指令，实现免唤醒。或者，根据嘴部动作判断是否有交互意图，在结合语义意图，判断是否唤醒设备。或者，通过语音+有效指向特征(比如指向动作)判断意图，实现免唤醒。

3、现有的语音免唤醒技术基本上是综合语音、视线、唇动中的几种或者全部模态视线免唤醒，都缺少用户的身份验证，这意味着任何人都可以使用该控制设备，安全性低。

技术实现思路

1、有鉴于此，本专利技术提供了一种语音免唤醒方法、装...

【技术保护点】

1.一种语音免唤醒方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述唇部数据、人脸数据和说话人数据对所述当前用户的身份进行验证，包括：

3.根据权利要求1所述的方法，其特征在于，所述识别所述有效语音数据中的用户意图，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取当前用户的有效语音数据和有效图像数据，包括：

5.根据权利要求3所述的方法，其特征在于，所述将所述有效语音数据转换为文本数据，包括：

6.根据权利要求2所述的方法，其特征在于，所述获取所述有效图像数据中的唇部数据和人脸数据...

【技术特征摘要】

1.一种语音免唤醒方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述唇部数据、人脸数据和说话人数据对所述当前用户的身份进行验证，包括：

3.根据权利要求1所述的方法，其特征在于，所述识别所述有效语音数据中的用户意图，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取当前用户的有效语音数据和有效图像数据，包括：

5.根据权利要求3所述的方法，其特征在于，所述将所述有效语音数据转换为文本数...

【专利技术属性】
技术研发人员：史元春，张晓川，陶品，兴军亮，汪贤龙，
申请(专利权)人：启元实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人