基于唇语识别模型的口型识别方法和应用系统技术方案

技术编号：39578601 阅读：4 留言：0更新日期：2023-12-03 19:29

本申请涉及一种基于唇语识别模型的口型识别方法和应用系统，通过在监护室的后台服务器上同时部署单一模态和多模态识别的唇语识别模型；利用监护室的音视频采集设备，采集监护室患者的嘴部摄像数据，并上传至后台服务器；后台服务器根据所述嘴部摄像数据的音视频类型，选择对应的唇语识别模型对所述所述嘴部摄像数据进行唇语识别，生成对应的唇语语句；输出所述唇语语句至前端，供医护人员参考

全部详细技术资料下载

【技术实现步骤摘要】
基于唇语识别模型的口型识别方法和应用系统

[0001]本公开涉及唇语识别
，尤其涉及一种基于唇语识别模型的口型识别方法和应用系统和电子设备
。

技术介绍

[0002]唇语识别并非最近才出现的技术，早在
2003
年，
Intel
就开发了唇语识别软件
AVSR
，
2016
年，
GoogleDeepMind
的唇语识别技术就已经可以支持
17500
个词，新闻测试集识别准确率达到了
50
％以上
。
[0003]唇语识别技术的原理是使用机器视觉只技术，从图像中识别出人脸，判断其中正在说话的人，并提取此人连续的口型变化特征
。
随后，将连续变化的口型特征输入到唇语识别模型中识别出对应的发音
。
最后，根据识别出的发音再计算出可能性最大的自然语言语句
。
[0004]而在以往的唇语识别技术中，基本是单一模态的唇语识别
。
随着技术升级，现有的唇语识别，一般会通过
"
多模态”识别，以此提高语音识别的准确率
。
比如，搜狗唇语识别系统已经达到
60
％以上的准确率，超过
Google
发布的英文唇语系统
50
％以上的准确率
。
在垂直场景如车载
、
智能家居等场景下，搜狗唇语识别系统甚至已经达到
9...

【技术保护点】

【技术特征摘要】
1.
一种基于唇语识别模型的口型识别方法，其特征在于，包括如下步骤：在监护室的后台服务器上同时部署单一模态的唇语识别模型和多模态识别的唇语识别模型；利用监护室的音视频采集设备，采集监护室患者的嘴部摄像数据，并上传至后台服务器；后台服务器根据所述嘴部摄像数据的音视频类型，选择对应的唇语识别模型对所述所述嘴部摄像数据进行唇语识别，生成对应的唇语语句；输出所述唇语语句至前端，供医护人员参考
。2.
根据权利要求1所述的基于唇语识别模型的口型识别方法，其特征在于，后台服务器根据所述嘴部摄像数据的音视频类型，选择对应的唇语识别模型，包括：将所述嘴部摄像数据转发至后台部署的筛选器中；利用所述筛选器对所述嘴部摄像数据进行一次识别，判断所述嘴部摄像数据为单模态还是多模态的音视频数据：若是单模态的音视频数据，则将所述嘴部摄像数据导入所述单一模态的唇语识别模型；若是多模态的音视频数据，则将所述嘴部摄像数据导入所述多模态的唇语识别模型
。3.
根据权利要求2所述的基于唇语识别模型的口型识别方法，其特征在于，对所述所述嘴部摄像数据进行唇语识别，生成对应的唇语语句，包括：若为单模态的音视频数据；利用将所述单一模态的唇语识别模型，对所述嘴部摄像数据中的嘴部唇形图像进行识别，并提取得到监护病人的嘴部唇形变化特征；根据所述嘴部唇形变化特征，利用卷积神经网络对所述嘴部唇形变化特征进行唇形特征识别，得到对应的唇形发音；将所述唇形发音导出至后台服务器，由后台服务器根据所述唇形发音生成对应的唇语语句
。4.
根据权利要求2所述的基于唇语识别模型的口型识别方法，其特征在于，对所述所述嘴部摄像数据进行唇语识别，生成对应的唇语语句，包括：若为多模态的音视频数据；利用所述多模态的唇语识别模型，对所述嘴部摄像数据中的嘴部唇形图像以及发声信息分别进行识别，并分别提取得到监护病人的嘴部唇形变化特征和发声音频特征；根据所述嘴部唇形变化特征，利用卷积神经网络对所述嘴部唇形变化特征进行唇形特征识别，得到对应的唇形发音；将所述发声音频特征和所述唇形发音导出至后台服务...

【专利技术属性】
技术研发人员：汪萍，陈香萍，陈丽，乔丽杰，朱冰燕，孙艳亭，钟娇娇，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人