当前位置: 首页 > 专利查询>浙江大学专利>正文

基于唇语识别模型的口型识别方法和应用系统技术方案

技术编号:39578601 阅读:4 留言:0更新日期:2023-12-03 19:29
本申请涉及一种基于唇语识别模型的口型识别方法和应用系统,通过在监护室的后台服务器上同时部署单一模态和多模态识别的唇语识别模型;利用监护室的音视频采集设备,采集监护室患者的嘴部摄像数据,并上传至后台服务器;后台服务器根据所述嘴部摄像数据的音视频类型,选择对应的唇语识别模型对所述所述嘴部摄像数据进行唇语识别,生成对应的唇语语句;输出所述唇语语句至前端,供医护人员参考

【技术实现步骤摘要】
基于唇语识别模型的口型识别方法和应用系统


[0001]本公开涉及唇语识别
,尤其涉及一种基于唇语识别模型的口型识别方法和应用系统和电子设备


技术介绍

[0002]唇语识别并非最近才出现的技术,早在
2003
年,
Intel
就开发了唇语识别软件
AVSR

2016
年,
GoogleDeepMind
的唇语识别技术就已经可以支持
17500
个词,新闻测试集识别准确率达到了
50
%以上

[0003]唇语识别技术的原理是使用机器视觉只技术,从图像中识别出人脸,判断其中正在说话的人,并提取此人连续的口型变化特征

随后,将连续变化的口型特征输入到唇语识别模型中识别出对应的发音

最后,根据识别出的发音再计算出可能性最大的自然语言语句

[0004]而在以往的唇语识别技术中,基本是单一模态的唇语识别

随着技术升级,现有的唇语识别,一般会通过
"
多模态”识别,以此提高语音识别的准确率

比如,搜狗唇语识别系统已经达到
60
%以上的准确率,超过
Google
发布的英文唇语系统
50
%以上的准确率

在垂直场景如车载

智能家居等场景下,搜狗唇语识别系统甚至已经达到
90
%的准确率

[0005]而在医疗领域,唇语识别适用较少

对于一些病人比如监护室患者,其因为疾病或者身体原因,想要说话而又无法发声,只能嘴唇动作;有些既可动作又可发声

因此,可以考虑利用唇语识别技术,辅助医护人员采集监护室患者的表达意思,但是对于具有嘴唇动作而无声

既有嘴唇动作又有声的监护室患者,不能仅仅依赖单一模态的唇语识别,还需要
"
多模态”识别


技术实现思路

[0006]为了解决上述问题,本申请提出一种基于唇语识别模型的口型识别方法和应用系统和电子设备

[0007]本申请一方面,提出一种基于唇语识别模型的口型识别方法,包括如下步骤:
[0008]在监护室的后台服务器上同时部署单一模态的唇语识别模型和多模态识别的唇语识别模型;
[0009]利用监护室的音视频采集设备,采集监护室患者的嘴部摄像数据,并上传至后台服务器;
[0010]后台服务器根据所述嘴部摄像数据的音视频类型,选择对应的唇语识别模型对所述所述嘴部摄像数据进行唇语识别,生成对应的唇语语句;
[0011]输出所述唇语语句至前端,供医护人员参考

[0012]作为本申请的一可选实施方案,可选地,后台服务器根据所述嘴部摄像数据的音视频类型,选择对应的唇语识别模型,包括:
[0013]将所述嘴部摄像数据转发至后台部署的筛选器中;
[0014]利用所述筛选器对所述嘴部摄像数据进行一次识别,判断所述嘴部摄像数据为单模态还是多模态的音视频数据:
[0015]若是单模态的音视频数据,则将所述嘴部摄像数据导入所述单一模态的唇语识别模型;
[0016]若是多模态的音视频数据,则将所述嘴部摄像数据导入所述多模态的唇语识别模型

[0017]作为本申请的一可选实施方案,可选地,对所述所述嘴部摄像数据进行唇语识别,生成对应的唇语语句,包括:
[0018]若为单模态的音视频数据;
[0019]利用将所述单一模态的唇语识别模型,对所述嘴部摄像数据中的嘴部唇形图像进行识别,并提取得到监护病人的嘴部唇形变化特征;
[0020]根据所述嘴部唇形变化特征,利用卷积神经网络对所述嘴部唇形变化特征进行唇形特征识别,得到对应的唇形发音;
[0021]将所述唇形发音导出至后台服务器,由后台服务器根据所述唇形发音生成对应的唇语语句

[0022]作为本申请的一可选实施方案,可选地,对所述所述嘴部摄像数据进行唇语识别,生成对应的唇语语句,包括:
[0023]若为多模态的音视频数据;
[0024]利用所述多模态的唇语识别模型,对所述嘴部摄像数据中的嘴部唇形图像以及发声信息分别进行识别,并分别提取得到监护病人的嘴部唇形变化特征和发声音频特征;
[0025]根据所述嘴部唇形变化特征,利用卷积神经网络对所述嘴部唇形变化特征进行唇形特征识别,得到对应的唇形发音;
[0026]将所述发声音频特征和所述唇形发音导出至后台服务器,由后台服务器根据所述发声音频特征和所述唇形发音生成对应的唇语语句

[0027]作为本申请的一可选实施方案,可选地,后台服务器根据所述发声音频特征和所述唇形发音生成对应的唇语语句,包括:
[0028]按照所述嘴部唇形图像的时帧,找到不同时帧上所对应的所述发声音频特征和所述唇形发音;
[0029]利用同一时帧下的所述发声音频特征,优化纠正所述唇形发音,将所述唇形发音按照当前时帧对应的所述发声音频特征进行发音调节;
[0030]调整完毕,得到唇形优化发音,并根据所述唇形优化发音生成对应的所述唇语语句

[0031]作为本申请的一可选实施方案,可选地,在后台服务器根据所述嘴部摄像数据的音视频类型,选择对应的唇语识别模型对所述所述嘴部摄像数据进行唇语识别,生成对应的唇语语句止水,还包括:
[0032]将生成的所述唇语语句,发送至后台部署的语句判断模型中;
[0033]利用所述语句判断模型判断所述唇语语句的识别准确率:
[0034]若所述唇语语句的识别准确率
≥80
%,则将所述唇语语句发送至所述前端;
[0035]若所述唇语语句的识别准确率<
80
%,则将所述唇语语句返回至对应的所述单一
模态的唇语识别模型或所述多模态识别的唇语识别模型进行重新识别,直至识别准确率达标

[0036]本申请另一方面,提出一种实现所述基于唇语识别模型的口型识别方法的应用系统,包括:
[0037]音视频采集设备,用于采集监护室患者的嘴部摄像数据,并上传至后台服务器;
[0038]后台服务器,用于根据所述嘴部摄像数据的音视频类型,选择后台上部署的单一模态的唇语识别模型或多模态识别的唇语识别模型,对所述所述嘴部摄像数据进行唇语识别,生成对应的唇语语句并输出至前端;
[0039]前端,用于展示所述唇语语句,供医护人员参考

[0040]本申请另一方面,还提出一种电子设备,包括:
[0041]处理器;
[0042]用于存储处理器可执行指令的存储器;
[0043]其中,所述处理器被配置为执行所述可执行指令本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于唇语识别模型的口型识别方法,其特征在于,包括如下步骤:在监护室的后台服务器上同时部署单一模态的唇语识别模型和多模态识别的唇语识别模型;利用监护室的音视频采集设备,采集监护室患者的嘴部摄像数据,并上传至后台服务器;后台服务器根据所述嘴部摄像数据的音视频类型,选择对应的唇语识别模型对所述所述嘴部摄像数据进行唇语识别,生成对应的唇语语句;输出所述唇语语句至前端,供医护人员参考
。2.
根据权利要求1所述的基于唇语识别模型的口型识别方法,其特征在于,后台服务器根据所述嘴部摄像数据的音视频类型,选择对应的唇语识别模型,包括:将所述嘴部摄像数据转发至后台部署的筛选器中;利用所述筛选器对所述嘴部摄像数据进行一次识别,判断所述嘴部摄像数据为单模态还是多模态的音视频数据:若是单模态的音视频数据,则将所述嘴部摄像数据导入所述单一模态的唇语识别模型;若是多模态的音视频数据,则将所述嘴部摄像数据导入所述多模态的唇语识别模型
。3.
根据权利要求2所述的基于唇语识别模型的口型识别方法,其特征在于,对所述所述嘴部摄像数据进行唇语识别,生成对应的唇语语句,包括:若为单模态的音视频数据;利用将所述单一模态的唇语识别模型,对所述嘴部摄像数据中的嘴部唇形图像进行识别,并提取得到监护病人的嘴部唇形变化特征;根据所述嘴部唇形变化特征,利用卷积神经网络对所述嘴部唇形变化特征进行唇形特征识别,得到对应的唇形发音;将所述唇形发音导出至后台服务器,由后台服务器根据所述唇形发音生成对应的唇语语句
。4.
根据权利要求2所述的基于唇语识别模型的口型识别方法,其特征在于,对所述所述嘴部摄像数据进行唇语识别,生成对应的唇语语句,包括:若为多模态的音视频数据;利用所述多模态的唇语识别模型,对所述嘴部摄像数据中的嘴部唇形图像以及发声信息分别进行识别,并分别提取得到监护病人的嘴部唇形变化特征和发声音频特征;根据所述嘴部唇形变化特征,利用卷积神经网络对所述嘴部唇形变化特征进行唇形特征识别,得到对应的唇形发音;将所述发声音频特征和所述唇形发音导出至后台服务...

【专利技术属性】
技术研发人员:汪萍陈香萍陈丽乔丽杰朱冰燕孙艳亭钟娇娇
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1