【技术实现步骤摘要】
一种基于边缘计算终端的唇语识别方法及装置
[0001]本专利技术涉及唇语识别
,尤其是涉及一种基于边缘计算终端的唇语识别方法及装置。
技术介绍
[0002]近年来,随着互联网信息技术的深入普及和人工智能的快速发展,边缘计算终端的人机交互领域迎来广阔的发展前景。人机交互是指用户输入指令,机器识别理解指令并做出期望的反应。如今人机交互的研究深度和广度不断扩展,包括语音、姿势、动作、头部跟踪和视觉跟踪等多种形式。其中对人们来说,最自然和最方便的是语音交互,也称语音识别(Automatic Speech Recognition,简称ASR)。语音识别是指将用户说话的音频经过处理输入到计算机中,计算机通过识别和理解把语音信号转变为相应的说话内容。随着技术的发展,在使用普通话和常用词汇的安静环境下,语音识别的准确率已经超过95%,在方言和轻微噪声等复杂场景下的语音识别也能较为准确。但是语音识别也存在很多不足,比如对于强噪声、超远场、强干扰、商场服务型机器人,车辆行驶途中,路边的atm机等场景,语音识别的精度会大幅降低。
[ ...
【技术保护点】
【技术特征摘要】
1.一种基于边缘计算终端的唇语识别方法,其特征在于,具体包括以下步骤:S1、构建基于深度学习的唇语识别模型,通过中文唇语数据集进行模型预训练,提取出在数据集上表现良好的预训练模型;S2、通过知识蒸馏、模型剪枝和参数迁移方式对预训练模型进行模型压缩;S3、连续采集边缘计算终端的使用场景中用户使用的视频数据,作为迁移学习使用的目标数据集进行保存;S4、对目标数据集进行预处理,并且对经预处理得到的音频数据,通过语音识别技术以及音视频时间轴对齐方式,生成对应视频帧的中文标签;S5、根据完成预处理的目标数据集,对完成模型压缩的预训练模型进行微调训练,获得轻量化模型;S6、优化轻量化模型的计算速度,适配边缘计算终端的硬件平台并部署到相应的边缘计算终端,采集用户的视频数据,识别用户的唇语信息,输出用户指令的识别结果。2.根据权利要求1所述的一种基于边缘计算终端的唇语识别方法,其特征在于,所述唇语识别模型包括处理图像特征的前端网络结构,深度处理图像信息的中端网络结构,以及处理前后文信息的后端网络结构。3.根据权利要求1所述的一种基于边缘计算终端的唇语识别方法,其特征在于,所述中文唇语数据集的内容包括多种短语、说话者、说话角度和光照环境数据,所述中文唇语数据集的形式包括视频数据和对应的中文字符标签文件。4.根据权利要求1所述的一种基于边缘计算终端的唇语识别方法,其特征在于,所述步骤S2中模型剪枝的过程具体为通过自动稀疏神经元权值,并且根据神经元权值的L1/L2范数进行排序,对模型的网络结构大小进行缩减。5.根据权利要求1所述的一种基于边缘计算终端的唇语识别方法,其特征在于,所述步骤S2中参数迁移方式的过程具体为提取唇语识别模型的多层模型参数迁移到预训练模型中,具体公式如下所示...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。