【技术实现步骤摘要】
一种未见过说话人适用的唇语识别方法
[0001]本专利技术涉及唇语识别
,具体涉及一种未见过说话人适用的唇语识别方法。
技术介绍
[0002]唇语识别是一种视觉语言识别技术,其主要利用视频中的唇部运动信息,结合语言先验知识和上下文信息的语言信息获取技术,常在无法获得有效音频或文字信息的情况下使用。它的应用价值极高,例如:视频理解、安防领域、军用设备、人机交互和言语障碍患者治疗等场景中。
[0003]在规模受限的数据集上,传统唇语识别方法只能识别模型训练时使用的说话人或特别相似的说话人的唇语视觉特征,对于陌生/未见说话人无法正确获取其唇部关键信息,而收集真实场景下的海量唇语数据是不现实的。本方法利用说话人间脸部、唇部相关关系的先验知识对神经网络特征提取器提供指导,有针对性地为当前输入神经网络的说话人适配高效的特征提取方式,并在对抗学习策略的辅助下使神经网络能够提取丰富的不区分说话人的唇语特征,使得所申请方法能扩展到陌生/未见说话人数据上,极大地缓解了对训练集规模的依赖。
技术实现思路
[0004] ...
【技术保护点】
【技术特征摘要】
1.一种未见过说话人适用的唇语识别方法,其特征在于,包括如下步骤:S1、数据预处理:对视频或抽帧后得到的图像进行人脸识别,裁剪包含嘴唇的区域;S2、模型训练:S21、对人脸/嘴唇数据进行先验知识建模,通过无监督、自监督学习算法更新模块参数,获取不同说话人的特征表达及相关关系;S22、将视频数据送入唇语识别模块,其包含的动态特征提取器根据S21中获取的输入说话人表征动态获取并组合基本特征,训练神经网络对输入说话人进行唇语识别;S23、将唇语识别中间特征送入说话人分类模块,在对抗学习策略下,该模块区分属于不同说话人的中间特征,同时鼓励唇语识别模块忽略说话人个性特征只学习唇语相关特征,训练阶段唇语识别和说话人分类模块交替更新参数;S3、模型部署:输入陌生/未见说话人(非训练数据)的视频序列,先验知识模块提供输入说话人特征表达,并指导动态特征提取器动态获取、组合基本特征并进行唇语识别。2.根据权利要求1所述的一种未见过说话人适用的唇语识别方法,其特征在于,重复S22
‑
S23直到学习率衰减后连续多轮训练内损失函数值不再降低,即模型收敛。3.根据权利要求1所述的一种未见过说话人适用的唇语识别方法,其特征在于,所述模型包括...
【专利技术属性】
技术研发人员:梁雪峰,黄奕洋,邹帅,
申请(专利权)人:西安电子科技大学广州研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。