【技术实现步骤摘要】
一种融合多种视觉信息的唇语识别方法
本专利技术涉及到计算机视觉和模式识别领域,特别涉及到一种融合多种视觉信息的唇语识别方法。技术背景唇语识别是使用机器视觉技术,从图像中识别出人脸,判断其中正在说话的人,并提取此人连续的口型变化特征,随后将连续变化的口型特征输入到唇语识别模型中识别出对应的发音,最后根据识别出的发音再计算出可能性最大的自然语言语句。唇部动作具有范围小、速度快等特点,唇语识别技术是目前国际研究的热门课题,可应用的领域包括场景教育、身份识别、公共安全、移动支付、军事情报等。具体地,通过唇语识别,可以让无法开口说话的残障人士自由表达、让听力障碍者和不少老年人更清晰地听懂他人;通过口型支付密码,可以进行移动支付;在军事情报领域,唇语识别则让远距离获取情报成为可能。唇语识别技术来源已久,从初期的传统方法提取特征到今天广泛使用深度学习进行训练识别,技术的更新迭代让这个领域不断焕发出新的生机,也让我们对这一领域的应用前景充满了期待。1984年,Petajan等人使用最近邻搜索方法完成以一个词为最小单元的唇 ...
【技术保护点】
1.一种融合多种视觉信息的唇语识别方法,其特征在于,包含如下步骤:/nS1,利用头戴式摄像采集设备对唇语图像进行采集,根据采集对象头部大小和形状,调整头戴式摄像采集设备中深度相机镜头参数和拍摄位置;/nS2,对采集到的视频数据根据采集对象、采集批次进行分类存放,检查被试者口型和给定指令是否相符,去掉因走神或设备故障导致的无效数据;/nS3,把每个视频样本逐帧分解,检查每一帧的画质是否清晰,确定噪声位置及分析来源,根据高斯滤波原理和二维伽马函数公式对图像去噪处理,处理后的图像再做裁剪,只保存特定大小的唇部图像;/nS4,搭建自监督光流生成网络,把采集的数据输入生成网络中,用于 ...
【技术特征摘要】
1.一种融合多种视觉信息的唇语识别方法,其特征在于,包含如下步骤:
S1,利用头戴式摄像采集设备对唇语图像进行采集,根据采集对象头部大小和形状,调整头戴式摄像采集设备中深度相机镜头参数和拍摄位置;
S2,对采集到的视频数据根据采集对象、采集批次进行分类存放,检查被试者口型和给定指令是否相符,去掉因走神或设备故障导致的无效数据;
S3,把每个视频样本逐帧分解,检查每一帧的画质是否清晰,确定噪声位置及分析来源,根据高斯滤波原理和二维伽马函数公式对图像去噪处理,处理后的图像再做裁剪,只保存特定大小的唇部图像;
S4,搭建自监督光流生成网络,把采集的数据输入生成网络中,用于光流数据的生成;
S5,储存训练好的光流数据,包括水平和垂直两个方向像素位移数据;把真实图像、光流数据和深度图像分别存放,输入到搭建好的三流融合训练网络中进行识别任务训练,并输出最终的唇语识别结果。
2.一种如权利要求1所述的融合多种视觉信息的唇语识别方法,其特征在于,步骤S1具体包括:
S11,确定识别数据集所需采集的图像样本大小,根据刷新频率、像素因素选择合适的摄像头;
S12,设计出用于固定摄像头的头戴式塑料圈,并根据该设计方案利用3D打印机将用于固定摄像头的头戴式塑料圈打印出来;
S13,将摄像头固定在打印好的塑料圈预留位置;
S14,根据指定任务需求,确定需要采集的指令和词句,指定任务需求包括养老助残、军事作战、教育教学,根据不同年龄、性别、职业、唇形条件选择一定数量的被试志愿者;
S15,利用采集程序对每个被试志愿者分别采集,对每个志愿者根据每类指令采集若干个样本。
3.一种如权利要求1所述的融合多种视觉信息的唇语识别方法,其特征在于,步骤S3具体包括:
S31,利用python程序把每个视频样本逐帧提取;
S32,对每帧图像的通道由RGB变换为HSV,提取亮度通道分量V;
S33,对亮度通道分量V进行多尺度高斯滤波变换;
S34,对变换后的亮度通道分量V使用二维伽马函数变换;
S35,把经过处理的亮度通道分量和另外两个通道分量合并,并且转换为RGB格式输出并保存;
S36,利用中心裁剪函数,对处理后的图像进行裁剪,获得其唇部区域图像并保存,裁剪后的图像作为生成网络和识别网络的输入样本。
4.一种如权利要求3所述的融合多种视觉信息的唇语识别方法,其特征在于,亮...
【专利技术属性】
技术研发人员:闫野,杨恒,印二威,谢良,邓宝松,闫慧炯,范晓丽,罗治国,
申请(专利权)人:中国人民解放军军事科学院国防科技创新研究院,天津滨海人工智能军民融合创新中心,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。