一种唇语识别方法、服务设备及存储介质技术

技术编号:28037905 阅读:50 留言:0更新日期:2021-04-09 23:20
本申请公开了一种唇语识别方法、服务设备及存储介质,服务设备首先对目标对象进行视频采集,然后对需要提取唇部信息的每帧目标图像分别执行:从目标图像中提取出目标对象的唇部图像,对唇部图像进行分类识别,将唇部图像划分为发音帧或静默帧,若连续多帧唇部图像的分类识别结果满足从静默帧到发音帧再到静默帧的变化规律,则基于该变化规律从连续多帧唇部图像中定位唇语的起止位置,在获取起始位置之间的唇部图像序列之后,对唇部图像序列进行初步粗分类,筛选掉虽有耦合性但不支持的唇语,对筛选后的唇部图像序列进行唇语识别,得到唇语识别结果。从而可以在除语音交互外,增加基于唇语识别结果的多模态的信号提高人机交互的适用性和稳定性。

【技术实现步骤摘要】
一种唇语识别方法、服务设备及存储介质
本申请涉及计算机视觉
,尤其涉及一种唇语识别方法、服务设备及存储介质。
技术介绍
目前智能交互设备被看作万物联网的交互入口,因此语音交互获得了迅速发展,诸多语音交互系统出现在大众生活中。然而,单模态的语音交互系统抗干扰能力不强,在有背景噪音的场景下性能会明显下降,在距离较大的远场场景中会遇到唤醒困难的问题。此外,声音监听通道被占用时,单模态语音交互系统会彻底失效。为了解决以上系统缺陷,相关技术中一方面可以依靠语音降噪和麦克风阵列等技术,来最大程度上消除背景噪音和远场环境对交互过程的影响,另一方面则可以借助多模态交互技术,赋予交互设备多模态的信号来扩充处理通路,借此解决单一模态语音交互在特定场景下遇到的问题,增强交互系统的适用性和稳定性。但是,在相关技术中,如何采用多模态的信号来提高人机交互的适用性和稳定性的问题有待解决。
技术实现思路
本申请实施例提供一种唇语识别方法、服务设备及存储介质,采用多模态的信号提高人机交互的适用性和稳定性。第一方面,本申请一实施例提供了一种服务设备,包括:存储器和控制器;所述存储器,用于存储计算机程序;所述控制器与所述存储器连接,被配置为基于所述计算机程序执行:对目标对象进行视频采集;对需要提取唇部信息的每帧目标图像分别执行:从所述目标图像中提取出所述目标对象的唇部图像;并对所述唇部图像进行分类识别,将所述唇部图像划分为发音帧或静默帧,所述发音帧用于表示所述目标对象的唇部处于发音状态,所述静默帧用于表示所目标对象的唇部处于静默状态;若连续多帧唇部图像的分类识别结果满足从静默帧到发音帧再到静默帧的变化规律,则基于所述变化规律从所述连续多帧唇部图像中定位唇语的起止位置;获取所述起止位置之间的唇部图像序列,进行唇语识别,得到唇语识别结果。本申请一实施例中,所述控制器还被配置为:基于预先训练好的唇部图像分类模型,将所述唇部图像划分为发音帧或静默帧;其中,根据以下方法得到所述唇部图像分类模型:获取唇部样本图像,所述唇部样本图像关联有对应的类别标签,所述类别标签为根据所述唇部样本图像对应的语音信号标注的;将所述唇部样本图像输入待训练的唇部图像分类模型,得到所述待训练的唇部图像分类模型输出的所述唇部样本图像的预测类别标签;根据预先设置的损失函数确定所述预测类别标签与所述类别标签之间的损失,训练所述待训练的唇部图像分类模型的参数,得到所述唇部图像分类模型。本申请一实施例中,所述控制器还被配置为:对所述唇部样本图像对应的所述语音信号进行声音活动检测,得到语音检测结果;所述语音信号为所述唇部样本图像和所述唇部样本图像之前的指定帧数内的语音片段;若基于所述语音检测结果确定所述语音信号不为发音信号,则标注所述唇部样本图像为静默帧;若基于所述语音检测结果确定所述语音信号为发音信号,且所述语音信号的能量值的归一化结果小于或等于预设阈值,则标注所述唇部样本图像为静默帧;若基于所述语音检测结果确定所述语音信号为发音信号,且所述语音信号的能量值的归一化结果大于所述预设阈值,则标注所述唇部样本图像为发音帧。本申请一实施例中,所述需要提取唇部信息的每帧目标图像为所述视频采集的每一帧图像;或者所述需要提取唇部信息的每帧目标图像为对所述视频进行采样得到的图像。本申请一实施例中,所述控制器还被配置为:对所述目标图像进行人脸检测,获取所述目标图像的人脸关键点;根据所述人脸关键点中唇部关键点,从所述目标图像中裁剪出所述目标对象的所述唇部图像。本申请一实施例中,所述控制器还被配置为:对不同帧的唇部图像进行对齐处理。本申请一实施例中,所述对不同帧的唇部图像进行对齐处理,包括以下中的任一种或组合:采用平移变换和/或旋转变换处理方式调整唇部边界,以使不同帧的唇部图像的唇部边界平行于指定方向;将不同唇部图像放缩到指定尺寸;采用仿射变换方法处理不同帧的唇部图像,以使不同帧的唇部图像相对采集所述视频数据的镜头方位为预设方位。本申请一实施例中,所述控制器还被配置为:将所述连续多帧唇部图像中首次分类为发音帧的唇部图像确定为唇语的起始帧;并,将所述连续多帧唇部图像中最后分类为发音帧的唇部图像确定为唇语的结束帧。本申请一实施例中,所述控制器还被配置为:根据以下方法确定所述最后分类为发音帧的唇部图像:检测发音帧之后首次出现的静默帧;检测所述首次出现的静默帧之后的预设帧数内是否存在发音帧;若不存在发音帧,则将所述首次出现的静默帧的前一帧确定为所述最后分类为发音帧的唇部图像;若存在发音帧,则从所述发音帧开始返回执行所述检测发音帧之后首次出现的静默帧的步骤。本申请一实施例中,所述控制器还被配置为:根据二分类模型,对所述唇部图像序列进行二分类处理,确定所述唇部图像序列是否为噪音序列;若非噪音序列,则执行对所述唇部图像序列进行唇语识别的步骤;若为噪音序列,则对所述唇部图像序列进行丢弃处理。本申请一实施例中,所述控制器还被配置为:对所述唇部图像序列中的每帧唇部图像进行二维特征提取,得到每帧唇部图像分别对应的二维唇部特征;基于所述每帧唇部图像分别对应的二维唇部特征之间的关联关系,确定所述唇部图像序列的三维唇部特征;对所述三维唇部特征进行多分类识别,得到唇语识别结果;或者,对所述唇部图像序列进行分块处理,其中,每个分块中包括三维信息,所述三维信息包括图像宽度方向信息、图像高度方向信息以及时序信息;对所述三维信息中任意两个维度构成的平面信息分别进行特征提取,得到LBP-top特征,并基于所述唇部图像序列的LBP-top特征进行多分类识别,得到唇语识别结果。第二方面,本申请一实施例提供了一种唇语识别的方法,包括:对目标对象进行视频采集;对需要提取唇部信息的每帧目标图像分别执行:从所述目标图像中提取出所述目标对象的唇部图像;并对所述唇部图像进行分类识别,将所述唇部图像划分为发音帧或静默帧,所述发音帧用于表示所述目标对象的唇部处于发音状态,所述静默帧用于表示所目标对象的唇部处于静默状态;若连续多帧唇部图像的分类识别结果满足从静默帧到发音帧再到静默帧的变化规律,则基于所述变化规律从所述连续多帧唇部图像中定位唇语的起止位置;获取所述起止位置之间的唇部图像序列,进行唇语识别,得到唇语识别结果。本申请一实施例中,所述对所述唇部图像进行分类识别,将所述唇部图像划分为发音帧或静默帧,包括:基于预先训练好的唇部图像分类模型,将所述唇部图像划分为发音帧或静默帧;其中,根据以下方法得到所述唇部图像分类模型:获取唇部样本图像,所述唇部样本图像关联有对应的类别标签,所述类别标签为根据所述唇部样本图像对应的语音信号标注的;将所述本文档来自技高网...

【技术保护点】
1.一种唇语识别方法,其特征在于,包括:/n对目标对象进行视频采集;/n从所述目标图像中提取出所述目标对象的唇部图像;并对所述唇部图像进行分类识别,将所述唇部图像划分为发音帧或静默帧,所述发音帧用于表示所述目标对象的唇部处于发音状态,所述静默帧用于表示所目标对象的唇部处于静默状态;/n若连续多帧唇部图像的分类识别结果满足从静默帧到发音帧再到静默帧的变化规律,则基于所述变化规律从所述连续多帧唇部图像中定位唇语的起止位置;/n获取所述起止位置之间的唇部图像序列,进行唇语识别,得到唇语识别结果。/n

【技术特征摘要】
1.一种唇语识别方法,其特征在于,包括:
对目标对象进行视频采集;
从所述目标图像中提取出所述目标对象的唇部图像;并对所述唇部图像进行分类识别,将所述唇部图像划分为发音帧或静默帧,所述发音帧用于表示所述目标对象的唇部处于发音状态,所述静默帧用于表示所目标对象的唇部处于静默状态;
若连续多帧唇部图像的分类识别结果满足从静默帧到发音帧再到静默帧的变化规律,则基于所述变化规律从所述连续多帧唇部图像中定位唇语的起止位置;
获取所述起止位置之间的唇部图像序列,进行唇语识别,得到唇语识别结果。


2.根据权利要求1所述的方法,其特征在于,所述对所述唇部图像进行分类识别,将所述唇部图像划分为发音帧或静默帧,包括:
基于预先训练好的唇部图像分类模型,将所述唇部图像划分为发音帧或静默帧;
其中,根据以下方法得到所述唇部图像分类模型:
获取唇部样本图像,所述唇部样本图像关联有对应的类别标签,所述类别标签为根据所述唇部样本图像对应的语音信号标注的;
将所述唇部样本图像输入待训练的唇部图像分类模型,得到所述待训练的唇部图像分类模型输出的所述唇部样本图像的预测类别标签;
根据预先设置的损失函数确定所述预测类别标签与所述类别标签之间的损失,训练所述待训练的唇部图像分类模型的参数,得到所述唇部图像分类模型。


3.根据权利要求2所述的方法,其特征在于,根据所述唇部样本图像对应的语音信号对所述唇部样本图像进行标注,包括:
对所述唇部样本图像对应的所述语音信号进行声音活动检测,得到语音检测结果;所述语音信号为所述唇部样本图像和所述唇部样本图像之前的指定帧数内的语音片段;
若基于所述语音检测结果确定所述语音信号不为发音信号,则标注所述唇部样本图像为静默帧;
若基于所述语音检测结果确定所述语音信号为发音信号,且所述语音信号的能量值的归一化结果小于或等于预设阈值,则标注所述唇部样本图像为静默帧;
若基于所述语音检测结果确定所述语音信号为发音信号,且所述语音信号的能量值的归一化结果大于所述预设阈值,则标注所述唇部样本图像为发音帧。


4.根据权利要求1所述的方法,其特征在于,在所述对所述唇...

【专利技术属性】
技术研发人员:李绪送成刚杨善松
申请(专利权)人:海信视像科技股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1