【技术实现步骤摘要】
一种唇语识别方法、服务设备及存储介质
本申请涉及计算机视觉
,尤其涉及一种唇语识别方法、服务设备及存储介质。
技术介绍
目前智能交互设备被看作万物联网的交互入口,因此语音交互获得了迅速发展,诸多语音交互系统出现在大众生活中。然而,单模态的语音交互系统抗干扰能力不强,在有背景噪音的场景下性能会明显下降,在距离较大的远场场景中会遇到唤醒困难的问题。此外,声音监听通道被占用时,单模态语音交互系统会彻底失效。为了解决以上系统缺陷,相关技术中一方面可以依靠语音降噪和麦克风阵列等技术,来最大程度上消除背景噪音和远场环境对交互过程的影响,另一方面则可以借助多模态交互技术,赋予交互设备多模态的信号来扩充处理通路,借此解决单一模态语音交互在特定场景下遇到的问题,增强交互系统的适用性和稳定性。但是,在相关技术中,如何采用多模态的信号来提高人机交互的适用性和稳定性的问题有待解决。
技术实现思路
本申请实施例提供一种唇语识别方法、服务设备及存储介质,采用多模态的信号提高人机交互的适用性和稳定性。第一 ...
【技术保护点】
1.一种唇语识别方法,其特征在于,包括:/n对目标对象进行视频采集;/n从所述目标图像中提取出所述目标对象的唇部图像;并对所述唇部图像进行分类识别,将所述唇部图像划分为发音帧或静默帧,所述发音帧用于表示所述目标对象的唇部处于发音状态,所述静默帧用于表示所目标对象的唇部处于静默状态;/n若连续多帧唇部图像的分类识别结果满足从静默帧到发音帧再到静默帧的变化规律,则基于所述变化规律从所述连续多帧唇部图像中定位唇语的起止位置;/n获取所述起止位置之间的唇部图像序列,进行唇语识别,得到唇语识别结果。/n
【技术特征摘要】
1.一种唇语识别方法,其特征在于,包括:
对目标对象进行视频采集;
从所述目标图像中提取出所述目标对象的唇部图像;并对所述唇部图像进行分类识别,将所述唇部图像划分为发音帧或静默帧,所述发音帧用于表示所述目标对象的唇部处于发音状态,所述静默帧用于表示所目标对象的唇部处于静默状态;
若连续多帧唇部图像的分类识别结果满足从静默帧到发音帧再到静默帧的变化规律,则基于所述变化规律从所述连续多帧唇部图像中定位唇语的起止位置;
获取所述起止位置之间的唇部图像序列,进行唇语识别,得到唇语识别结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述唇部图像进行分类识别,将所述唇部图像划分为发音帧或静默帧,包括:
基于预先训练好的唇部图像分类模型,将所述唇部图像划分为发音帧或静默帧;
其中,根据以下方法得到所述唇部图像分类模型:
获取唇部样本图像,所述唇部样本图像关联有对应的类别标签,所述类别标签为根据所述唇部样本图像对应的语音信号标注的;
将所述唇部样本图像输入待训练的唇部图像分类模型,得到所述待训练的唇部图像分类模型输出的所述唇部样本图像的预测类别标签;
根据预先设置的损失函数确定所述预测类别标签与所述类别标签之间的损失,训练所述待训练的唇部图像分类模型的参数,得到所述唇部图像分类模型。
3.根据权利要求2所述的方法,其特征在于,根据所述唇部样本图像对应的语音信号对所述唇部样本图像进行标注,包括:
对所述唇部样本图像对应的所述语音信号进行声音活动检测,得到语音检测结果;所述语音信号为所述唇部样本图像和所述唇部样本图像之前的指定帧数内的语音片段;
若基于所述语音检测结果确定所述语音信号不为发音信号,则标注所述唇部样本图像为静默帧;
若基于所述语音检测结果确定所述语音信号为发音信号,且所述语音信号的能量值的归一化结果小于或等于预设阈值,则标注所述唇部样本图像为静默帧;
若基于所述语音检测结果确定所述语音信号为发音信号,且所述语音信号的能量值的归一化结果大于所述预设阈值,则标注所述唇部样本图像为发音帧。
4.根据权利要求1所述的方法,其特征在于,在所述对所述唇...
【专利技术属性】
技术研发人员:李绪送,成刚,杨善松,
申请(专利权)人:海信视像科技股份有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。