【技术实现步骤摘要】
利用非自回归模型与整合放电技术的唇语识别方法、系统
本专利技术涉及唇语识别,尤其涉及一种利用非自回归模型与整合放电技术的唇语识别方法、系统。
技术介绍
唇语识别是计算机视觉领域中的一个难点,也是语音识别领域一个重要的发展方向,其目标是针对于给定的包含发言者嘴型的一段视频或者一组连续的图片,预测发言者正在说的话。近年来唇语识别技术的准确度有了明显的提高。但是,现有的唇语识别技术主要建立在自回归模型的基础上,在识别过程中需要逐一生成目标词条,具有较高的推测延迟。而现有的非自回归模型面临着如下的一系列挑战。(1)输入视频帧和目标文本词条之间的序列长度存在很大差异,因此在推断阶段很难估计输出序列的长度或定义正确的解码器输入。(2)真实的目标序列分布在整个时间上显示出很强的相关性,但是非自回归模型通常会在条件上彼此独立地生成目标标记,因而会产生重复的单词。(3)模型缺乏有效的对齐机制,因此若仅训练原始非自回归模型,编码器的特征表示能力很弱,更难以解决唇语识别中固有的歧义问题。综上,现有的基于非自 ...
【技术保护点】
1.一种利用非自回归模型与整合放电技术的唇语识别方法,其特征在于包括如下步骤:/n1)获取唇语识别训练样本集;/n2)建立非自回归神经网络模型,包括特征提取网络、编码网络、解码网络和整合放电模块;采用唇语识别训练样本集对步骤2)建立的非自回归神经网络模型进行训练,并在训练过程中引入两个辅助解码器;所述的步骤2)具体包括如下步骤:/n2.1)对一组唇形图像数据进行位置编码,然后采用特征提取网络获得唇形图像的图像特征,将位置编码信息和图像特征信息作为编码网络的输入,得到编码网络输出序列;将编码网络输出序列分别作为两个辅助解码器的输入,得到两个辅助损失;/n2.2)将编码网络输出 ...
【技术特征摘要】
1.一种利用非自回归模型与整合放电技术的唇语识别方法,其特征在于包括如下步骤:
1)获取唇语识别训练样本集;
2)建立非自回归神经网络模型,包括特征提取网络、编码网络、解码网络和整合放电模块;采用唇语识别训练样本集对步骤2)建立的非自回归神经网络模型进行训练,并在训练过程中引入两个辅助解码器;所述的步骤2)具体包括如下步骤:
2.1)对一组唇形图像数据进行位置编码,然后采用特征提取网络获得唇形图像的图像特征,将位置编码信息和图像特征信息作为编码网络的输入,得到编码网络输出序列;将编码网络输出序列分别作为两个辅助解码器的输入,得到两个辅助损失;
2.2)将编码网络输出序列进行预处理,得到权重嵌入序列,并将编码网络输出序列和经缩放处理后的权重嵌入序列传递至整合放电模块处理,生成对齐后的嵌入序列;
2.3)采用解码器网络对整合放电模块输出的对齐后的嵌入序列进行解码,得到预测文本序列及其主损失;结合两个辅助损失和主损失,更新编码网络和解码网络的参数,得到最终的非自回归神经网络模型;
3)采集要预测语言的唇语视频并处理为连续的唇形图像数据,由训练好的非自回归神经网络模型生成唇语识别结果。
2.根据权利要求1所述的一种利用非自回归模型与整合放电技术的唇语识别方法,其特征在于,所述的唇语识别训练样本集是由源视频和对应的对齐文本经预处理后得到的,具体为:将一段源视频裁剪得到以嘴唇为中心的一组唇形图像,每一帧对应一幅唇形图像,得到源图像序列,对文本数据采用BPE算法进行分词处理,得到对应该组唇形图像数据的目标文本序列;每一个训练样本由一组唇形图像数据与真实的目标文本序列构成。
3.根据权利要求1所述的一种利用非自回归模型与整合放电技术的唇语识别方法,其特征在于,所述非自回归神经网络模型中的特征提取网络由一个时空卷积神经网络构成,包含四层三维卷积层、三维池化层、RELU激活层和两层全连接层;
所述非自回归神经网络模型中的编码网络采用Transformer模型中的编码器,由N个编码子块堆叠构成;
所述非自回归神经网络模型中的解码网络由N个解码子块堆叠构成,解码子块的结构与编码子块的结构相同。
4.根据权利要求1所述的一种利用非自回归模型与整合放电技术的唇语识别方法,其特征在于,所述的两个辅助解码器分别为辅助连接时序分类解码器和辅助自回归解码器。
5.根据权利要求4所述的一种利用非自回归模型与整合放电技术的唇语识别方法,其特征在于,所述编码网络的输出有三个分支:
第一分支将编码网络输出序列传递至辅助连接时序分类解码器,结合真实的目标文本序列,得到CTC损失;
第二分支将编码网络输出序列传递至辅助自回归解码器,得到第一预测文本序列;将第一预测文本序列与真实的目标文本序列进行比较,得到辅助自回归损失;
第三分支将编码网络输出序列进行预处理,得到权重嵌入序列,并将编码网络输出序列和经缩放处理后的权重嵌入序列传递至整合放电模块处理,生成对齐后的嵌入序列;对整合放电模块输出的对齐后的嵌入序列进行解码,得到第二预测文本序列;将第二预测文本序列与真实的目标文本序列进行比较,得到主损失;
用于训练非自回归神经网络模型的总损失函数如下:
L=λ1Lctc+λ2LAR+λ3LFLR
其中,λ1,λ2,λ3是超参数,Lctc为辅助连接时序分类解码器的损失,LAR为辅助自回归解码器的损失,LFLR为主解码器的损失。
6.根据权利要求4所述的一种利用非自回归模型与整合放电技术的唇语识别方法,其特征在于,所述的辅助自回归解码器采用Transformer模型中的解码器,并使用TeacherFor...
【专利技术属性】
技术研发人员:赵洲,童鑫远,肖俊,吴飞,
申请(专利权)人:浙江大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。