当前位置: 首页 > 专利查询>华侨大学专利>正文

一种唇语的识别方法、装置及设备制造方法及图纸

技术编号:30785374 阅读:22 留言:0更新日期:2021-11-16 07:47
本发明专利技术提供了一种唇语的识别方法、装置及设备,包括:获取视频数据,并对所述视频数据进行处理,以获得唇部图像序列;对所述图像序列进行双向时序的特征提取,生成所述唇部图像序列的表观特征;调用LSTM模型,对所述表观特征的变化进行镜头转换的边界检测并生成检测结果,根据所述检测结果初始化所述LSTM模型的隐含层和记忆层;提取所述隐含层的编码特征,并根据所述编码特征获取单词预测序列。减少现有的唇语识别算法的复杂度、时间复杂度的同时保持较高的准确率。持较高的准确率。持较高的准确率。

【技术实现步骤摘要】
一种唇语的识别方法、装置及设备


[0001]本专利技术涉及人工智能领域,特别涉及一种唇语的识别方法、装置及设备。

技术介绍

[0002]随着计算机技术、互联网产业等方面的快速发展,人工智能的发展进入了新的阶段。随着深度学习在计算机视觉和自然语言处理等领域取得突出的成就,基于深度学习的唇语识别技术成为研究热点。
[0003]唇语识别是指通过视觉信息(包括脸部肌肉、唇部运动、舌头等)理解其所表达的信息的过程,在现实生活中具有十分重要的应用价值。
[0004]现如今的唇语识别都是针对短视频数据,这些视频数据持续时间为1

3秒,并且没有镜头的转换,因此识别起来相对简单,但是现实生活中大多都是长视频,并且视频中不同镜头之间具有上下文关系。现有识别方法针对长视频数据进行唇语识别需要消耗很多的时间和硬件资源。
[0005]有鉴于此,提出本申请。

技术实现思路

[0006]本专利技术公开了一种唇语的识别方法、装置及设备,旨在减少现有的唇语识别算法的复杂度、时间复杂度的同时保持较高的准确率。
[0007]本专利技术第一实施例提供了一种唇语的识别方法,包括:
[0008]获取视频数据,并对所述视频数据进行处理,以获得唇部图像序列;
[0009]对所述图像序列进行双向时序的特征提取,生成所述唇部图像序列的表观特征;
[0010]调用LSTM模型,对所述表观特征的变化进行镜头转换的边界检测并生成检测结果,根据所述检测结果初始化所述LSTM模型的隐含层和记忆层;
[0011]提取所述隐含层的编码特征,并根据所述编码特征获取单词预测序列。
[0012]优选地,所述获取视频数据,并对所述视频数据进行处理,以获得唇部序列图像具体为:
[0013]对所述视频数据进行数据切帧,生成图像序列;
[0014]调用人脸检测模型,对所述图像序列进行人脸检测,以获得目标点信息,其中,所述目标点信息包括人脸标定信息及关键点信息;
[0015]根据所述目标点信息对所述图像序列进行裁剪出取唇部图像序列。
[0016]优选地,所述对所述图像序列进行双向时序的特征提取,生成所述唇部图像序列的表观特征具体为:
[0017]调用三维卷积网络,将预设格式的唇部图像序列作为所述三维卷积网络的输入;
[0018]获取所述三维卷积网络输出的张量,并对所述张量进行空间维度上自适应平均池化,生成所述表观特征。
[0019]优选地,所述调用LSTM模型,对所述表观特征的变化进行镜头转换的边界检测并
生成检测结果,根据所述检测结果初始化所述LSTM模型的隐含层和记忆层具体为:
[0020]将所述表观特征和上一时刻的隐含层进行线性结合后输入至边界检测函数;
[0021]调用sigmoid函数对所述边界检测函数进行激活,以生成检测结果;
[0022]根据所述检测结果判断当前视频与前后帧是否处在在一个视频片段内;
[0023]若是,初始化所述LSTM模型的隐含层和记忆层。
[0024]优选地,所述提取所述隐含层的编码特征,并根据所述编码特征获取单词预测序列具体为:
[0025]提取所述隐含层的正向编码特征及反向编码特征;
[0026]调用注意机制对所述正向编码特征及所述反向编码特征,以获取所述表观特征的特征向量;
[0027]调用损失函数所述特征向量进行序列解码,以获得所述单词的预测序列。
[0028]本专利技术第二实施例提供了一种唇语的识别装置,包括:
[0029]唇部图像序列获取单元,用于获取视频数据,并对所述视频数据进行处理,以获得唇部图像序列;
[0030]表观特征生成单元,用于对所述图像序列进行双向时序的特征提取,生成所述唇部图像序列的表观特征;
[0031]初始化单元,用于调用LSTM模型,对所述表观特征的变化进行镜头转换的边界检测并生成检测结果,根据所述检测结果初始化所述LSTM模型的隐含层和记忆层;
[0032]单词预测序列获取单元,用于提取所述隐含层的编码特征,并根据所述编码特征获取单词预测序列。
[0033]优选地,所述唇部图像序列获取单元具体用于:
[0034]对所述视频数据进行数据切帧,生成图像序列;
[0035]调用人脸检测模型,对所述图像序列进行人脸检测,以获得目标点信息,其中,所述目标点信息包括人脸标定信息及关键点信息;
[0036]根据所述目标点信息对所述图像序列进行裁剪出取唇部图像序列。
[0037]优选地,所述表观特征生成单元具体用于:
[0038]调用三维卷积网络,将预设格式的唇部图像序列作为所述三维卷积网络的输入;
[0039]获取所述三维卷积网络输出的张量,并对所述张量进行空间维度上自适应平均池化,生成所述表观特征。
[0040]优选地,所述初始化单元具体用于:
[0041]将所述表观特征和上一时刻的隐含层进行线性结合后输入至边界检测函数;
[0042]调用sigmoid函数对所述边界检测函数进行激活,以生成检测结果;
[0043]根据所述检测结果判断当前视频与前后帧是否处在在一个视频片段内;
[0044]若是,初始化所述LSTM模型的隐含层和记忆层。
[0045]本专利技术第三实施例提供了一种唇语的识别设备,包括处理器、存储器以及存储在所述存储器中且被配置由所述处理器执行的计算机程序,所述处理器执行所述计算机程序实现如上任意一项所述的一种唇语的识别方法。
[0046]基于本专利技术提供的一种唇语的识别方法、装置及设备,通过对长视频数据进行处理,以获得唇部图像序列,并对所述唇部图像序列进行正向序列特征提取和反向序列特征
提取,双向的唇部序列可以更好的挖掘序列中的时序信息,其次是正向的时序信息可以捕获全局的信息,反向的时序可以关注非常重要的局部信息,因此起到提取关键信息的作用。除此之外,在得到正向和反向的特征编码之后,进一步结合注意力机制挑选出具有关键信息的特征。减少算法复杂度,时间复杂度的同时保持较高的准确率。
附图说明
[0047]图1是本专利技术第一实施例提供的一种唇语的识别方法的流程示意图;
[0048]图2是本专利技术提供的一种唇语的识别的处理过程示意图;
[0049]图3是本专利技术第二实施例提供的一种唇语的识别装置的模块示意图。
具体实施方式
[0050]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0051]为了更好的理解本专利技术的技术方案,下面结合附图对本专利技术实施例进行详细描述。
[0052]应当明确,所描述的实施例仅仅是本专利技术一部分实施例,而本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种唇语的识别方法,其特征在于,包括:获取视频数据,并对所述视频数据进行处理,以获得唇部图像序列;对所述图像序列进行双向时序的特征提取,生成所述唇部图像序列的表观特征;调用LSTM模型,对所述表观特征的变化进行镜头转换的边界检测并生成检测结果,根据所述检测结果初始化所述LSTM模型的隐含层和记忆层;提取所述隐含层的编码特征,并根据所述编码特征获取单词预测序列。2.根据权利要求1所述的一种唇语的识别方法,其特征在于,所述获取视频数据,并对所述视频数据进行处理,以获得唇部序列图像具体为:对所述视频数据进行数据切帧,生成图像序列;调用人脸检测模型,对所述图像序列进行人脸检测,以获得目标点信息,其中,所述目标点信息包括人脸标定信息及关键点信息;根据所述目标点信息对所述图像序列进行裁剪出取唇部图像序列。3.根据权利要求1所述的一种唇语的识别方法,其特征在于,所述对所述图像序列进行双向时序的特征提取,生成所述唇部图像序列的表观特征具体为:调用三维卷积网络,将预设格式的唇部图像序列作为所述三维卷积网络的输入;获取所述三维卷积网络输出的张量,并对所述张量进行空间维度上自适应平均池化,生成所述表观特征。4.根据权利要求1所述的一种唇语的识别方法,其特征在于,所述调用LSTM模型,对所述表观特征的变化进行镜头转换的边界检测并生成检测结果,根据所述检测结果初始化所述LSTM模型的隐含层和记忆层具体为:将所述表观特征和上一时刻的隐含层进行线性结合后输入至边界检测函数;调用sigmoid函数对所述边界检测函数进行激活,以生成检测结果;根据所述检测结果判断当前视频与前后帧是否处在在一个视频片段内;若是,初始化所述LSTM模型的隐含层和记忆层。5.根据权利要求1所述的一种唇语的识别方法,其特征在于,所述提取所述隐含层的编码特征,并根据所述编码特征获取单词预测序列具体为:提取所述隐含层的正向编码特征及反向编码特征;调用注意机制对所述正向编码特征及所述反向编...

【专利技术属性】
技术研发人员:杜吉祥汪冠鸿张洪博彭肖肖翟传敏
申请(专利权)人:华侨大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1