基于全局-局部特征增强的孤立词手语识别方法及系统技术方案

技术编号:25600196 阅读:60 留言:0更新日期:2020-09-11 23:57
本发明专利技术公开了一种基于全局‑局部特征增强的孤立词手语识别方法及系统,方法包括:获取待识别的手语视频,对待识别的手语视频通过共享的卷积层进行特征提取,得到特征图;捕捉特征图的上下文信息,得到全局特征;捕捉特征图的细粒度信息,得到局部特征;基于全局特征和局部特征进行协同学习,得到待识别的手语视频的识别结果。本发明专利技术能够实现同时兼顾全局与局部特征,做到对每一种特征的自适应增强;同时,能够使得这两种特征的学习相互促进,以进一步提高手语识别的准确率。

【技术实现步骤摘要】
基于全局-局部特征增强的孤立词手语识别方法及系统
本专利技术涉及手语识别
,尤其涉及一种基于全局-局部特征增强的孤立词手语识别方法及系统。
技术介绍
根据第二次全国残疾人调查,我国听力残疾患者高达2780万人。在听障人群中,最常用的交流媒介是手语。手语作为一种视觉语言,有着它独特的语言特性。它主要通过具有上下文关联的手控特征(手型、手的运动及位置等),辅助以细粒度的非手控特征(表情、唇型等)来表达语义信息。为了方便听人与聋人之间的交流,手语识别应运而生并被广泛地研究。它将输入的手语视频通过计算机算法,转换为对应的文本或者语音输出。这项研究涉及多模态人机交互、计算机视觉、自然语言处理等领域。孤立词手语识别是指输入一个手语词的视频,系统识别这个视频对应的词汇。孤立词手语识别可以看作是一种细粒度分类问题。手语孤立词的准确判别不仅依赖于手控特征,细粒度的非手控特征也起到重要作用。存在一些不同含义的易混孤立词,他们有着相同的手控特征,但是非手控特征不一样。如中文手语中,“如果”和“假冒”这对词,他们只在嘴部的运动上有所区分。这个歧义问题给手语词的准确识别带来了很大的挑战。整个系统的识别流程为,首先对输入的手语视频提取表征,然后将该表征通过变换转换为概率向量,取概率最大的类别作为最终的识别结果。随着近些年深度学习与硬件计算能力的发展,基于深度学习的孤立词手语识别系统占主导地位。它通过卷积神经网络(ConvolutionalNeuralNetwork,CNN)来提取表征,然后将表征通过全连接和Softmax层后转换为概率向量,取最大概率对应的类别作为识别结果。由此可以看出,孤立词手语识别中,提取特征这个步骤至关重要。传统的识别方法分为两种:直接从全局提取特征。而手语中存在一些细粒度的局部线索,这种方法缺乏对此类线索的关注,导致误分类;同时,也存在一些识别方法提取局部的手部特征作为辅助,但是这种方法依旧无法很好地自适应关注易混词中细粒度的非手控特征。以上的两个缺点是现有技术的主要问题,因此,如何实现同时兼顾全局与局部特征,做到对每一种特征的自适应增强。同时,能够使得这两种特征的学习相互促进,以进一步提高手语识别的准确率,是一项亟待解决的问题。
技术实现思路
有鉴于此,本专利技术提供了一种基于全局-局部特征增强的孤立词手语识别方法,能够实现同时兼顾全局与局部特征,做到对每一种特征的自适应增强;同时,能够使得这两种特征的学习相互促进,以进一步提高手语识别的准确率。本专利技术提供了一种基于全局-局部特征增强的孤立词手语识别方法,包括:获取待识别的手语视频;对所述待识别的手语视频通过共享的卷积层进行特征提取,得到特征图;捕捉所述特征图的上下文信息,得到全局特征;捕捉所述特征图的细粒度信息,得到局部特征;基于所述全局特征和所述局部特征进行协同学习,得到所述待识别的手语视频的识别结果。优选地,所述捕捉所述特征图的上下文信息,得到全局特征,包括:对所述特征图X通过独立的卷积层生成和所述特征图具有相同形状的特征A、特征B和特征C;基于所述特征A和特征B定义增强特征图E;使用所述增强特征图E聚合来自所述特征C的特征,并与所述特征图X构成全局特征。优选地,所述捕捉所述特征图的细粒度信息,得到局部特征,包括:计算显著图沿X轴和Y轴的积分并进行归一化,得到关于X轴和Y轴的分布函数;基于所述分布函数的反函数对所述特征图进行采样,得到采样后的局部特征。优选地,所述显著图根据全局特征的高阶特征经过三线性注意力生成。优选地,所述基于所述全局特征和所述局部特征进行协同学习,得到所述待识别的手语视频的识别结果,包括:基于所述全局特征和所述局部特征进行协同学习,取预测概率最高的类别作为所述待识别的手语视频的识别结果。一种基于全局-局部特征增强的孤立词手语识别系统,包括:获取模块,用于获取待识别的手语视频;特征提取模块,用于对所述待识别的手语视频通过共享的卷积层进行特征提取,得到特征图;全局增强模块,用于捕捉所述特征图的上下文信息,得到全局特征;局部增强模块,用于捕捉所述特征图的细粒度信息,得到局部特征;协同学习模块,用于基于所述全局特征和所述局部特征进行协同学习,得到所述待识别的手语视频的识别结果。优选地,所述全局增强模块具体用于:对所述特征图X通过独立的卷积层生成和所述特征图具有相同形状的特征A、特征B和特征C;基于所述特征A和特征B定义增强特征图E;使用所述增强特征图E聚合来自所述特征C的特征,并与所述特征图X构成全局特征。优选地,所述局部增强模块具体用于:计算显著图沿X轴和Y轴的积分并进行归一化,得到关于X轴和Y轴的分布函数;基于所述分布函数的反函数对所述特征图进行采样,得到采样后的局部特征。优选地,所述显著图根据全局特征的高阶特征经过三线性注意力生成。优选地,所述协同学习模块具体用于:基于所述全局特征和所述局部特征进行协同学习,取预测概率最高的类别作为所述待识别的手语视频的识别结果。综上所述,本专利技术公开了一种基于全局-局部特征增强的孤立词手语识别方法,当需要对孤立词手语进行识别时,首先获取待识别的手语视频,然后对待识别的手语视频通过共享的卷积层进行特征提取,得到特征图;捕捉特征图的上下文信息,得到全局特征;捕捉特征图的细粒度信息,得到局部特征;基于全局特征和局部特征进行协同学习,得到待识别的手语视频的识别结果。本专利技术能够实现同时兼顾全局与局部特征,做到对每一种特征的自适应增强;同时,能够使得这两种特征的学习相互促进,以进一步提高手语识别的准确率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术公开的一种基于全局-局部特征增强的孤立词手语识别方法实施例的流程图;图2为本专利技术公开的一种基于全局-局部特征增强的孤立词手语识别系统实施例的结构示意图;图3为本专利技术公开的基于全局-局部特征增强的孤立词手语识别系统的工作原理图;图4为本专利技术公开的全局增强模块的工作原理图;图5为本专利技术公开的局部增强模块的工作原理图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,为本专利技术公开的一种基于全局-局部特征增强的孤立词手语识别方法实施例的方法流程图,所述方法可以包本文档来自技高网
...

【技术保护点】
1.一种基于全局-局部特征增强的孤立词手语识别方法,其特征在于,包括:/n获取待识别的手语视频;/n对所述待识别的手语视频通过共享的卷积层进行特征提取,得到特征图;/n捕捉所述特征图的上下文信息,得到全局特征;/n捕捉所述特征图的细粒度信息,得到局部特征;/n基于所述全局特征和所述局部特征进行协同学习,得到所述待识别的手语视频的识别结果。/n

【技术特征摘要】
1.一种基于全局-局部特征增强的孤立词手语识别方法,其特征在于,包括:
获取待识别的手语视频;
对所述待识别的手语视频通过共享的卷积层进行特征提取,得到特征图;
捕捉所述特征图的上下文信息,得到全局特征;
捕捉所述特征图的细粒度信息,得到局部特征;
基于所述全局特征和所述局部特征进行协同学习,得到所述待识别的手语视频的识别结果。


2.根据权利要求1所述的方法,其特征在于,所述捕捉所述特征图的上下文信息,得到全局特征,包括:
对所述特征图X通过独立的卷积层生成和所述特征图具有相同形状的特征A、特征B和特征C;
基于所述特征A和特征B定义增强特征图E;
使用所述增强特征图E聚合来自所述特征C的特征,并与所述特征图X构成全局特征。


3.根据权利要求1所述的方法,其特征在于,所述捕捉所述特征图的细粒度信息,得到局部特征,包括:
计算显著图沿X轴和Y轴的积分并进行归一化,得到关于X轴和Y轴的分布函数;
基于所述分布函数的反函数对所述特征图进行采样,得到采样后的局部特征。


4.根据权利要求3所述的方法,其特征在于,所述显著图根据全局特征的高阶特征经过三线性注意力生成。


5.根据权利要求1所述的方法,其特征在于,所述基于所述全局特征和所述局部特征进行协同学习,得到所述待识别的手语视频的识别结果,包括:
基于所述全局特征和所述局部特征进行协同学习,取预测概率最高的类别作为所述待识别的手语视频的识别结果...

【专利技术属性】
技术研发人员:李厚强周文罡胡鹤臻蒲俊福
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1