一种手语识别方法及相关装置、设备、存储介质制造方法及图纸

技术编号:37478029 阅读:14 留言:0更新日期:2023-05-07 09:19
本申请公开了一种手语识别方法及相关装置、设备、存储介质,手语识别方法包括:获取分句视频帧序列,分句视频帧序列是对手语动作序列进行采集得到,分句视频帧序列中的手语动作所表达内容为一个分句;对分句视频帧序列按照分词进行划分,得到若干分词视频帧序列,分句视频帧序列中的手语动作所表达内容为一个分词;对各分词视频帧序列进行动作识别,得到各分词视频帧序列对应的分词;利用各分词视频帧序列对应的分词,得到分句视频帧序列对应的分句。上述方案,能够提高视频通话沟通效率。能够提高视频通话沟通效率。能够提高视频通话沟通效率。

【技术实现步骤摘要】
一种手语识别方法及相关装置、设备、存储介质


[0001]本申请涉及视频识别领域,特别是涉及一种手语识别方法及相关装置、设备、存储介质。

技术介绍

[0002]在现有通话场景下,一般采用文本和语音互转的方式实现听障人士的视频电话交流,但是该方法并不能提高沟通效率。并且视频电话场景的即时性高,用户对视频电话沟通有着较高的效率期待,在视频电话沟通的过程中,很多用户并不会积极等待听障人士进行打字沟通,从而导致实际沟通效果差,用户满意度低。

技术实现思路

[0003]本申请至少提供一种手语识别方法及相关装置、设备、存储介质,能够提高视频通话沟通效率。
[0004]本申请第一方面提供了一种手语识别方法,该方法包括:获取分句视频帧序列,分句视频帧序列是对手语动作序列进行采集得到,分句视频帧序列中的手语动作所表达内容为一个分句;对分句视频帧序列按照分词进行划分,得到若干分词视频帧序列,分词视频帧序列中的手语动作所表达内容为一个分词;对各分词视频帧序列进行动作识别,得到各分词视频帧序列对应的分词;利用各分词视频帧序列对应的分词,得到分句视频帧序列对应的分句。
[0005]其中,对各分词视频帧序列进行动作识别,得到各分词视频帧序列对应的分词,包括:对于各分词视频帧序列,提取分词视频帧序列的分词语义特征;从若干预设语义特征中,查找出与分词语义特征匹配的预设语义特征;将查找出的预设语义特征对应的分词作为分词视频帧序列对应的分词。
[0006]其中,从若干预设语义特征中,查找出与分词语义特征匹配的预设语义特征,包括:获取分词语义特征分别与各预设语义特征之间的相似度;将相似度最高的预设语义特征,作为与分词语义特征匹配的预设语义特征;和/或,分词语义特征是利用视觉编码器提取得到的,方法还包括:获取若干样本分词视频帧序列,若干样本分词视频帧序列包括第一样本视频帧序列、至少一个第二样本视频帧序列和至少一个第三样本视频帧序列,第一样本视频帧序列和第二样本视频帧序列为不同手语演示者对同一分词进行手语动作的视频帧序列,第一样本视频帧序列和第三样本视频帧序列为对不同分词进行手语动作的视频帧序列;利用视觉编码器分别对样本分词视频帧序列进行特征提取,得到样本分词视频帧序列对应的样本语义特征;利用第一样本视频帧序列和第二样本视频帧序列之间关于样本语义特征的第一相似度、第一样本视频帧序列与第三样本视频帧序列之间关于样本语义特征的第二相似度,得到特征提取损失;利用特征提取损失调整视觉编码器的参数;其中,至少一个预设语义特征为样本分词视频帧序列对应的样本语义特征。
[0007]其中,对分句视频帧序列按照分词进行划分,得到若干分词视频帧序列,包括:从
分句视频帧序列中,查找出属于两个手语动作之间的分隔的若干词间隔视频帧;对于各相邻两个词间隔视频帧,从分句视频帧序列中获取相邻两个词间隔视频帧之间的视频帧,作为相邻两个词间隔视频帧对应的分词视频帧序列。
[0008]其中,从分句视频帧序列中,查找出属于两个手语动作之间的分隔的若干词间隔视频帧,包括:每获取分句视频帧序列中的一视频帧对应的第一视频帧序列,对视频帧对应的第一视频帧序列进行词间隔识别,得到视频帧的词间隔识别结果,其中,视频帧对应的第一视频帧序列包括视频帧以及位于视频帧之后的第一数量视频帧;响应于视频帧的词间隔识别结果满足预设词间隔要求,确定视频帧为词间隔视频帧。
[0009]其中,词间隔识别结果是利用词间隔识别器进行词间隔识别得到的;和/或,视频帧的词间隔识别结果为视频帧的词间隔分数,预设词间隔要求为视频帧的词间隔分数大于预设阈值。
[0010]其中,获取分句视频帧序列,包括:每获取一第二视频帧序列,对第二视频帧序列进行运动状态识别,得到第二视频帧序列的状态识别结果,状态识别结果用于确定第二视频帧序列中是否存在手语动作状态,第二视频帧序列包括对手语动作序列进行采集得到的连续的第二数量视频帧,相邻第二视频帧序列存在部分相同的视频帧;基于状态识别结果确定第二视频帧序列是否为手语开始序列或手语结束序列;将手语开始序列、手语结束序列、以及手语开始序列、手语结束序列之间的第二视频帧序列,组合得到分句视频帧序列。
[0011]其中,状态识别结果是利用运动识别器进行运动状态识别得到的;和/或,基于状态识别结果确定第二视频帧序列是否为手语开始序列或手语结束序列,包括:基于状态识别结果确定第二视频帧序列处于手语动作状态或非手语动作状态;响应于第二视频帧序列处于手语动作状态、且前一第二视频帧序列处于非手语动作状态,确定第二视频帧序列为手语开始序列;响应于第二视频帧序列处于非手语动作状态、且前一第二视频帧序列处于手语动作状态,确定第二视频帧序列为手语结束序列;和/或,状态识别结果为手语动作状态得分,在基于状态识别结果确定第二视频帧序列是否为手语开始序列或手语结束序列之前,还包括:将手语动作状态得分转换为状态标识,状态标识为表示手语动作状态的第一标识或表示非手语动作状态的第二标识。
[0012]其中,利用各分词视频帧序列对应的分词,得到分句视频帧序列对应的分句,包括:对各分词视频帧序列对应的分词组成的分词序列进行纠正,得到经纠正的分词序列;利用经纠正的分词序列,得到分句视频帧序列对应的分句。
[0013]其中,对各分词视频帧序列对应的分词组成的分词序列进行纠正,包括:利用纠错器对分词序列进行修正;和/或,利用分词序列生成初始分句,并显示初始分句,接收用户输入的对初始分句的更正信息,基于更正信息对分词序列进行修正。
[0014]其中,分句视频帧序列是在视频通话过程中采集得到的,在利用各分词视频帧序列对应的分词,得到分句视频帧序列对应的分句之后,还包括:将分句视频帧序列对应的分句发送给视频通话中的对端;和/或,在获取分句视频帧序列之前,还包括:对当前采集到的视频帧中的人物进行识别,得到人物在视频帧中的位置信息;基于位置信息确定视频帧中的人物是否符合手语识别要求;响应于视频帧中的人物不符合手语识别要求,提示用户调整位置。
[0015]本申请第二方面提供了一种手语识别装置,包括:获取模块,用于获取分句视频帧
序列,分句视频帧序列是对手语动作序列进行采集得到,分句视频帧序列中的手语动作所表达内容为一个分句;分词模块,用于对分句视频帧序列按照分词进行划分,得到若干分词视频帧序列,分句视频帧序列中的手语动作所表达内容为一个分词;识别模块,用于对各分词视频帧序列进行动作识别,得到各分词视频帧序列对应的分词;编码模块,用于利用各分词视频帧序列对应的分词,得到分句视频帧序列对应的分句。
[0016]本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述第一方面中的手语识别方法。
[0017]本申请第四方面提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述第一方面中的手语识别方法。
[0018]上述方案,获取手语动作序列的分句视频帧序列,按照分词对分句视频帧本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种手语识别方法,其特征在于,包括:获取分句视频帧序列,所述分句视频帧序列是对手语动作序列进行采集得到,所述分句视频帧序列中的手语动作所表达内容为一个分句;对所述分句视频帧序列按照分词进行划分,得到若干分词视频帧序列,所述分词视频帧序列中的手语动作所表达内容为一个分词;对各所述分词视频帧序列进行动作识别,得到各所述分词视频帧序列对应的分词;利用各所述分词视频帧序列对应的分词,得到所述分句视频帧序列对应的分句。2.根据权利要求1所述的方法,其特征在于,所述对各所述分词视频帧序列进行动作识别,得到各所述分词视频帧序列对应的分词,包括:对于各所述分词视频帧序列,提取所述分词视频帧序列的分词语义特征;从若干预设语义特征中,查找出与所述分词语义特征匹配的所述预设语义特征;将查找出的所述预设语义特征对应的分词作为所述分词视频帧序列对应的分词。3.根据权利要求2所述的方法,其特征在于,所述从若干预设语义特征中,查找出与所述分词语义特征匹配的所述预设语义特征,包括:获取所述分词语义特征分别与各所述预设语义特征之间的相似度;将所述相似度最高的所述预设语义特征,作为与所述分词语义特征匹配的所述预设语义特征;和/或,所述分词语义特征是利用视觉编码器提取得到的,所述方法还包括:获取若干样本分词视频帧序列,所述若干样本分词视频帧序列包括第一样本视频帧序列、至少一个第二样本视频帧序列和至少一个第三样本视频帧序列,所述第一样本视频帧序列和第二样本视频帧序列为不同手语演示者对同一分词进行手语动作的视频帧序列,所述第一样本视频帧序列和第三样本视频帧序列为对不同分词进行手语动作的视频帧序列;利用所述视觉编码器分别对所述样本分词视频帧序列进行特征提取,得到所述样本分词视频帧序列对应的样本语义特征;利用所述第一样本视频帧序列和第二样本视频帧序列之间关于所述样本语义特征的第一相似度、所述第一样本视频帧序列与第三样本视频帧序列之间关于所述样本语义特征的第二相似度,得到特征提取损失;利用所述特征提取损失调整所述视觉编码器的参数;其中,至少一个所述预设语义特征为所述样本分词视频帧序列对应的样本语义特征。4.根据权利要求1所述的方法,其特征在于,所述对所述分句视频帧序列按照分词进行划分,得到若干分词视频帧序列,包括:从所述分句视频帧序列中,查找出属于两个手语动作之间的分隔的若干词间隔视频帧;对于各相邻两个所述词间隔视频帧,从所述分句视频帧序列中获取所述相邻两个所述词间隔视频帧之间的视频帧,作为所述相邻两个所述词间隔视频帧对应的所述分词视频帧序列。5.根据权利要求4所述的方法,其特征在于,所述从所述分句视频帧序列中,查找出属于两个手语动作之间的分隔的若干词间隔视频帧,包括:每获取所述分句视频帧序列中的一视频帧对应的第一视频帧序列,对所述视频帧对应
的第一视频帧序列进行词间隔识别,得到所述视频帧的词间隔识别结果,其中,所述视频帧对应的第一视频帧序列包括所述视频帧以及位于所述视频帧之后的第一数量视频帧;响应于所述视频帧的词间隔识别结果满足预设词间隔要求,确定所述视频帧为所述词间隔视频帧。6.根据权利要求5所述的方法,其特征在于,所述词间隔识别结果是利用词间隔识别器进行词间隔识别得到的;和/或,所述视频帧的词间隔识别结果为所述视频帧的词间隔分数,所述预设词间隔要求为所述视频帧的词间隔分数大于预设阈值。7.根据权利要求1所述的方法,其特征在于,所述获取分句视频帧序列,包括:每获取一第二视频帧序列,对所述第二视频帧序列进行运动状态识别,得到所述第二视频帧序列的状态识别结...

【专利技术属性】
技术研发人员:彭英伦陈茂东刘平平
申请(专利权)人:广州市讯飞樽鸿信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1