【技术实现步骤摘要】
手语动作的识别方法和离散化编码模型的训练方法
[0001]本申请涉及数据处理领域,具体而言,涉及一种手语动作的识别方法和离散化编码模型的训练方法。
技术介绍
[0002]目前,手语翻译可以帮助听障人士更好的与人们进行沟通交流,利用手语翻译可以将手语转换为自然语言,其中,手语识别任务是手语翻译的第一步,其目的是将输入的视频中每个手语对应的词汇识别出来,但是目前采用的识别方式对视频中手语动作的识别准确度较低。
[0003]针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
[0004]本申请实施例提供了一种手语动作的识别方法和离散化编码模型的训练方法,以至少解决相关技术中对手语动作的识别准确度较低的技术问题。
[0005]根据本申请实施例的一个方面,提供了一种手语动作的识别方法,包括:采集生物对象输出待识别手语动作过程中的图像帧集合;对图像帧集合中的图像帧进行离散化编码,得到待识别手语动作的离散特征,其中,离散特征用于表征待识别手语动作所表示的待识别词汇的特征;对待识别手语动作的离散特征进 ...
【技术保护点】
【技术特征摘要】
1.一种手语动作的识别方法,其特征在于,包括:采集生物对象输出待识别手语动作过程中的图像帧集合;对所述图像帧集合中的图像帧进行离散化编码,得到所述待识别手语动作的离散特征,其中,所述离散特征用于表征所述待识别手语动作所表示的待识别词汇的特征;对所述待识别手语动作的离散特征进行分类,得到所述待识别手语动作的识别结果,其中,所述识别结果用于表征所述待识别词汇的类别。2.根据权利要求1所述的方法,其特征在于,对所述图像帧集合中的图像帧进行离散化编码,得到所述待识别手语动作的离散特征,包括:利用离散化编码模型对所述图像帧进行离散化编码,得到所述待识别手语动作的离散特征。3.根据权利要求2所述的方法,其特征在于,所述离散化编码模型包括:编码器模型和离散化词表,其中,利用离散化编码模型对所述图像帧进行离散化编码,得到所述待识别手语动作的离散特征,包括:利用所述编码器模型对所述图像帧进行特征提取,得到所述图像帧的图像特征;对所述图像帧的图像特征进行离散化操作,得到所述图像特征对应的中间特征;从所述离散化词表中获取与所述中间特征对应的预设特征,得到所述待识别手语动作的离散特征,其中,所述离散化词表中存储有预设数量的预设特征,不同数量的预设特征的排列组合用于表征不同手语动作所表示的词汇。4.根据权利要求2所述的方法,其特征在于,所述离散化编码模型的模型参数基于第一损失值进行调整,所述第一损失值基于训练图像帧集合和重构图像帧集合构建,所述重构图像帧集合利用解码器模型对拼接特征进行图像重构所得到,所述拼接特征通过将所述训练图像帧集合中的参考图像帧的图像特征分别与所述训练图像帧集合包含的训练手语动作的离散特征进行拼接后得到,所述参考图像帧的图像特征通过特征提取模型对所述参考图像帧进行特征提取得到,所述训练手语动作的离散特征通过所述离散化编码模型对所述训练图像帧集合中的训练图像帧进行离散化编码所得到。5.根据权利要求1所述的方法,其特征在于,对所述待识别手语动作的离散特征进行分类,得到所述待识别手语动作的识别结果,包括:利用识别模型对所述待识别手语动作的离散特征进行分类,得到所述识别结果。6.根据权利要求5所述的方法,其特征在于,所述识别模型的模型参数基于第二损失值进行调整,所述第二损失值基于所述手语动作的识别结果和接收到的反馈结果所确定,所述反馈结果通过在所述识别结果输出之后对所述识别结果进行修改得到。7.一种离散化编码模型的训练方法,其特征在于,包括:获取训练图像帧集合,其中,所述训练图像帧集合包含相同生物对象输出的训练手语动作;利用离散化编码模型对所述训练图像帧集合中的训练图像帧进行离散化编码,得到所述训练手语动作的离散特征;利用解码器模型对所述训练手语动作的离散特征进行图像重建,得到重构图像帧集合;基于所述训练图像帧集合和所述重构图像帧集合对所述离散化编码模型和所述解码
器模型的模型参数进行调整。8.根据权利要求7所述的方法,其特征在于,利用解码器模型对所述训练手语动作的离散特征进行图像重建,得到重构图像帧集合,包括:利用特征提取模型对所述训练图像帧集合中的参考图像帧进行特征提取,得到所述参考图像帧的图像特征;将所述参考图像帧的图像特征分别与所述训练手语动作的离散特...
【专利技术属性】
技术研发人员:王琪,张邦,
申请(专利权)人:阿里巴巴中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。