手语翻译模型训练方法技术

技术编号:39501897 阅读:13 留言:0更新日期:2023-11-24 11:32
本发明专利技术提供一种手语翻译模型训练方法

【技术实现步骤摘要】
手语翻译模型训练方法、装置、电子设备及存储介质


[0001]本专利技术涉及手语翻译
,尤其涉及一种手语翻译模型训练方法

装置

电子设备及存储介质


技术介绍

[0002]手语是听障人士与他人沟通交流的主要形式,是一种特殊的视觉语言

[0003]现有技术中,可以通过手语翻译模型来实现手语与口语之间的转换,而该手语翻译模型的监督学习通常需要手语单词注释序列来完成

手语单词注释序列是由多个手语动作的符号注释组成的,每个手语动作的符号注释可以用于表示手语视频中的一个或者多个手势动作

[0004]然而,对手语动作进行符号注释通常需要由精通手语的专业人员进行,不仅标注过程费时费力,而且标注得到的数据集在规模和适用语言上也具有一定的局限性


技术实现思路

[0005]本专利技术提供一种手语翻译模型训练方法

装置

电子设备及存储介质,用以解决现有技术中对手语动作进行符号注释,不仅过程费时费力,且标注得到的数据集具有应用局限性的问题

[0006]本专利技术提供一种手语翻译模型训练方法,包括:获取第一数据集和第二数据集;通过所述第一数据集对第一翻译模型的视觉编码器进行训练,以确定所述视觉编码器的模型参数;通过所述视觉编码器确定所述第二数据集中手语视频的手语级高维特征;基于所述手语级高维特征和所述第二数据集对第二翻译模型进行训练,以确定所述第二翻译模型的模型参数;其中,所述第二翻译模型的量级大于所述第一翻译模型的量级

[0007]根据本专利技术提供一种的手语翻译模型训练方法,所述第一翻译模型包括所述视觉编码器

文本映射层以及轻量级翻译模块;所述第一数据集包括第一手语视频和第一翻译文本;所述通过第一数据集对第一翻译模型的视觉编码器进行训练,以确定所述视觉编码器的模型参数,包括:通过所述视觉编码器确定所述第一手语视频的第一手语级高维特征;通过所述文本映射层将所述第一手语级高维特征映射到文本空间,得到第一手语嵌入表示特征;通过所述轻量级翻译模块对所述第一手语嵌入表示特征和所述第一翻译文本进行编码和解码,得到第一预测文本,并基于所述第一翻译文本和所述第一预测文本,计算所述第一翻译模型的交叉熵函数以更新所述视觉编码器的模型参数,直至所述第一翻译模型的交叉熵函数处于收敛状态

[0008]根据本专利技术提供一种的手语翻译模型训练方法,所述视觉编码器包括视觉骨干网络和时序模块;所述第一手语级高维特征包括帧级高维特征和时序特征;所述通过所述视觉编码器确定所述第一手语视频的第一手语级高维特征,包括:对原始手语视频进行降采样处理,得到所述第一手语视频,所述第一手语视频的维度小于所述原始手语视频的维度;将所述第一手语视频输入所述视觉骨干网络,得到所述第一手语视频的帧级高维特征;将
所述第一手语视频输入所述时序模块,得到所述第一手语视频的时序特征

[0009]根据本专利技术提供一种的手语翻译模型训练方法,所述文本映射层包括手语嵌入层和第一位置编码层;所述通过所述文本映射层将所述第一手语级高维特征映射到文本空间,得到第一手语嵌入表示特征,包括:通过所述手语嵌入层将所述第一手语级高维特征映射到文本空间,得到文本特征;通过所述第一位置编码层为所述文本特征添加位置编码信息,得到所述第一手语嵌入表示特征

[0010]根据本专利技术提供一种的手语翻译模型训练方法,所述轻量级翻译模块包括文本编码器

词嵌入层

第二位置编码层和文本解码器;所述通过所述轻量级翻译模块对所述第一手语嵌入表示特征和所述第一翻译文本进行编码和解码,得到第一预测文本,包括:将所述第一手语嵌入表示特征输入所述文本编码器,以得到手语隐藏状态;将所述第一翻译文本输入所述词嵌入层和所述第二位置编码层,得到文本表示特征;将所述手语隐藏状态和所述文本表示特征输入所述文本解码器,得到所述第一预测文本

[0011]本专利技术还提供一种手语翻译模型训练装置,包括:获取模块和处理模块;所述获取模块,用于获取第一数据集和第二数据集;处理模块,可以用于通过所述第一数据集对第一翻译模型的视觉编码器进行训练,以确定所述视觉编码器的模型参数;通过所述视觉编码器确定所述第二数据集中手语视频的手语级高维特征;基于所述手语级高维特征和所述第二数据集对第二翻译模型进行训练,以确定所述第二翻译模型的模型参数;其中,第二翻译模型的量级大于所述第一翻译模型的量级

[0012]根据本专利技术提供一种的手语翻译模型训练装置,所述第一翻译模型包括所述视觉编码器

文本映射层以及轻量级翻译模块;所述第一数据集包括第一手语视频和第一翻译文本;所述处理模块,具体用于通过所述视觉编码器确定所述第一手语视频的第一手语级高维特征;通过所述文本映射层将所述第一手语级高维特征映射到文本空间,得到第一手语嵌入表示特征;通过所述轻量级翻译模块对所述第一手语嵌入表示特征和所述第一翻译文本进行编码和解码,得到第一预测文本,并基于所述第一翻译文本和所述第一预测文本,计算所述第一翻译模型的交叉熵函数以更新所述视觉编码器的模型参数,直至所述第一翻译模型的交叉熵函数处于收敛状态

[0013]根据本专利技术提供一种的手语翻译模型训练装置,所述视觉编码器包括视觉骨干网络和时序模块;所述第一手语级高维特征包括帧级高维特征和时序特征;所述处理模块,具体用于对原始手语视频进行降采样处理,得到所述第一手语视频,所述第一手语视频的维度小于所述原始手语视频的维度;将所述第一手语视频输入所述视觉骨干网络,得到所述第一手语视频的帧级高维特征;将所述第一手语视频输入所述时序模块,得到所述第一手语视频的时序特征

[0014]根据本专利技术提供一种的手语翻译模型训练装置,所述文本映射层包括手语嵌入层和第一位置编码层;处理模块,具体用于通过所述手语嵌入层将所述第一手语级高维特征映射到文本空间,得到文本特征;通过所述第一位置编码层为所述文本特征添加位置编码信息,得到所述第一手语嵌入表示特征

[0015]根据本专利技术提供一种的手语翻译模型训练装置,所述轻量级翻译模块包括文本编码器

词嵌入层

第二位置编码层和文本解码器;处理模块,具体用于将所述第一手语嵌入表示特征输入所述文本编码器,以得到手语隐藏状态;将所述第一翻译文本输入所述词嵌
入层和所述第二位置编码层,得到文本表示特征;将所述手语隐藏状态和所述文本表示特征输入所述文本解码器,得到所述第一预测文本

[0016]本专利技术还提供一种电子设备,包括存储器

处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述手语翻译模型训练方法的步骤

[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种手语翻译模型训练方法,其特征在于,包括:获取第一数据集和第二数据集;通过所述第一数据集对第一翻译模型的视觉编码器进行训练,以确定所述视觉编码器的模型参数;通过所述视觉编码器确定所述第二数据集中手语视频的手语级高维特征;基于所述手语级高维特征和所述第二数据集对第二翻译模型进行训练,以确定所述第二翻译模型的模型参数;其中,所述第二翻译模型的量级大于所述第一翻译模型的量级
。2.
根据权利要求1所述的手语翻译模型训练方法,其特征在于,所述第一翻译模型包括所述视觉编码器

文本映射层以及轻量级翻译模块;所述第一数据集包括第一手语视频和第一翻译文本;所述通过第一数据集对第一翻译模型的视觉编码器进行训练,以确定所述视觉编码器的模型参数,包括:通过所述视觉编码器确定所述第一手语视频的第一手语级高维特征;通过所述文本映射层将所述第一手语级高维特征映射到文本空间,得到第一手语嵌入表示特征;通过所述轻量级翻译模块对所述第一手语嵌入表示特征和所述第一翻译文本进行编码和解码,得到第一预测文本,并基于所述第一翻译文本和所述第一预测文本,计算所述第一翻译模型的交叉熵函数以更新所述视觉编码器的模型参数,直至所述第一翻译模型的交叉熵函数处于收敛状态
。3.
根据权利要求2所述的手语翻译模型训练方法,其特征在于,所述视觉编码器包括视觉骨干网络和时序模块;所述第一手语级高维特征包括帧级高维特征和时序特征;所述通过所述视觉编码器确定所述第一手语视频的第一手语级高维特征,包括:对原始手语视频进行降采样处理,得到所述第一手语视频,所述第一手语视频的维度小于所述原始手语视频的维度;将所述第一手语视频输入所述视觉骨干网络,得到所述第一手语视频的帧级高维特征;将所述第一手语视频输入所述时序模块,得到所述第一手语视频的时序特征
。4.
根据权利要求2所述的手语翻译模型训练方法,其特征在于,所述文本映射层包括手语嵌入层和第一位置编码层;所述通过所述文本映射层将所述第一手语级高维特征映射到文本空间,得到第一手语嵌入表示特征,包括:通过所述手语嵌入层将所述第一手语级高维特征映射到文本空间,得到文本特征;通过所述第一位置编码层为所述文本特征添加位置编码信息,得到所述第一手语嵌入表示特征
。5.
根据权利要求2所述的手语翻译模型训练方法,其特征在于,所述轻量级翻译模块包括文本编码器

词嵌入层

第二位置编码层和文本解码器;所述通过所述轻量级翻译模块对所述第一手语嵌入表示特征和所述第一翻译文本进行编码和解...

【专利技术属性】
技术研发人员:万军陈志刚雷震
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1