【技术实现步骤摘要】
神经网络机器翻译模型训练方法、机器翻译方法和装置
本专利技术涉及机器翻译
,尤其涉及一种神经网络机器翻译模型训练方法、机器翻译方法和装置。
技术介绍
在5G的快节奏生活下,人们往往会使用一则视频和一段简短的文字来记录自己的生活。我们以抖音(TikTok)为例,应用数据公司SensorTower的最新数据显示,TikTok全球下载量突破20亿人次。这不仅表示喜爱视频的人之多,同样也足以显示(短)视频全球化这一趋势。所以将视频信息作为机器翻译中文本的辅助信息,将在一定程度上顺应大时代的发展。具体来说,这个任务需要在理解源语言以生成适当的目标语言的同时,还需要从视频中学习到丰富而复杂的视觉信息。这不仅是具有较高学术研究价值的新兴多媒体研究领域,还存在一定的潜在实际应用场景,例如,在像TikTok以及微博等类似的社交媒体平台中翻译带有视频内容的帖子。现有的大部分视频引导的机器翻译都是使用循环神经网络(RecurrentNeuralNetwork,RNN)作为其主要架构,在序列到序列范式下捕获时间依赖性。为了更好地利用视 ...
【技术保护点】
1.一种神经网络机器翻译模型训练方法,其特征在于,包括如下步骤:/n步骤S1、获取训练样本集,所述训练样本集包括训练视频、与训练视频对应的训练文本向量序列及与训练文本向量序列对应的标准文本向量序列;/n步骤S2、从训练视频中提取多个画面帧,构建与所述多个画面帧分别对应多个场景视觉图,每一场景视觉图均包括其对应的画面帧中的目标对象、目标对象标签及各个目标对象之间的视觉关系;/n步骤S3、将多个场景视觉图转换为图特征向量序列;/n步骤S4、将图特征向量序列、训练文本向量序列及标准文本向量序列输入到神经网络机器翻译模型中;/n步骤S5、所述神经网络机器翻译模型对图特征向量序列、训 ...
【技术特征摘要】
1.一种神经网络机器翻译模型训练方法,其特征在于,包括如下步骤:
步骤S1、获取训练样本集,所述训练样本集包括训练视频、与训练视频对应的训练文本向量序列及与训练文本向量序列对应的标准文本向量序列;
步骤S2、从训练视频中提取多个画面帧,构建与所述多个画面帧分别对应多个场景视觉图,每一场景视觉图均包括其对应的画面帧中的目标对象、目标对象标签及各个目标对象之间的视觉关系;
步骤S3、将多个场景视觉图转换为图特征向量序列;
步骤S4、将图特征向量序列、训练文本向量序列及标准文本向量序列输入到神经网络机器翻译模型中;
步骤S5、所述神经网络机器翻译模型对图特征向量序列、训练文本向量序列及标准文本向量序列进行注意力编码,得到视频特征向量序列、第一文本特征向量序列和第二文本特征向量序列;
步骤S6、所述神经网络机器翻译模型对图特征向量序列和第一文本特征向量序列进行跨模态注意力融合,得到视频引导的第一文本特征向量序列;
步骤S7、所述神经网络机器翻译模型根据视频引导的第一文本特征向量序列和第二文本特征向量序列解码生成预测文本向量序列;
步骤S8、根据预测文本向量序列与标准文本特征向量序列的比对结果,对所述神经网络机器翻译模型的模型参数进行迭代调整,直到满足收敛条件,完成所述神经网络机器翻译模型的训练。
2.如权利要求1所述的神经网络机器翻译模型训练方法,其特征在于,所述步骤S2具体包括:
步骤S21、以预设帧率提取训练视频中的多个画面帧;
步骤S22、识别每一画面帧中的目标对象及目标对象标签,并将每一画面帧中的目标对象与目标对象标签进行拼接,共同构成该画面帧待构建的场景视觉图的顶点;
步骤S23、捕获每一画面帧中的目标对象之间的视觉关系,以此构成该画面帧待构建的场景视觉图的边,进而得到分别对应所述多个画面帧的多个场景视觉图。
3.如权利要求1所述的神经网络机器翻译模型训练方法,其特征在于,所述步骤S3具体包括:
步骤S31、将所述多个场景视觉图转换为多个图特征向量;
步骤S32、在所述多个图特征向量中加入位置编码,得到图特征向量序列。
4.如权利要求3所述的神经网络机器翻译模型训练方法,其特征在于,所述步骤S31具体包括:
步骤S311、通过多层空间图卷积处理将各个视觉场景图转...
【专利技术属性】
技术研发人员:曹达,陈诗雨,曾雅文,章成源,陆邵飞,荣辉桂,
申请(专利权)人:湖南大学,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。