【技术实现步骤摘要】
训练字幕模型的方法和装置、计算机设备及存储介质优先权信息本申请要求于2019年4月29日递交的、申请号为16/396,924、专利技术名称为”具有多任务强化学习的端到端视频字幕”的美国申请的优先权,其全部内容通过引用并入本申请中。
本申请涉及视频字幕技术。具体地,本申请涉及训练字幕模型的方法和装置、计算机设备及存储介质。
技术介绍
视频字幕对于诸如视频检索、索引、浏览等许多下游应用是至关重要的。现有的视频字幕方法是逐个组件进行训练的,整个系统的质量受到每个单独组件的性能的影响。相关技术的端到端(E2E)训练经常受到硬件约束(例如,图形处理单元(GPU)内存)的阻碍,并且容易过拟合。关于视频字幕,由于输入视频和输出字幕都是冗长序列这一事实,这些限制被格外放大了。事实上,最新的视频字幕方法通过卷积神经网络来处理视频帧,并且通过展开递归神经网络来生成字幕。如果它们以E2E方式连接,则生成的模型既消耗内存又消耗数据,使得训练极其困难。
技术实现思路
本申请的实施例提供了一种训练字幕 ...
【技术保护点】
1.一种训练字幕模型的方法,所述字幕模型用于对输入视频执行自动视频字幕,其特征在于,所述方法包括:/n使用交叉熵损失初始化包括在所述字幕模型中的多个长短期记忆LSTM单元;/n使用强化学习训练所述LSTM单元;/n使用多任务训练对包括在所述字幕模型中的所述LSTM单元和多个卷积神经网络CNN进行训练;以及/n使用所述字幕模型生成与所述输入视频对应的视频字幕。/n
【技术特征摘要】
20190429 US 16/396,9241.一种训练字幕模型的方法,所述字幕模型用于对输入视频执行自动视频字幕,其特征在于,所述方法包括:
使用交叉熵损失初始化包括在所述字幕模型中的多个长短期记忆LSTM单元;
使用强化学习训练所述LSTM单元;
使用多任务训练对包括在所述字幕模型中的所述LSTM单元和多个卷积神经网络CNN进行训练;以及
使用所述字幕模型生成与所述输入视频对应的视频字幕。
2.根据权利要求1所述的方法,其特征在于,在所述LSTM单元的所述初始化和所述强化学习期间冻结所述CNN的权重。
3.根据权利要求2所述的方法,其特征在于,在所述多任务训练期间释放所述CNN的权重。
4.根据权利要求1所述的方法,其特征在于,所述生成所述视频字幕包括:
使用所述多个CNN将所述输入视频转换为多个特征表示;
使用所述多个LSTM单元对所述多个特征表示进行编码;以及
使用所述多个LSTM单元对所述已编码的多个特征表示进行解码,以提供描述所述输入视频的内容的语句。
5.根据权利要求1所述的方法,其特征在于,所述初始化包括:
接收在时间步长t的输入帧it;
使用所述多个CNN对所述输入帧it进行编码;
将所述已编码的输入帧it嵌入投影矩阵Wi;
使用所述多个LSTM计算与所述嵌入的已编码的输入帧it的特征表示xt对应的隐藏状态ht和单元状态ct。
6.根据权利要求5所述的方法,其特征在于,所述隐藏状态ht和所述单元状态ct被计算如下:
it=σ(WixXt+Wihht-1+bi)
ft=σ(WfxXt+Wfhht-1+bf)
ot=σ(WoxXt+Wohht-1+bo)
ct=It⊙gt+ft⊙ct-1
其中,σ表示S形函数,表示双曲正切函数,以及⊙表示元素方式乘法(element-wisemultiplication)。
7.根据权利要求1所述的方法,其特征在于,所述强化学习包括:
接收所述输入视频的视觉特征、在前一步骤中由所述字幕模型提供的至少一个标注单词(groundtruthwo...
【专利技术属性】
技术研发人员:宫博庆,
申请(专利权)人:腾讯美国有限责任公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。