【技术实现步骤摘要】
【国外来华专利技术】视频辅助的无监督语法归纳
[0001]本公开的实施例涉及自动语音识别,并且尤其涉及一种神经网络训练方法和装置、计算机设备和存储介质。
技术介绍
[0002]成分分析是自然语言处理的重要任务。成分分析旨在以成分分析树的形式捕获句子中的句法信息。成分分析的常规方法涉及人工注释的数据集。然而,由人类语言学家注释句法树成本高且耗费时间。此外,这些“受监督的”方法一般限定在几种主要语言。另外,一般地,用于训练这些受监督的分析器的树库小,并且被限定在新闻专线域,因此这些树库在应用于其它域时,性能逐渐下降。
[0003]为了解决这些问题,最近的方法是设计“无监督的”成分分析器和文法归纳器,这是因为它们可以在大规模的未标记数据上进行训练。特别地,由于视觉信息捕获了文本信息缺少的语言学习所需的许多信息源,因此,人们对利用视觉信息来进行无监督文法归纳的兴趣越来越浓。因此,最近的目标是借助其视觉上下文从原始的未标记文本中,学习成分分析器。
[0004]之前,用于训练句子分析的方法涉及利用来自图像的对象信息。之前这些方法示例的描述见 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种神经网络训练方法,由计算机设备执行,其特征在于,所述方法包括:获得至少一个成分跨度;获得训练视频输入;将多模态变换应用到所述视频输入,以生成变换后的视频输入;使用复合概率上下文无关文法PCFG模型,将所述至少一个成分跨度和所述变换后的视频输入进行比较,以将所述至少一个成分跨度与所述变换后的视频输入的对应的部分进行匹配;以及使用来自比较的结果,来学习成分分析器。2.根据权利要求1所述的方法,其特征在于,在获得所述训练视频输入之后,并且在应用所述多模态变换之前,根据公式将所述训练视频输入划分为特征序列投影(F),其中,f
im
和L
m
是第m个专家的第i个特征和特征的总数,所述专家是从在不同任务上训练的M个模型中提取的视频表示。3.根据权利要求2所述的方法,其特征在于,所述特征序列投影(F)被用作所述多模态变换的输入。4.根据权利要求3所述的方法,其特征在于,在被用作所述多模态变换的所述输入之前,将所述特征序列投影(F)连接在一起,并且采取以下形式:其中,是的平均特征。5.根据权利要求1所述的方法,其特征在于,根据以下公式将所述至少一个成分跨度和所述变换后的视频输入进行比较:和其中,c是所述成分跨度的表示,M是通过门控嵌入模块,投影的专家嵌入,表示为是学习的权重,并且Ξ
′
是Ψ和Ψ
′
的不匹配的跨度专家嵌入。6.根据权利要求5所述的方法,其特征在于,所述视频输入的铰链损失由h
vid
(Ξ,Ψ)=E
c
′
[o(Ξ
′
,Ψ)
‑
o(Ξ,Ψ)+∈]
+
+E
Ψ
′
[o(Ξ,Ψ
′
)
‑
o(Ξ,Ψ)+∈]
+
给出,其中,∈是正边缘。7.根据权利要求6所述的方法,其特征在于,视频与文本的匹配损失被定义为:s
vid
(V,σ)=∑
c∈σ
p(c|σ)h
vid
(Ξ,Ψ)。8.根据权利要求7所述的方法,其特征在于,使用以下公式来优化所述PCFG模型:L(φ,θ)=∑
(V,σ)∈Ω
‑
ELBO(σ;φ,θ)+αs
vid
(V,σ),其中,α是平衡损失项的超参数,并且Ω是视频与句子对。9.根据权利要求8所述的方法,其特征在于,在推理期间,所述方法进一步包括在不访问视频的情况下给定句子σ,预测最可能的树t
*
。10.根据权利要求9所述的方法,其特征在于,用以下近似值来估计t
*
:t
*
=argmax
t
∫
z
p
θ
(t|z)p
θ
(z|σ)dz≈argmax
t
p
θ
(t|σ,μ
φ
(σ)),其中,μ
φ
(σ)是变分后验q
θ
(z|σ)的平均矢量,并且使用Cocke
‑
Younger
‑
Kasami算法来获得t
*
。
11.一种用于训练自然语言神经网络的装置,其特征在于,所述装置包括:至少一个存储器,被配置为存储计算机程序代码;以及至少一个处理器,被配置为存取所述至少一个存储器并且按照所述计算机程序...
【专利技术属性】
技术研发人员:宋林峰,
申请(专利权)人:腾讯美国有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。