【技术实现步骤摘要】
可分解变分自动编码器句子表示中的切分语法和语义
[0001]本公开总体上涉及用于计算机学习的系统和方法,其可以提供改进的计算机性能、特征和用途。更具体地,本公开涉及利用变分自动编码器(VAE)来对语法和语义进行解缠处理的系统和方法。
技术介绍
[0002]深度神经网络在例如计算机视觉、自然语言处理、推荐系统等领域取得了巨大的成功。最近基于生成对手网络(Generative Adversarial Networks;GAN)或VAE的神经解缠模型,在计算机视觉和自然语言处理中显著促进了主题分割和对象/实体属性分离的任务。然而,当前的模型在对密切相关的属性(例如,人类语言中的语法和语义)进行解缠操作方面仍然处于粗略的层次。
[0003]因此,需要一种系统和方法来对语法和语义进行解缠操作以提高性能。
技术实现思路
[0004]本申请一个方面提供了一种用于对表示进行解缠处理的、计算机实现的方法,包括:接收令牌序列的输入;使用包括第一嵌入层和第一注意层的第一组合,基于所述令牌序列生成第一隐藏变量序列;使用包括第二嵌入层和第二注意层的第二组合,基于所述令牌序列生成第二隐藏变量序列;使用语义编码器基于所述第一隐藏变量序列生成语义隐藏变量序列;使用语法编码器基于所述第二隐藏变量序列生成语法隐藏变量序列;基于所述语义隐藏变量序列和所述语法隐藏变量序列,利用解码器生成重构令牌序列和对应的重构注意力权重序列;响应于训练处理,构造一个或多个损失函数,使用所述重构令牌序列和对应的所述重构注意力权重序列来训练所述第一嵌入 ...
【技术保护点】
【技术特征摘要】
1.一种用于对表示进行解缠处理的、计算机实现的方法,包括:接收令牌序列的输入;使用包括第一嵌入层和第一注意层的第一组合,基于所述令牌序列生成第一隐藏变量序列;使用包括第二嵌入层和第二注意层的第二组合,基于所述令牌序列生成第二隐藏变量序列;使用语义编码器基于所述第一隐藏变量序列生成语义隐藏变量序列;使用语法编码器基于所述第二隐藏变量序列生成语法隐藏变量序列;基于所述语义隐藏变量序列和所述语法隐藏变量序列,使用解码器生成重构令牌序列和对应的重构注意力权重序列;响应于训练处理,构造一个或多个损失函数,使用所述重构令牌序列和对应的所述重构注意力权重序列来训练所述第一嵌入层、所述第二嵌入层、所述第一注意层、所述第二注意层、所述语义编码器、所述语法编码器和所述解码器中的至少一个;以及响应于推断处理,为一个或多个自然语言处理应用输出所述重构令牌序列和对应的所述重构注意力权重序列。2.如权利要求1所述的计算机实现的方法,其中:使用以下步骤基于所述令牌序列生成所述第一隐藏变量序列:在所述第一嵌入层处,从所述令牌序列中生成第一嵌入向量序列和第一掩码序列;利用所述第一注意层,基于所述第一嵌入向量序列和所述第一掩码序列生成第一注意力权重序列;通过所述第一嵌入向量序列与所述第一注意力权重序列的逐元素相乘,得到所述第一隐藏变量序列;以及使用以下步骤基于所述令牌序列生成所述第二隐藏变量序列:在所述第二嵌入层处,从所述令牌序列生成第二嵌入向量序列和第二掩码序列;利用所述第二注意层基于所述第二嵌入向量序列和所述第二掩码序列生成第二注意力权重序列;以及通过第二嵌入向量序列和第二注意力权重序列之间的逐元素相乘获得第二隐藏变量序列。3.如权利要求1所述的计算机实现的方法,其中,所述语义隐藏变量序列的每个语义隐藏变量包括局部语义隐藏变量和全局语义隐藏变量,所述语法隐藏变量序列的每个语法隐藏变量包括局部语法隐藏变量和全局语法隐藏变量。4.如权利要求1所述的计算机实现的方法,其中,所述第一嵌入层和所述第二嵌入层共享参数。5.如权利要求1所述的计算机实现的方法,其中,所述第一嵌入层还是所述第二嵌入层。6.如权利要求1所述的计算机实现的方法,其中,至少一个或多个所述损失包括所述语义编码器的Kullback
‑
Leibler(KL)发散和所述语法编码器的KL发散。7.如权利要求1所述的计算机实现的方法,其中,所述语义隐藏变量序列和所述语法隐藏变量序列被接连到所述解码器中,以生成所述重构令牌序列和对应的所述重构注意力权
重序列。8.如权利要求1所述的计算机实现的方法,其中,所述语义隐藏变量序列中的至少两个连续语义隐藏变量被交换以生成所述重构令牌序列和相应的所述重构注意力权重序列。9.一种用于对表示进行解缠操作的系统...
【专利技术属性】
技术研发人员:李定成,任绍刚,李平,
申请(专利权)人:百度美国有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。