可分解变分自动编码器句子表示中的切分语法和语义制造技术

技术编号:28504751 阅读:13 留言:0更新日期:2021-05-19 22:56
本文描述了被称为可分解变分自动编码器(DecVAE)的框架的实施例,其通过使用Kullback

【技术实现步骤摘要】
可分解变分自动编码器句子表示中的切分语法和语义


[0001]本公开总体上涉及用于计算机学习的系统和方法,其可以提供改进的计算机性能、特征和用途。更具体地,本公开涉及利用变分自动编码器(VAE)来对语法和语义进行解缠处理的系统和方法。

技术介绍

[0002]深度神经网络在例如计算机视觉、自然语言处理、推荐系统等领域取得了巨大的成功。最近基于生成对手网络(Generative Adversarial Networks;GAN)或VAE的神经解缠模型,在计算机视觉和自然语言处理中显著促进了主题分割和对象/实体属性分离的任务。然而,当前的模型在对密切相关的属性(例如,人类语言中的语法和语义)进行解缠操作方面仍然处于粗略的层次。
[0003]因此,需要一种系统和方法来对语法和语义进行解缠操作以提高性能。

技术实现思路

[0004]本申请一个方面提供了一种用于对表示进行解缠处理的、计算机实现的方法,包括:接收令牌序列的输入;使用包括第一嵌入层和第一注意层的第一组合,基于所述令牌序列生成第一隐藏变量序列;使用包括第二嵌入层和第二注意层的第二组合,基于所述令牌序列生成第二隐藏变量序列;使用语义编码器基于所述第一隐藏变量序列生成语义隐藏变量序列;使用语法编码器基于所述第二隐藏变量序列生成语法隐藏变量序列;基于所述语义隐藏变量序列和所述语法隐藏变量序列,利用解码器生成重构令牌序列和对应的重构注意力权重序列;响应于训练处理,构造一个或多个损失函数,使用所述重构令牌序列和对应的所述重构注意力权重序列来训练所述第一嵌入层、所述第二嵌入层、所述第一注意层、所述第二注意层、所述语义编码器、所述语法编码器和所述解码器中的至少一个;以及响应于推断处理,为一个或多个自然语言处理(NLP)应用输出所述重构令牌序列和对应的所述重构注意力权重序列。
[0005]本申请的另一方面,提供了一种用于对表示进行解缠操作的系统,包括:一个或多个处理器;和包括一组或多组指令的非暂时性计算机可读介质,所述一组或多组指令在由所述一个或多个处理器中的至少一个执行时使得执行以下步骤,所述步骤包括:使用包括第一嵌入层和第一注意层的第一组合,基于令牌序列生成第一隐藏变量序列;使用包括第二嵌入层和第二注意层的第二组合,基于所述令牌序列生成第二隐藏变量序列;使用语义编码器基于第一隐藏变量序列生成语义隐藏变量序列;使用语法编码器基于第二隐藏变量序列生成语法隐藏变量序列;基于语义隐藏变量序列和语法隐藏变量序列,利用解码器生成重构令牌序列和对应的重构注意力权重序列;和响应于训练处理,构造一个或多个损失函数,使用重构令牌序列和对应的重构注意力权重序列,来训练所述第一嵌入层、所述第二嵌入层、所述第一注意层、所述第二注意层、所述语义编码器、所述语法编码器和所述解码器中的至少一个;响应于推断过程,为一个或多个自然语言处理(NLP)应用输出所述重构令
牌序列和对应的所述重构注意力权重序列。
[0006]本申请的另一方面还提供了一种包括一个或多个指令序列的非暂时性计算机可读介质,所述一个或多个指令序列在由至少一个处理器执行时执行如上所述的方法。
[0007]本申请的另一方面还提供了一种计算机程序产品,包括计算机程序,所述计算机程序在由处理器执行时,执行如上所述方法。
附图说明
[0008]将参考本公开的、在附图中示出了其示例的实施方式。这些附图是说明性的,而不是限制性的。尽管在这些实施方式的上下文中一般性地描述了本公开,但是应当理解,其并不旨在将本公开的范围限制于这些特定实施方式。图中的特征也可能不是按比例绘制的。
[0009]图1示出了根据本公开的实施方式的可分解变分自动编码器(DecVAE;decomposable variational autoencoder)的结构。
[0010]图2示出了根据本公开实施方式的、用于对句子表示(representation)中的语法和语义进行解缠操作的过程。
[0011]图3示出了根据本公开实施方式的、用语义隐藏变量交换进行训练的过程图。
[0012]图4示出了根据本公开的实施方式的具有语义隐藏变量交换的训练过程的过程。
[0013]图5示出了根据本公开实施方式的、按句子长度分析F1分数的组成部分。
[0014]图6根据本公开的实施方式的通过句子长度用图形描述了语音部分标记的准确性。
[0015]图7示出了根据本公开实施方式的计算设备/信息处理系统的简化框图。
具体实施方式
[0016]在以下描述中,出于解释的目的,阐述了具体细节以提供对本公开内容的理解。然而,对于本领域的技术人员显而易见的是,可以在没有这些细节的情况下实践本公开的方案。此外,本领域技术人员应该认识到,以下描述的本公开实施方式可通过多种方式来实现,诸如在有形的计算机可读介质上的处理进程、设备、系统、装置或方法。
[0017]在图中示出的组件或模块是本公开示例性实施方式的示例,并有意地避免了对本公开内容的混淆。还应当理解,在整个讨论中,组件可以被描述为可包括子单元的单独的功能单元,但是本领域技术人员应该认识到,各种组件或其部分可被划分为单独的组件或者可被集成在一起,包括例如在单个系统或组件中。应注意,本文所论述的功能或操作可被实施为组件。这些组件可以用软件,硬件或其组合来实现。
[0018]此外,附图中的组件或系统之间的连接并不限于直接连接。相反,这些组件之间的数据可以由中间宿主组件修改、重新格式化或以其它方式改变。此外,可使用另外的或更少的连接。还应当注意,术语“耦合”、“连接”、“通信地耦合”、“接口”或它们的任何派生词应当被理解为包括直接连接、通过一个或多个中间宿主设备的间接连接、以及无线连接。还应当注意,诸如信号、响应、应答、确认、消息、查询等的任何通信可以包括一个或多个信息交换。
[0019]在说明书中提及“一个或多个实施方式”、“优选实施方式”、“实施方式”和“一些实施方式”等意味着结合实施方式描述的特定特征、结构、特性或功能被包括在本公开的至少一个实施方式中,并且可包括在多个实施方式中。此外,在说明书的各个地方出现的上述短
语并不必然都指向相同的一个或多个实施方式。
[0020]在本说明书的各个地方使用某些术语是为了说明的目的,而不应被解释为限制。服务(service)、功能(function)或资源(resource)不限于单个服务、功能或资源;这些术语的使用可以指相关服务、功能或资源的分组,其可以是分布式的或专注式的。术语“包括”和“包含”应理解为开放式术语,并且其包括的任何特征都是示例,而非穷尽的。“层(layers)”可包括一个或多个操作。词语“最佳的”、“最佳化”、“最佳”等是指结果或过程的改进,并且不要求指定的结果或过程已经达到“最佳的”或峰值状态。存储器、数据库、信息库、数据存储、表(table)、硬件、高速缓存等的使用在这里可以被用于指代信息可以被输入或以其他方式被记录到其中的一个或多个系统组件。
[0021]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于对表示进行解缠处理的、计算机实现的方法,包括:接收令牌序列的输入;使用包括第一嵌入层和第一注意层的第一组合,基于所述令牌序列生成第一隐藏变量序列;使用包括第二嵌入层和第二注意层的第二组合,基于所述令牌序列生成第二隐藏变量序列;使用语义编码器基于所述第一隐藏变量序列生成语义隐藏变量序列;使用语法编码器基于所述第二隐藏变量序列生成语法隐藏变量序列;基于所述语义隐藏变量序列和所述语法隐藏变量序列,使用解码器生成重构令牌序列和对应的重构注意力权重序列;响应于训练处理,构造一个或多个损失函数,使用所述重构令牌序列和对应的所述重构注意力权重序列来训练所述第一嵌入层、所述第二嵌入层、所述第一注意层、所述第二注意层、所述语义编码器、所述语法编码器和所述解码器中的至少一个;以及响应于推断处理,为一个或多个自然语言处理应用输出所述重构令牌序列和对应的所述重构注意力权重序列。2.如权利要求1所述的计算机实现的方法,其中:使用以下步骤基于所述令牌序列生成所述第一隐藏变量序列:在所述第一嵌入层处,从所述令牌序列中生成第一嵌入向量序列和第一掩码序列;利用所述第一注意层,基于所述第一嵌入向量序列和所述第一掩码序列生成第一注意力权重序列;通过所述第一嵌入向量序列与所述第一注意力权重序列的逐元素相乘,得到所述第一隐藏变量序列;以及使用以下步骤基于所述令牌序列生成所述第二隐藏变量序列:在所述第二嵌入层处,从所述令牌序列生成第二嵌入向量序列和第二掩码序列;利用所述第二注意层基于所述第二嵌入向量序列和所述第二掩码序列生成第二注意力权重序列;以及通过第二嵌入向量序列和第二注意力权重序列之间的逐元素相乘获得第二隐藏变量序列。3.如权利要求1所述的计算机实现的方法,其中,所述语义隐藏变量序列的每个语义隐藏变量包括局部语义隐藏变量和全局语义隐藏变量,所述语法隐藏变量序列的每个语法隐藏变量包括局部语法隐藏变量和全局语法隐藏变量。4.如权利要求1所述的计算机实现的方法,其中,所述第一嵌入层和所述第二嵌入层共享参数。5.如权利要求1所述的计算机实现的方法,其中,所述第一嵌入层还是所述第二嵌入层。6.如权利要求1所述的计算机实现的方法,其中,至少一个或多个所述损失包括所述语义编码器的Kullback

Leibler(KL)发散和所述语法编码器的KL发散。7.如权利要求1所述的计算机实现的方法,其中,所述语义隐藏变量序列和所述语法隐藏变量序列被接连到所述解码器中,以生成所述重构令牌序列和对应的所述重构注意力权
重序列。8.如权利要求1所述的计算机实现的方法,其中,所述语义隐藏变量序列中的至少两个连续语义隐藏变量被交换以生成所述重构令牌序列和相应的所述重构注意力权重序列。9.一种用于对表示进行解缠操作的系统...

【专利技术属性】
技术研发人员:李定成任绍刚李平
申请(专利权)人:百度美国有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1