具有依赖关系的自然语言多任务建模、预测方法及系统技术方案

技术编号:27657714 阅读:28 留言:0更新日期:2021-03-12 14:21
本发明专利技术提供了一种具有依赖关系的自然语言多任务建模、预测方法及系统,层级编码器对输入的词嵌入针对不同层次的任务进行不同层次的编码表示;标签嵌入层将不同任务的标签嵌入到同一个拉式空间;标签迁移器将嵌入后的标签进行转移;预测器根据每个任务的编码结果和迁移结果,对每个任务的概率分布进行预测;Gumbel采样层针对每个任务预测的概率分布进行Gumbel采样,并以设定概率进行反事实取值,从而进行反事实推断,若任务间存在因果关联,则得到其因果效应,对多任务模型进行联合优化。本发明专利技术根据因果关联,低层任务可以从高层任务中获得回报,从而使得优化后的模型对于低层任务的预测结果更加精准,进行提升高层任务的预测精度。

【技术实现步骤摘要】
具有依赖关系的自然语言多任务建模、预测方法及系统
本专利技术涉及自然语言处理
中的一种多任务学习技术,具体地,涉及一种具有依赖关系的自然语言多任务建模、预测方法及系统。
技术介绍
随在机器学习领域,多任务学习是一种重要的学习方法,因为它允许利用上相关任务的知识来提升机器学习的效果。近年来,有一些研究针对具有依赖关系的任务提出了层级多任务模型,由于能利用上任务间的潜在依赖关系,其效果一般会比扁平的多任务框架更好。但是,这些层级多任务模型仅仅考虑了神经网络的编码器的层叠,而忽略预测结果之间的强逻辑关联,从而导致了多种任务之间的预测结果不一致的情况,限制了机器学习模型在实际场景中的应用,例如在基于裁判文书的司法判决预测的应用中,会造成预测的相关法条和罪名不一致的情况。
技术实现思路
针对现有技术中存在的上述不足,本专利技术的目的是提供一种具有依赖关系的自然语言多任务建模、预测方法及系统。本专利技术是通过以下技术方案实现的。根据本专利技术的一个方面,提供了一种具有依赖关系的自然语言多任务结果预测方法,包括:S1:对一个长度为n的输入文本X进行词嵌入,转换成一个词嵌入序列E={ei}1≤i≤n。S2:对于任一任务k,将前k-1个任务的标签进行嵌入和迁移:定义每个任务的标签为标签嵌入为则该标签嵌入由一个全连接神经网络处理得到:其中,Wk是每个任务的全连接神经网络的参数矩阵;将每个任务的标签嵌入经过一个标签迁移器得到的迁移结果为计算过程为:<br>S3:对词嵌入序列、迁移后的标签嵌入以及任务k-1的编码进行处理,得到任务k的编码为:Hk=Encoder(k)(E,THk-1,Hk-1)其中,Encoder(k)为任务k的编码器;S4:对任务k的编码进行预测,得到任务k的输出为:其中,Predictor(k)为任务k的预测器,由单层或多层全连接神经网络组成,然后再用softmax函数对进行转换,生成任务k的预测结果的概率分布:其中,概率分布中的对应最大概率的类别则为任务k的预测结果;S5:使用Gumbel采样对S4中得到的任务k的预测结果进行反事实取值,得到:其中,表示根据概率分布采样后的结果,g从Gumbel(0,1)分布中采样而得,τ为softmax函数的温度参数,当τ接近0时,接近于根据概率分布采样的值并转换成的one-hot向量;S6:将得到的采样值替换S2中所采用的任务标签,重新执行S2至S4,得到任务k预测结果的概率分布S7,采用损失函数对S6得到的任务k预测结果进行训练和优化:若任务k为命名实体识别,则其损失函数由交叉熵计算而得:其中,为第i个词对应第c个实体类别的标签,若其为1则表示该词为实体类别c,若为0则表示不是类别c;若任务k为文本序列分类任务,则其损失函数为:其中,表示整个文本序列第c个实体类别的标签,若其为1则表示该词为实体类别c,若为0则表示不是类别c;将多个任务的损失函数综合可得:其中,表示总损失函数,λk表示任务k对应的权重;最小化总损失函数,实现对任务k预测结果的训练及优化。优选地,所述任务k的编码器包括:双向长短时记忆网络、卷积神经网络或基于注意力的变形网络。优选地,所述任务k的预测器包括:全连接神经网络。根据本专利技术的另一个方面,提供了一种具有依赖关系的自然语言多任务模型构建方法,包括:构建词嵌入层,所述词嵌入层用于对输入文本X进行词嵌入;构建层级编码器,所述层级编码器用于对输入的词嵌入针对不同层次的任务进行不同层次的处理,使得低层任务得到浅层的编码表示,高层任务得到深层的编码表示;构建标签嵌入层,所述标签嵌入层用于将不同任务的标签嵌入到同一个拉式空间;构建标签迁移器,所述标签迁移器用于将嵌入后的标签进行转移,使得每一个任务均能够利用其所有下层任务的标签信息;构建预测器,所述预测器根据每个任务的层级编码器输出的编码结果和标签迁移器输出的迁移结果,对每个任务的概率分布进行预测;构建Gumbel采样层,所述Gumbel采样层针对每个任务预测的概率分布进行Gumbel采样,并以设定概率进行反事实取值,从而进行反事实推断,若任务间存在因果关联,则得到其因果效应,对多任务模型进行联合优化。优选地,所述构建层级编码器的方法,包括:基于深度神经网络构建每个任务的编码器;堆叠不同任务的编码器,使得每个任务的编码器均能够利用其低层任务的编码器输出、原始的词嵌入以及其低层任务的预测器预测结果迁移的信息。优选地,所述标签嵌入层采用全连接神经网络将每个任务的预测结果嵌入到同一拉式空间。优选地,所述标签迁移器采用单向长短时记忆网络进行任务间的标签迁移,使得每个任务均能够利用其所有低层任务的标签信息。优选地,所述每个任务均能够利用其所有低层任务的标签信息,包括:-间接因果路径,对于任务k,设其标签为Yk,编码器输出的编码结果为Hk,所有低层任务迁移后的标签信息为THk-1,迁移后的标签信息对于标签的间接因果路径为THk-1→Hk→Yk,即低层任务的标签信息通过影响任务k的编码结果从而影响任务k的预测结果;-直接因果路径,对于任务k,设其标签为Yk,所有低层任务迁移后的标签信息为THk-1,迁移后的标签信息对于标签的直接因果路径THk-1→Yk,即低层任务的标签信息直接输入给预测器,此路径不受输入文本的影响。优选地,所述Gumbel采样层对多任务模型进行联合优化的方法,包括:在多任务训练阶段,根据每个任务的预测概率进行Gumbel采样,使得每个任务以设定概率得到反事实取值;把采样后的预测概率结果输入到编码器和预测器,同时由于Gumbel采样使得整个模型端到端可导,每个任务会向其低层任务反向梯度,惩罚低层任务的反事实取值;Gumbel采样同时也通过反事实推理,从观测数据中计算出任务间的因果效应。根据本专利技术的第三个方面,提供了一种具有依赖关系的自然语言多任务结果预测系统,包括基于深度神经网络的层次化编码器模块、多任务间的预测结果嵌入及迁移模块、以及基于Gumbel采样的因果推断联合优化模块;其中:所述基于深度神经网络的层次化编码器模块,使用基于深度神经网络的编码器,对输入的词嵌入针对不同层次的任务进行不同层次的处理,使得低层任务得到浅层的编码表示,高层任务得到深层的编码表示;所述多任务间的预测结果嵌入及迁移模块,对不同任务的标签嵌入到同一个拉式空间,再使用单向长短时记忆网络对嵌入后的标签进行转移,使得每一个任务利用上所有其下层任务的标签信息,并根据基于深度神经网络的层次化编码器模块输出的每个任务的编码结果和嵌入后的标签转移结果,得到每个任务的概率分布预测结果;所述基于Gumbel采样的因果推断联合优化模块,对每个本文档来自技高网...

【技术保护点】
1.一种具有依赖关系的自然语言多任务结果预测方法,其特征在于,包括:/nS1:对一个长度为n的输入文本X进行词嵌入,转换成一个词嵌入序列E={e

【技术特征摘要】
1.一种具有依赖关系的自然语言多任务结果预测方法,其特征在于,包括:
S1:对一个长度为n的输入文本X进行词嵌入,转换成一个词嵌入序列E={ei}1≤i≤n。
S2:对于任一任务k,将前k-1个任务的标签进行嵌入和迁移:
定义每个任务的标签为标签嵌入为则该标签嵌入由一个全连接神经网络处理得到:



其中,Wk是每个任务的全连接神经网络的参数矩阵;
将每个任务的标签嵌入经过一个标签迁移器得到的迁移结果为计算过程为:



S3:对词嵌入序列、迁移后的标签嵌入以及任务k-1的编码进行处理,得到任务k的编码为:
Hk=Encoder(k)(E,THk-1,Hk-1)
其中,Encoder(k)为任务k的编码器;
S4:对任务k的编码进行预测,得到任务k的输出为:



其中,Predictor(k)为任务k的预测器,由单层或多层全连接神经网络组成,然后再用softmax函数对进行转换,生成任务k的预测结果的概率分布:



其中,概率分布中的对应最大概率的类别则为任务k的预测结果;
S5:使用Gumbel采样对S4中得到的任务k的预测结果进行反事实取值,得到:



其中,表示根据概率分布采样后的结果,g从Gumbel(0,1)分布中采样而得,τ为softmax函数的温度参数,当τ接近0时,接近于根据概率分布采样的值并转换成的one-hot向量;
S6:将得到的采样值替换S2中所采用的任务标签,重新执行S2至S4,得到任务k预测结果的概率分布
S7,采用损失函数对S6得到的任务k预测结果进行训练和优化:
若任务k为命名实体识别,则其损失函数由交叉熵计算而得:



其中,为第i个词对应第c个实体类别的标签,若其为1则表示该词为实体类别c,若为0则表示不是类别c;
若任务k为文本序列分类任务,则其损失函数为:



其中,表示整个文本序列第c个实体类别的标签,若其为1则表示该词为实体类别c,若为0则表示不是类别c;
将多个任务的损失函数进行综合得到:



其中,表示总损失函数,λk表示任务k对应的权重;
最小化总损失函数,实现对任务k预测结果的训练及优化。


2.根据权利要求1所述的具有依赖关系的自然语言多任务结果预测方法,其特征在于,所述任务k的编码器包括:双向长短时记忆网络、卷积神经网络或基于注意力的变形网络。


3.根据权利要求1所述的具有依赖关系的自然语言多任务结果预测方法,其特征在于,所述任务k的预测器包括:全连接神经网络。


4.一种具有依赖关系的自然语言多任务模型构建方法,其特征在于,包括:
构建词嵌入层,所述词嵌入层用于对输入文本X进行词嵌入;
构建层级编码器,所述层级编码器用于对输入的词嵌入针对不同层次的任务进行不同层次的处理,任务的编码器依次层叠,使得低层任务得到浅层的编码表示,高层任务得到深层的编码表示;
构建标签嵌入层,所述标签嵌入层用于将不同任务的标签嵌入到同一个拉式空间;
构建标签迁移器,所述标签迁移器用于将嵌入后的标签进行转移,使得每一个任务均能够利用其所有下层任务的标签信息;
构建预测器,所述预测器根据每个任务的层级编码器输出的编码结果和标签迁移器输出的迁移结果,对每个任务的概率分布进行预测;
构建Gumbel采样层,所述Gumbel采样层针对每个任务预测的概率分布进行Gumbel采样,并以设定概率进行反事实取值,从而进行反事实推断,若任务间存在因果关联,则得到其因果效应,对...

【专利技术属性】
技术研发人员:姜华陈文清田济东
申请(专利权)人:上海旻浦科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1