具有依赖关系的自然语言多任务建模、预测方法及系统技术方案

技术编号：27657714 阅读：28 留言：0更新日期：2021-03-12 14:21

本发明专利技术提供了一种具有依赖关系的自然语言多任务建模、预测方法及系统，层级编码器对输入的词嵌入针对不同层次的任务进行不同层次的编码表示；标签嵌入层将不同任务的标签嵌入到同一个拉式空间；标签迁移器将嵌入后的标签进行转移；预测器根据每个任务的编码结果和迁移结果，对每个任务的概率分布进行预测；Gumbel采样层针对每个任务预测的概率分布进行Gumbel采样，并以设定概率进行反事实取值，从而进行反事实推断，若任务间存在因果关联，则得到其因果效应，对多任务模型进行联合优化。本发明专利技术根据因果关联，低层任务可以从高层任务中获得回报，从而使得优化后的模型对于低层任务的预测结果更加精准，进行提升高层任务的预测精度。

全部详细技术资料下载

【技术实现步骤摘要】
具有依赖关系的自然语言多任务建模、预测方法及系统
本专利技术涉及自然语言处理
中的一种多任务学习技术，具体地，涉及一种具有依赖关系的自然语言多任务建模、预测方法及系统。
技术介绍
随在机器学习领域，多任务学习是一种重要的学习方法，因为它允许利用上相关任务的知识来提升机器学习的效果。近年来，有一些研究针对具有依赖关系的任务提出了层级多任务模型，由于能利用上任务间的潜在依赖关系，其效果一般会比扁平的多任务框架更好。但是，这些层级多任务模型仅仅考虑了神经网络的编码器的层叠，而忽略预测结果之间的强逻辑关联，从而导致了多种任务之间的预测结果不一致的情况，限制了机器学习模型在实际场景中的应用，例如在基于裁判文书的司法判决预测的应用中，会造成预测的相关法条和罪名不一致的情况。
技术实现思路
针对现有技术中存在的上述不足，本专利技术的目的是提供一种具有依赖关系的自然语言多任务建模、预测方法及系统。本专利技术是通过以下技术方案实现的。根据本专利技术的一个方面，提供了一种具有依赖关系的自然语言多任务结果预测方法，包括：S1：对一个长度为n的输入文本X进行词嵌入，转换成一个词嵌入序列E＝{ei}1≤i≤n。S2：对于任一任务k，将前k-1个任务的标签进行嵌入和迁移：定义每个任务的标签为标签嵌入为则该标签嵌入由一个全连接神经网络处理得到：其中，Wk是每个任务的全连接神经网络的参数矩阵；将每个任务的标签嵌入经过一个标签迁移器得到的迁移结果为计算过程为：<...

【技术保护点】
1.一种具有依赖关系的自然语言多任务结果预测方法，其特征在于，包括：/nS1：对一个长度为n的输入文本X进行词嵌入，转换成一个词嵌入序列E＝{e

【技术特征摘要】
1.一种具有依赖关系的自然语言多任务结果预测方法，其特征在于，包括：
S1：对一个长度为n的输入文本X进行词嵌入，转换成一个词嵌入序列E＝{ei}1≤i≤n。
S2：对于任一任务k，将前k-1个任务的标签进行嵌入和迁移：
定义每个任务的标签为标签嵌入为则该标签嵌入由一个全连接神经网络处理得到：

其中，Wk是每个任务的全连接神经网络的参数矩阵；
将每个任务的标签嵌入经过一个标签迁移器得到的迁移结果为计算过程为：

S3：对词嵌入序列、迁移后的标签嵌入以及任务k-1的编码进行处理，得到任务k的编码为：
Hk＝Encoder(k)(E,THk-1,Hk-1)
其中，Encoder(k)为任务k的编码器；
S4：对任务k的编码进行预测，得到任务k的输出为：

其中，Predictor(k)为任务k的预测器，由单层或多层全连接神经网络组成，然后再用softmax函数对进行转换，生成任务k的预测结果的概率分布：

其中，概率分布中的对应最大概率的类别则为任务k的预测结果；
S5：使用Gumbel采样对S4中得到的任务k的预测结果进行反事实取值，得到：

其中，表示根据概率分布采样后的结果，g从Gumbel(0,1)分布中采样而得，τ为softmax函数的温度参数，当τ接近0时，接近于根据概率分布采样的值并转换成的one-hot向量；
S6：将得到的采样值替换S2中所采用的任务标签，重新执行S2至S4，得到任务k预测结果的概率分布
S7，采用损失函数对S6得到的任务k预测结果进行训练和优化：
若任务k为命名实体识别，则其损失函数由交叉熵计算而得：

其中，为第i个词对应第c个实体类别的标签，若其为1则表示该词为实体类别c，若为0则表示不是类别c；
若任务k为文本序列分类任务，则其损失函数为：

其中，表示整个文本序列第c个实体类别的标签，若其为1则表示该词为实体类别c，若为0则表示不是类别c；
将多个任务的损失函数进行综合得到：

其中，表示总损失函数，λk表示任务k对应的权重；
最小化总损失函数，实现对任务k预测结果的训练及优化。

2.根据权利要求1所述的具有依赖关系的自然语言多任务结果预测方法，其特征在于，所述任务k的编码器包括：双向长短时记忆网络、卷积神经网络或基于注意力的变形网络。

3.根据权利要求1所述的具有依赖关系的自然语言多任务结果预测方法，其特征在于，所述任务k的预测器包括：全连接神经网络。

4.一种具有依赖关系的自然语言多任务模型构建方法，其特征在于，包括：
构建词嵌入层，所述词嵌入层用于对输入文本X进行词嵌入；
构建层级编码器，所述层级编码器用于对输入的词嵌入针对不同层次的任务进行不同层次的处理，任务的编码器依次层叠，使得低层任务得到浅层的编码表示，高层任务得到深层的编码表示；
构建标签嵌入层，所述标签嵌入层用于将不同任务的标签嵌入到同一个拉式空间；
构建标签迁移器，所述标签迁移器用于将嵌入后的标签进行转移，使得每一个任务均能够利用其所有下层任务的标签信息；
构建预测器，所述预测器根据每个任务的层级编码器输出的编码结果和标签迁移器输出的迁移结果，对每个任务的概率分布进行预测；
构建Gumbel采样层，所述Gumbel采样层针对每个任务预测的概率分布进行Gumbel采样，并以设定概率进行反事实取值，从而进行反事实推断，若任务间存在因果关联，则得到其因果效应，对...

【专利技术属性】
技术研发人员：姜华，陈文清，田济东，
申请(专利权)人：上海旻浦科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人