当前位置: 首页 > 专利查询>四川大学专利>正文

基于动态正则化的高效终身关系提取方法及系统技术方案

技术编号:26032775 阅读:19 留言:0更新日期:2020-10-23 21:10
本发明专利技术提供一种基于动态正则化的高效终身关系提取方法及系统,方法包括以下步骤:接收多个数据集,使用神经模型依次对数据集中的训练样本进行训练,每个数据集对应一个任务;为已接受训练的数据集建立内存块存储记忆数据,并在新的数据集训练时访问所有内存块的记忆数据,为克服灾难性遗忘,定义内存数据损失函数、定义特征损失函数、定义EWC损失函数;建立连续训练任务期间的训练损失之差模型分别计算特征损失函数、内存数据损失函数、EWC损失函数的正则化因子;根据特征损失函数及其正则化因子、内存数据损失函数及其正则化因子、EWC损失函数及其正则化因子得到最优关系提取参数。该方法能在进行终身关系提取时的准确率更高,且不引入额外参数。

【技术实现步骤摘要】
基于动态正则化的高效终身关系提取方法及系统
本专利技术属于计算机自然语言处理领域,具体涉及一种基于动态正则化的高效终身关系提取方法及系统。
技术介绍
关系抽取旨在识别文本中的成对实体的关系事实,可应用于众多自然语言处理领域,例如知识库构建和问答系统,与专注于手动设计特征的传统方法相比,现今基于CNN(卷积神经网络)或RNN(循环神经网络)的神经网络方法在关系抽取中获得了令人瞩目的进步,但大部分的神经模型使用假定了一组预先确定的关系的方法,但这种假设并不总是适用于实际的关系抽取场景中。现有的终身学习研究致力于克服灾难性遗忘现象,处理神经网络模型的终身学习(也称为连续学习)因为现实的需求通常是动态的并且在不断发展,需要预测的关系集合可能会随着时间的推移而改变或扩大,解决这个问题的直接方案是重新训练,然而,这种启发式方法需要存储以前所有的训练数据以及新数据,来训练一个全新的模型,过程昂贵又费时。因此,在关系抽取中的终身学习的目标是使模型在一系列的任务上全都表现良好,从而避免在每个阶段重新访问所有以前的数据,但大多数现有方法都是为固定关系集而设计的,他们无法使训练过的模型适应新加入的关系而又不会灾难性地忘记先前学习的知识,灾难性遗忘现象,就是指模型从旧任务切换到新任务时性能显著下降。为了减轻遗忘问题,目前有人提出使用正则化项来防止参数值急剧变化,同时仍能够为新任务找到好的解决方案,或者使用情景记忆模块来增强模型,这些方法已经在简单的图像分类数据集上获得了可观的性能提升,但是事实证明,它们在自然语言处理的场景下表现不佳。实际上,只有有限的文献讨论了关于自然语言处理任务(如关系抽取)的终身学习;为了弥补这一领域的不足,Wang,H.在2019年提出了一种克服关系抽取模型遗忘问题的方法,他们引入了显式的对齐模型,以减轻模型在学习新数据时句子嵌入空间的扭曲,并获得了最佳的性能,但尽管这种方法可以有效工作,但是它十分依赖于对齐模型的使用,这在已经过度参数化的关系抽取模型中引入了更多参数,这会导致训练所需的监督信号,内存和计算资源数量增加。
技术实现思路
有鉴于此,本专利技术的目的之一在于提供一种基于动态正则化的高效终身关系提取方法,该方法能提高终身关系提取时的准确率。为实现上述目的,本专利技术的技术方案为:一种基于动态正则化的高效终身关系提取方法,包括以下步骤:接收多个数据集,使用神经模型依次对数据集中的训练样本进行训练,每个数据集对应一个任务;所述训练样本包括实体对句子和候选关系集、真实关系标签;为已接受训练的数据集建立内存块存储记忆数据,并在新的数据集训练时访问所有内存块的记忆数据,定义内存数据损失函数;在训练新数据集前冻结神经模型的权重,并对新的数据集输入编码器,得到输出向量,定义特征损失函数;使用EWC计算当前任务的费雪信息矩阵,利用所述费雪信息矩阵在下一次任务训练时对神经模型的参数进行正则化,定义EWC损失函数;建立连续训练任务期间的训练损失之差模型分别计算特征损失函数、内存数据损失函数、EWC损失函数的正则化因子;根据特征损失函数及其正则化因子、内存数据损失函数及其正则化因子、EWC损失函数及其正则化因子得到最优关系提取参数。进一步地,所述内存数据损失函数为:其中,k为第k个任务,B为每个旧任务保留在内存中的样本数,i、t为求和下标,θnew是使用来自内存的记忆数据和当前数据集的新数据训练的深度学习模型的参数;θold是使用之前任务训练的模型的参数,为第t个任务第i个训练样本中的句子经编码器的输出向量,为第t个任务第i个训练样本中的真实关系标签经编码器的输出向量。进一步地,所述特征损失函数为:其中,Dk为第K个数据集的样本总数;为第k个任务第i个训练样本中的句子经编码器的输出向量;为第k个任务第i个训练样本中的真实关系标签经编码器的输出向量。进一步地,所述EWC损失函数为:其中,Fold,i为根据第i个任务之前所有任务计算得到的费雪信息矩阵,θnew,i为使用第i个任务前的内存的记忆数据和第i个任务的新数据训练的深度学习模型的参数;θold,i是使用第i个任务前训练的模型的参数。进一步地,所述正则化因子的计算方法为:定义连续两个任务迭代的当前损失后向差;计算一个用于记录向量数据集迭代的幅度和方向;引入迭代变量,将所述迭代变量与上一次任务的正则化因子相加,得到当前任务的正则化因子。进一步地,所述根据特征损失函数及其正则化因子、内存数据损失函数及其正则化因子、EWC损失函数及其正则化因子得到最优关系提取参数的步骤具体包括:计算总损失函数:Loss=Lk+Lm+λfmLfm+λfnLfn+λewcLewc;Lk为当前损失,Lm为内存损失,λfm为内存数据损失函数的正则化因子,λfn为内存数据损失函数的正则化因子,λewc为内存数据损失函数的正则化因子;定义与关系提取参数相关的损失模型:l(,)为实施函数,N为数据集的总数,fθ为神经网络,为实体对句子和候选关系集,为真实关系标签,θ为关系提取参数;训练所有数据集得到最优关系提取参数。本专利技术的目的之二在于提供一种基于动态正则化的高效终身关系提取系统,该系统能用于终身关系提取且不引入新的参数。为实现上述目的,本专利技术的技术方案为:一种基于动态正则化的高效终身关系提取系统,包括:训练模块,用于接收多个数据集,并通过神经模型依次对数据集中的训练样本进行训练,每个数据集对应一个任务;所述训练样本包括实体对句子和候选关系集、真实关系标签;正则化模块,为已接受训练的数据集建立内存块存储记忆数据,并在新的数据集训练时访问所有内存块的记忆数据,同时定义多种损失函数,并计算各损失函数在不同任务间的正则化因子;损失训练模块,根据所述正则化模块的损失函数和正则化因子,并连同所述训练模块训练得到的数据计算最优关系提取参数。进一步地,所述正则化模块包括特征正则化单元,内存数据正则化单元,EWC正则化单元;其中,内存数据正则化单元用于为已接受训练的数据集建立内存块存储记忆数据,并在新的数据集训练时访问所有内存块的记忆数据,定义内存数据损失函数特征正则化单元用于在训练新数据集前冻结神经模型的权重,并对新的数据集输入编码器,得到输出向量,定义特征损失函数;EWC正则化单元用于使用EWC计算当前任务的费雪信息矩阵,利用所述费雪信息矩阵在下一次任务训练时对神经模型的参数进行正则化,定义EWC损失函数。进一步地,所述特征损失函数为:其中,Dk为第K个数据集的样本总数;为第k个任务第i个训练样本中的句子经编码器的输出向量;为第k个任务第i个训练样本中的真实关系标签经编码器的输出向量。进一步地,所述EWC损失函数为:其中,Fold,i为根据第i个任务之前所有任务计算得到的费雪信息矩阵,θ本文档来自技高网
...

【技术保护点】
1.一种基于动态正则化的高效终身关系提取方法,其特征在于,包括以下步骤:/n接收多个数据集,使用神经模型依次对数据集中的训练样本进行训练,每个数据集对应一个任务;所述训练样本包括实体对句子和候选关系集、真实关系标签;/n为已接受训练的数据集建立内存块存储记忆数据,并在新的数据集训练时访问所有内存块的记忆数据,定义内存数据损失函数;/n在训练新数据集前冻结神经模型的权重,并对新的数据集输入编码器,得到输出向量,定义特征损失函数;/n使用EWC计算当前任务的费雪信息矩阵,利用所述费雪信息矩阵在下一次任务训练时对神经模型的参数进行正则化,定义EWC损失函数;/n建立连续训练任务期间的训练损失之差模型分别计算特征损失函数、内存数据损失函数、EWC损失函数的正则化因子;/n根据特征损失函数及其正则化因子、内存数据损失函数及其正则化因子、EWC损失函数及其正则化因子得到最优关系提取参数。/n

【技术特征摘要】
1.一种基于动态正则化的高效终身关系提取方法,其特征在于,包括以下步骤:
接收多个数据集,使用神经模型依次对数据集中的训练样本进行训练,每个数据集对应一个任务;所述训练样本包括实体对句子和候选关系集、真实关系标签;
为已接受训练的数据集建立内存块存储记忆数据,并在新的数据集训练时访问所有内存块的记忆数据,定义内存数据损失函数;
在训练新数据集前冻结神经模型的权重,并对新的数据集输入编码器,得到输出向量,定义特征损失函数;
使用EWC计算当前任务的费雪信息矩阵,利用所述费雪信息矩阵在下一次任务训练时对神经模型的参数进行正则化,定义EWC损失函数;
建立连续训练任务期间的训练损失之差模型分别计算特征损失函数、内存数据损失函数、EWC损失函数的正则化因子;
根据特征损失函数及其正则化因子、内存数据损失函数及其正则化因子、EWC损失函数及其正则化因子得到最优关系提取参数。


2.根据权利要求1所述的方法,其特征在于,所述内存数据损失函数为:



其中,k为第k个任务,B为每个旧任务保留在内存中的样本数,i、t为求和下标,θnew是使用来自内存的记忆数据和当前数据集的新数据训练的深度学习模型的参数;θold是使用之前任务训练的模型的参数,为第t个任务第i个训练样本中的句子经编码器的输出向量,为第t个任务第i个训练样本中的真实关系标签经编码器的输出向量。


3.根据权利要求2所述的方法,其特征在于,所述特征损失函数为:



其中,Dk为第K个数据集的样本总数;为第k个任务第i个训练样本中的句子经编码器的输出向量;为第k个任务第i个训练样本中的真实关系标签经编码器的输出向量。


4.根据权利要求3所述的方法,其特征在于,所述EWC损失函数为:



其中,Fold,i为根据第i个任务之前所有任务计算得到的费雪信息矩阵,θnew,i为使用第i个任务前的内存的记忆数据和第i个任务的新数据训练的深度学习模型的参数;θold,i是使用第i个任务前训练的模型的参数。


5.根据权利要求4所述的方法,其特征在于,所述正则化因子的计算方法为:
定义连续两个任务迭代的当前损失后向差;
计算一个用于记录向量数据集迭代的幅度和方向;
引入迭代变量,将所述迭代变量与上一次任务的正则化因子相加,得到当前任务的正则化因子。


6.根据权利要求5的方法,其特征在于,所述根据特征损失函数及其正则化因子、内存数据损失函数及其正则化因子...

【专利技术属性】
技术研发人员:琚生根申航杰周刚
申请(专利权)人:四川大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1