当前位置: 首页 > 专利查询>湖南大学专利>正文

一种基于分布校准的小样本实体关系抽取方法技术

技术编号:33024216 阅读:11 留言:0更新日期:2022-04-15 08:57
本发明专利技术公开了一种基于分布校准的小样本实体关系抽取方法,其假设特征向量中的每个维度都遵循高斯分布,并观察到相似类通常具有相似的特征表示均值和方差。因此,高斯分布的平均值和方差可以在类似的类别之间传递。同时,当有足够的样本时,可以更准确地估计统计数据。因此,重用来自多个类的分布统计量,并根据它们的类相似性可以更好地校准少数类的分布统计量,根据校准后的分布统计量可以生成更多的样本。本发明专利技术的有益效果:使提取的特征更丰富;可以减少分散偏度,能够让特征向量分布更接近高斯分布;大大减少了由于数据过少引起的过拟合问题,通过数据增强实现了关系抽取准确度的提高;能够极大地提高模型的泛化能力。能够极大地提高模型的泛化能力。能够极大地提高模型的泛化能力。

【技术实现步骤摘要】
一种基于分布校准的小样本实体关系抽取方法


[0001]本专利技术涉及自然语言处理
,尤其涉及一种基于分布校准的小样本实体关系抽取方法。

技术介绍

[0002]信息抽取是自然语言处理中的重要组成部分,特别是在当今信息化的社会中,从海量数据中提取出有用的信息显得格外重要。关系抽取是信息抽取中的一项重要任务,其目的是根据两个给定实体之间的相关上下文对它们之间的关系进行分类。由于关系抽取能够提取文本信息,并使许多NLP应用(如信息检索、对话框生成和问答)受益,因此吸引了许多研究人员。
[0003]传统的监督模型在这项任务中得到了广泛的探索,但是,它们的性能在很大程度上取决于训练数据的规模和质量。在实践中,高质量数据的手动标记既耗时又耗费人力,这意味着这些受监督的模型通常数据稀少,因此很难很好地推广。
[0004]目前对于小样本实体关系抽取任务的做法主要分为以下几种:
[0005]1.基于迁移学习的方法
[0006]迀移学习(TransferLearning)旨在研究如何利用以前学到的知识来帮助更快速地解决新问题。对预训练网络的权重进行微调(Fine

tune)是主要的迀移学习方法之一。迀移学习从源任务中学习知识并将该知识应用于目标任务。
[0007]虽然迀移学习通常用于多任务学习或强化学习领域,但相关样本类别的知识迀移是小样本学习的关键方法。使用基于迀移学习的小样本学习方法时,需要注意:
[0008](1)使用的预训练网络必须满足目标任务的模型架构约束;
[0009](2)微调时,训练过程并不是从头开始,需要正确选择对网络中哪些层进行微调,通常为网络的高级部分;
[0010](3)选择适当的学习策略。
[0011]2.基于元学习的方法
[0012]对于人类而言,仅需要少量图像甚至不需要图像,根据对物体的描述就能利用以往的经验知识实现对物体的识别,这是因为人类会利用自己的先验知识进行学习。元学习(Meta Learning)就是这类快速学习方法之一。
[0013]记忆增强神经网络(MANN)是一种基于神经图灵机的元学习模型,使用LSTM或前馈神经网络作为控制器。此外,Santoro等人给出了元学习任务的定义。对于元学习任务而言,选择参数来降低数据集D的分布中的预期学习成本。
[0014]基于LSTM的元学习模型(Meta

LSTM)旨在学习用于训练小样本学习中的另一个学习器的优化算法。Meta

LSTM利用LSTM来学习模型的初始化方式,并更新方向和学习率。
[0015]元学习网络(Meta Network)是一种元学习算法,在传统分类模型的最顶层使用更高层级的元学习器,以此来监督训练过程。整体框架包括三个过程:元信息的获取,快权重的生成和慢权重的优化。上述过程由基学习器和元学习器共同执行。快权重由元学习器产
生,而慢权重则仅通过最小化分类损失来更新。在仅使用非常少量的训练样本的情况下,快权重被用来帮助模型泛化至新任务。
[0016]SNAIL元学习模型使用时间卷积神经网络和注意力机制,从过去的经验里快速学习。SNAIL模型把所有支持集中的样本和标签对组织成一个序列,然后把查询样本附加在它们的后面。这样的一个序列与学习过程的时域顺序一致,在学习过程中,在对查询样本做预测之前,先读取支持样本学习到相关的信息,接着对该序列进行时域卷积操作,将不同时间步的信息聚合到一起。在序列上使用随机遮盖注意力模型,将前面样本的有用信息聚合到后面样本上。
[0017]模型无关的元学习(MAML)方法,该方法训练一组初始化参数,通过在初始参数的基础上进行一次或者多次的梯度调整,来达到仅用少量样本就能快速适应新任务的目的。
[0018]3.基于度量学习的方法
[0019]基于度量学习的小样本学习方法的核心思想是:对样本之间的距离分布进行建模,使得相同类别的样本之间相似度高,而不同类别的样本之间相似度低。
[0020]孪生网络(Siamese Neural Networks),通过有监督的方式进行训练,学习两个输入样本之间的相似之处。孪生网络由两个结构完全相同、权值共享的分支神经网络组成。这两个孪生分支的输入不同,它们的输出将作为孪生网络损失函数的输入。
[0021]匹配网络(Matching Networks),其主要思想是:在不改变网络模型的情况下,为未知类别生成预测标签。匹配网络对支持集中的支持样本使用了注意力机制,可以实现快速学习。值得注意的是,匹配网络模型在训练过程中使用了基于episode(分段)的训练方式,每个episode通过采样类别和样本来模拟小样本学习任务。在episode的作用下,训练过程与测试过程一致,这使得预测结果更加可靠,从而提高模型的泛化能力。
[0022]原型网络(Prototypical Networks)认为每个类别都存在一个类原型,且该类别的样本都聚集在类原型的周围。原型网络从支持样本中为每个类别都找到其相应的原型,然后在某个距离度量下,比较这个类原型与查询样本的距离。
[0023]一种基于混合注意力(Hybrid Attention

Based,HATT)的原型网络结构。首先,该模型使用样本级别的注意力机制从支持集中选出和查询样本更为贴近的样本,同时降低噪声样本所带来的影响。特征级别的注意力机制的能够衡量特征空间中的哪些维度对关系分类更为重要,从而为每种不同的关系类别都生成相适应的距离度量函数,从而使模型能够有效处理特征稀疏的问题。
[0024]归纳网络(Induction NetWorks)方法显式地建模了从样本表示到类别表示这一能力,在ODIC数据集和ARSC数据集上的效果均超过了当前最优模型。
[0025]可见,以前的大多数工作都集中在开发更强的模型上,很少关注数据本身的属性。很自然,当数据数量增加时,可以更准确地揭示真实分布。在评估过程中,经过广泛数据覆盖训练的模型可以很好地推广。另一方面,当训练一个只有少量训练数据的模型时,模型往往会通过最小化这些样本的训练损失而过度拟合这些样本。这种基于少数示例的有偏分布可能会损害模型的泛化能力,因为它远远不能反映评估期间从中采样测试用例的真实分布。

技术实现思路

[0026]本专利技术公开了一种基于分布校准的小样本实体关系抽取方法,其可以解决
技术介绍
中涉及的技术问题。
[0027]为实现上述目的,本专利技术的技术方案为:
[0028]一种基于分布校准的小样本实体关系抽取方法,该方法包括如下步骤:
[0029]步骤一、提供一包含多个关系类别的数据集,并将该数据集按类别划分出训练集和测试集,其中,训练集包含的类别多于测试集包含的类别,每个类别包含多个样本;
[0030]步骤二、将训练集作为基类,测试集作为新类,使用BERT模型将基类和新类中各类别所包含的样本进行向量化,提取样本的特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分布校准的小样本实体关系抽取方法,其特征在于,该方法包括如下步骤:步骤一、提供一包含多个关系类别的数据集,并将该数据集按类别划分出训练集和测试集,其中,训练集包含的类别多于测试集包含的类别,每个类别包含多个样本;步骤二、将训练集作为基类,测试集作为新类,使用BERT模型将基类和新类中各类别所包含的样本进行向量化,提取样本的特征向量,从而将训练集转化为基类特征向量集,将测试集转化为新类特征向量集;步骤三、通过公式(1)和(2)分别计算来自基类中的类别i的特征平均值μ
i
和特征协方差矩阵∑
i
,从而得出基类特征向量集的分布统计量;,从而得出基类特征向量集的分布统计量;其中,x
j
是基类中的类别i的第j个样本的特征向量,j为大于0的自然数;n
i
是类别i中的样本总数;步骤四、使用基于Episode的元任务训练策略训练分类器,每轮从新类特征向量集选取N个类别,从每个类别中分别抽取K个样本作为支持集,抽取Q个样本作为查询集,其中,N、K、Q均为大于0的自然数;步骤五、通过Tukey幂阶变换将步骤四获得的支持集和查询集的特征向量通过公式(3)进行映射,得到特征向量征向量其中,λ是一个超参数,用于调整如何校准统计分布量;步骤六、通过公式(4)和(5)判断基类中所有类别包含的特征平均值和新类的支持集包含的特征向量的相似度,基于该相似度选择出基类中所有类别包含的特征平均值和新类的支持集包含的特征向量最相似的前k个类别;最相似的前k个类别;其中,为特征向量与基类中所有类别包含的特征平均值计算距离的输入距离集,topk(
·
)为从输入距离集中选择最近的k个元素的运算符;为存储距离特征向量的前k个最近的基类的类别;为支持集中的一个特征向量;C
b
为基类特征向量集;步骤七、基于步骤六中选择的前k个类别的特征平均值μ

和特征协方差矩阵∑

,通过公式(6)和(7)校准支持集包含的特征向量的分布统计量;

【专利技术属性】
技术研发人员:全哲彭阳乐雨泉
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1