基于数据增强三元组网络的小样本关系分类方法及系统技术方案

技术编号:39402181 阅读:14 留言:0更新日期:2023-11-19 15:54
一种基于数据增强三元组网络的小样本关系分类方法及系统,其包括样本的抽取:对边界样本进行采样作为训练任务,生成分类边界处容易混淆的样本;样本数据的判别:使用三元组网络对样本数据判别后统一进行训练,以得到小样本关系的正确分类结果,其解决了现有方法难以处理分类边界处的样本,数据长尾分布等问题,可广泛应用于自然语言处理的知识抽取领域

【技术实现步骤摘要】
基于数据增强三元组网络的小样本关系分类方法及系统


[0001]本专利技术涉及大数据处理领域,尤其是涉及一种基于数据增强三元组网络的小样本关系分类方法及系统


技术介绍

[0002]关系分类是自然语言处理中一项重要任务,其主要目的是从非结构化的文本中识别目标实体之间所蕴含的语义关系,从而帮助构建大规模知识图谱

智能问答以及语义搜索等下游任务

随着数据的爆炸式增多,特定领域的新关系迅速出现

监督学习模型虽然性能强大,但存在标注数据样本缺乏

标注训练样本只局限于某领域,模型适用范围小

实体对与实体对间关系为长尾分布等问题

小样本关系分类问题由此诞生,其旨在通过少量的有标注训练样本,来挖掘自然语言文本中目标实体之间所蕴含的语义关系,以应对传统的关系分类方法所面临的资源匮乏问题,从而能够较好地推广到医学

金融等数据稀缺的特定领域

[0003]目前,小样本关系分类的相关研究工作均在元学习的训练策略下学习先验知识,并以此快速适应新的任务,其大体上可以划分为基于原型网络

基于预训练语言模型以及基于参数优化三种方式

基于原型网络的方法使用样本均值计算出样本的原型向量,通过度量测试样本与原型向量之间的相似程度来对其进行分类,其反映了一种更简单的归纳偏置,减少了模型的过拟合;基于预训练语言模型的方法通过对大量的无标签数据进行训练,以学习到通用的语言学特征和语义信息,并迁移到小样本任务上;基于参数优化的方法学习如何从有限的实例中初始化和快速调整参数,以便在所有任务中以尽可能少的梯度下降步骤实现最佳的预测性能

但现有方法仍存在以下问题:由于样本分布的随机性,原型网络难以将分类边界处的样本正确分类;预训练语言模型专注于在预训练阶段增强文本语义表征,却难以生成较好的关系表示;基于参数优化的隐式统计,存在实例不可靠和可解释性差的问题


技术实现思路

[0004]为解决上述技术问题,本专利技术提供一种基于数据增强三元组网络的小样本关系分类方法及系统

[0005]本申请实施例的第一方面提供了一种基于数据增强三元组网络的小样本关系分类方法,其包括以下步骤:
[0006]样本的抽取:对边界样本进行采样作为训练任务,生成分类边界处容易混淆的样本;
[0007]样本数据的判别:使用三元组网络对样本数据判别后统一进行训练,以得到小样本关系的正确分类结果

[0008]优选的,所述样本的抽取,具体通过以下方式实现:
[0009]将训练样本输入预训练模型得到向量编码,计算得出每个类的原型向量;
[0010]计算每个样本与各类原型向量的距离;
[0011]计算每个样本属于各类原型向量的概率;
[0012]计算样本的交叉熵并进行排序;
[0013]抽取规定数量的样本

[0014]优选的,所述原型向量的计算,通过以下方式实现:
[0015][0016]式中,
S
k
是第
k
类样本的样本集合,
|S
k
|
是第
k
类样本的样本数量,
f
φ
(x
i
)
是经过预训练模型处理后的文本向量,
c
k
为第
k
类样本的原型向量

[0017]优选的,计算每个样本属于各类原型向量的概率,通过以下方式实现:
[0018][0019]式中,
dis
代表样本与原型向量间的欧几里得距离,
P
i,j
为第
j
个样本所属
i
类的概率

[0020]优选的,计算样本的交叉熵并进行排序,通过以下方式实现:
[0021][0022]式中,
P(i)
代表所属类是否是样本
j
的正确分类,取值为0或
1。
[0023]优选的,样本数据的判别,具体通过以下方式实现:
[0024]根据样本训练三元组网络,将三元组网络作为判别网络判断边界处的生成数据样本所属类别,将筛选后的数据加入到原有的数据集合,重新进行训练得到新的原型向量,以得到小样本关系的正确分类结果

[0025]优选的,采用数据增强的方法生成一部分分类边界处的样本点参与三元组网络的训练,具体方法如下:
[0026][0027]式中,
x
代表生成样本的特征,
y
代表目标任务中的类,代表抽取出的总体样本统计量,
μ
x
为分类边界处样本的样本均值,
μ
为此类总体样本的均值,
Σ
是此类总体样本的方差

[0028]优选的,三元组网络的训练,通过以下方式实现:
[0029]将样本的抽取中抽取出的易混淆样本作为三元组网络的锚定样本,同一类的样本作为三元组网络的正样本,其余类的样本作为负样本训练三元组网络,在输入正样本

负样本和锚定样本后经过编码器得到文本编码,经过三元组损失优化后得到三元组网络

[0030]优选的,三元组损失的优化,通过以下三元组网络的损失函数实现:
[0031][0032]式中,
d(a,p)
为正样本与锚定样本的距离,
d(a,n)
为负样本与锚定样本的距离
,m
为设置的边距

[0033]本申请的第二方面提供了基于数据增强三元组网络的小样本关系分类系统,包
括:
[0034]样本抽取模块:用于对边界样本进行采样作为训练任务,生成分类边界处容易混淆的样本;
[0035]样本判别模块:用于使用三元组网络对样本数据判别后统一进行训练,以得到小样本关系的正确分类结果

[0036]本专利技术通过原有数据集的信息内容实现小样本关系的正确分类;通过根据交叉熵抽取难以分类的样本,利用边界样本生成数据,之后使用三元组网络对生成数据判别后统一进行训练,以此得到小样本关系的正确分类结果;本专利技术具有较强的泛化能力,克服了现有方法对数据依赖过大,分类实例不可靠,模型易陷入过拟合等缺陷,可以用于知识图谱等下游领域,提升知识图谱构建的质量;在数据标注不全,标注样本量少的情况下,依旧能维持较好的性能,以此减少数据标注的人力成本,提高工作效率

附图说明
[0037]图1为本申请一实施例提供的一种时序数据的数据周期测定方法的流程示意图;
[0038]图2为本申请一实施例提供的样本的抽取方法的流程示意图;
[0039]图3为本申请本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
基于数据增强三元组网络的小样本关系分类方法,其特征在于,包括以下步骤:样本的抽取:对边界样本进行采样作为训练任务,生成分类边界处容易混淆的样本;样本数据的判别:使用三元组网络对样本数据判别后统一进行训练,以得到小样本关系的正确分类结果
。2.
根据权利要求1所述的基于数据增强三元组网络的小样本关系分类方法,其特征在于,所述样本的抽取,具体通过以下方式实现:将训练样本输入预训练模型得到向量编码,计算得出每个类的原型向量;计算每个样本与各类原型向量的距离;计算每个样本属于各类原型向量的概率;计算样本的交叉熵并进行排序;抽取规定数量的样本
。3.
根据权利要求2所述的基于数据增强三元组网络的小样本关系分类方法,其特征在于,所述原型向量的计算,通过以下方式实现:式中,
S
k
是第
k
类样本的样本集合,
|S
k
|
是第
k
类样本的样本数量,
f
φ
(x
i
)
是经过预训练模型处理后的文本向量,
c
k
为第
k
类样本的原型向量
。4.
根据权利要求3所述的基于数据增强三元组网络的小样本关系分类方法,其特征在于,计算每个样本属于各类原型向量的概率,通过以下方式实现:式中,
dis
代表样本与原型向量间的欧几里得距离,
P
i,j
为第
j
个样本所属
i
类的概率
。5.
根据权利要求4所述的基于数据增强三元组网络的小样本关系分类方法,其特征在于,计算样本的交叉熵并进行排序,通过以下方式实现:式中,
P(i)
代表所属类是否是样本
j
的正确分类,取值为0或
1。6.
...

【专利技术属性】
技术研发人员:佟晓筠李琰王巍辛国栋王佰玲
申请(专利权)人:威海天之卫网络空间安全科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1