【技术实现步骤摘要】
基于数据增强三元组网络的小样本关系分类方法及系统
[0001]本专利技术涉及大数据处理领域,尤其是涉及一种基于数据增强三元组网络的小样本关系分类方法及系统
。
技术介绍
[0002]关系分类是自然语言处理中一项重要任务,其主要目的是从非结构化的文本中识别目标实体之间所蕴含的语义关系,从而帮助构建大规模知识图谱
、
智能问答以及语义搜索等下游任务
。
随着数据的爆炸式增多,特定领域的新关系迅速出现
。
监督学习模型虽然性能强大,但存在标注数据样本缺乏
、
标注训练样本只局限于某领域,模型适用范围小
、
实体对与实体对间关系为长尾分布等问题
。
小样本关系分类问题由此诞生,其旨在通过少量的有标注训练样本,来挖掘自然语言文本中目标实体之间所蕴含的语义关系,以应对传统的关系分类方法所面临的资源匮乏问题,从而能够较好地推广到医学
、
金融等数据稀缺的特定领域
。
[0003]目前,小样本关系分类的相关研究工作均在元学习的训练策略下学习先验知识,并以此快速适应新的任务,其大体上可以划分为基于原型网络
、
基于预训练语言模型以及基于参数优化三种方式
。
基于原型网络的方法使用样本均值计算出样本的原型向量,通过度量测试样本与原型向量之间的相似程度来对其进行分类,其反映了一种更简单的归纳偏置,减少了模型的过拟合;基于预训练语言模型的方法通过对大量的无标签数据进行训练,以 ...
【技术保护点】
【技术特征摘要】
1.
基于数据增强三元组网络的小样本关系分类方法,其特征在于,包括以下步骤:样本的抽取:对边界样本进行采样作为训练任务,生成分类边界处容易混淆的样本;样本数据的判别:使用三元组网络对样本数据判别后统一进行训练,以得到小样本关系的正确分类结果
。2.
根据权利要求1所述的基于数据增强三元组网络的小样本关系分类方法,其特征在于,所述样本的抽取,具体通过以下方式实现:将训练样本输入预训练模型得到向量编码,计算得出每个类的原型向量;计算每个样本与各类原型向量的距离;计算每个样本属于各类原型向量的概率;计算样本的交叉熵并进行排序;抽取规定数量的样本
。3.
根据权利要求2所述的基于数据增强三元组网络的小样本关系分类方法,其特征在于,所述原型向量的计算,通过以下方式实现:式中,
S
k
是第
k
类样本的样本集合,
|S
k
|
是第
k
类样本的样本数量,
f
φ
(x
i
)
是经过预训练模型处理后的文本向量,
c
k
为第
k
类样本的原型向量
。4.
根据权利要求3所述的基于数据增强三元组网络的小样本关系分类方法,其特征在于,计算每个样本属于各类原型向量的概率,通过以下方式实现:式中,
dis
代表样本与原型向量间的欧几里得距离,
P
i,j
为第
j
个样本所属
i
类的概率
。5.
根据权利要求4所述的基于数据增强三元组网络的小样本关系分类方法,其特征在于,计算样本的交叉熵并进行排序,通过以下方式实现:式中,
P(i)
代表所属类是否是样本
j
的正确分类,取值为0或
1。6.
...
【专利技术属性】
技术研发人员:佟晓筠,李琰,王巍,辛国栋,王佰玲,
申请(专利权)人:威海天之卫网络空间安全科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。