一种基于高斯函数的文本数据集小样本命名实体识别方法及系统技术方案

技术编号:41531695 阅读:29 留言:0更新日期:2024-06-03 23:08
本发明专利技术公开了一种基于高斯函数的文本数据集小样本命名实体识别方法及系统,首先将文本数据集划分为Etrain集合、Edev集合和Etest集合,再对Etrain集合和Edev集合均进行二次划分并分别设置支持集和查询集,接着在Etrain集合中对模型进行学习,并在该支持集中计算共享相同类型标记嵌入的平均值,得出每个实体类型的原型,再计算Etrain集合中支持集的每一个标记与每个原型的高斯函数值;本发明专利技术实现了使用高斯函数代替距离函数计算变量与原型之相似性并提高模型的识别率和鲁棒性的功能,不仅提高了对噪声值和异常值的容忍度,还提高了对缺失数据的容忍度,且减少了训练数据和测试数据之间的分布差异对预测结果所产生的影响,适合被广泛推广和使用。

【技术实现步骤摘要】

本专利技术涉及文本数据集识别,具体涉及一种基于高斯函数的文本数据集小样本命名实体识别方法及系统


技术介绍

1、ner通常被表述为序列表及问题,很多配备了深度神经网络的方法取得了较大的成功,这很大程度上依赖于大量训练的数据。但是在现实生活中,很多情况下无法获得足够多的样本数据,或是无法拥有足够的人力和时间对未标注数据进行人工标注。小样本学习希望通过少量的样本使机器学习到人类解决问题的方法,当新的类别只有一个或者几个带标签的样本时,已经学习到的旧类别可以帮助预测新类别。

2、目前,普遍使用的命名实体识别的文本数据库包括ontonotes、conll’03、wnut’17,这些文本数据库面临以下两个挑战:一、数据库样本不足;二、因为缺少统一的基准数据库,无法进行比较;《few-nerd:a few-shot named entity recognition dataset》数据集是通过远程字典选择段落来平衡数据集,该数据集选择最新近邻方式计算变量x与与各原型的距离并根据距离来预测x落在不同类别的可能性,但存在模型的抗噪性较差、分类结果受原型点的选择本文档来自技高网...

【技术保护点】

1.一种基于高斯函数的文本数据集小样本命名实体识别方法,其特征在于:包括以下步骤,

2.根据权利要求1所述的一种基于高斯函数的文本数据集小样本命名实体识别方法,其特征在于:步骤A,将文本数据集划分为Etrain集合、Edev集合和Etest集合,其中Etrain集合为训练集、Edev集合为验证集和Etest集合为测试集,其中Etrain集合、Edev集合和Etest集合均是文本数据集中互不相交的子集,所述训练集Etrain集合用于学习分类方法,所述验证集Edev集合用于模型参数进行调整,所述测试集Etest集合用于测试该模型的对于未知数据的泛化能力。>

3.根据权利...

【技术特征摘要】

1.一种基于高斯函数的文本数据集小样本命名实体识别方法,其特征在于:包括以下步骤,

2.根据权利要求1所述的一种基于高斯函数的文本数据集小样本命名实体识别方法,其特征在于:步骤a,将文本数据集划分为etrain集合、edev集合和etest集合,其中etrain集合为训练集、edev集合为验证集和etest集合为测试集,其中etrain集合、edev集合和etest集合均是文本数据集中互不相交的子集,所述训练集etrain集合用于学习分类方法,所述验证集edev集合用于模型参数进行调整,所述测试集etest集合用于测试该模型的对于未知数据的泛化能力。

3.根据权利要求2所述的一种基于高斯函数的文本数据集小样本命名实体识别方法,其特征在于:步骤c,在etrain集合中对模型进行学习,并在该支持集中计算共享相同类型标记嵌入的平均值,得出每个实体类型的原型z,其中对于第i种类型,原型为zi,支持集为si,而原型zi和支持集si之间的关系如公式(1)所示,

4.根据权利要求3所述的一种基于高斯函数的文本数据集小样本命名实体识别方法,其特征在于:步骤d,计算etrain集合中支持集的每一个标记xi与...

【专利技术属性】
技术研发人员:陈奕阳黄佳佳李鹏伟
申请(专利权)人:南京审计大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1