【技术实现步骤摘要】
本专利技术涉及文本数据集识别,具体涉及一种基于高斯函数的文本数据集小样本命名实体识别方法及系统。
技术介绍
1、ner通常被表述为序列表及问题,很多配备了深度神经网络的方法取得了较大的成功,这很大程度上依赖于大量训练的数据。但是在现实生活中,很多情况下无法获得足够多的样本数据,或是无法拥有足够的人力和时间对未标注数据进行人工标注。小样本学习希望通过少量的样本使机器学习到人类解决问题的方法,当新的类别只有一个或者几个带标签的样本时,已经学习到的旧类别可以帮助预测新类别。
2、目前,普遍使用的命名实体识别的文本数据库包括ontonotes、conll’03、wnut’17,这些文本数据库面临以下两个挑战:一、数据库样本不足;二、因为缺少统一的基准数据库,无法进行比较;《few-nerd:a few-shot named entity recognition dataset》数据集是通过远程字典选择段落来平衡数据集,该数据集选择最新近邻方式计算变量x与与各原型的距离并根据距离来预测x落在不同类别的可能性,但存在模型的抗噪性较差、分
...【技术保护点】
1.一种基于高斯函数的文本数据集小样本命名实体识别方法,其特征在于:包括以下步骤,
2.根据权利要求1所述的一种基于高斯函数的文本数据集小样本命名实体识别方法,其特征在于:步骤A,将文本数据集划分为Etrain集合、Edev集合和Etest集合,其中Etrain集合为训练集、Edev集合为验证集和Etest集合为测试集,其中Etrain集合、Edev集合和Etest集合均是文本数据集中互不相交的子集,所述训练集Etrain集合用于学习分类方法,所述验证集Edev集合用于模型参数进行调整,所述测试集Etest集合用于测试该模型的对于未知数据的泛化能力。
>3.根据权利...
【技术特征摘要】
1.一种基于高斯函数的文本数据集小样本命名实体识别方法,其特征在于:包括以下步骤,
2.根据权利要求1所述的一种基于高斯函数的文本数据集小样本命名实体识别方法,其特征在于:步骤a,将文本数据集划分为etrain集合、edev集合和etest集合,其中etrain集合为训练集、edev集合为验证集和etest集合为测试集,其中etrain集合、edev集合和etest集合均是文本数据集中互不相交的子集,所述训练集etrain集合用于学习分类方法,所述验证集edev集合用于模型参数进行调整,所述测试集etest集合用于测试该模型的对于未知数据的泛化能力。
3.根据权利要求2所述的一种基于高斯函数的文本数据集小样本命名实体识别方法,其特征在于:步骤c,在etrain集合中对模型进行学习,并在该支持集中计算共享相同类型标记嵌入的平均值,得出每个实体类型的原型z,其中对于第i种类型,原型为zi,支持集为si,而原型zi和支持集si之间的关系如公式(1)所示,
4.根据权利要求3所述的一种基于高斯函数的文本数据集小样本命名实体识别方法,其特征在于:步骤d,计算etrain集合中支持集的每一个标记xi与...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。