一种Span标注框架下的实体抽取采样方法技术

技术编号:30162304 阅读:19 留言:0更新日期:2021-09-25 15:16
本发明专利技术公开了一种Span标注框架下的实体抽取采样方法首先获取互联网语料库,经并将其整理得到<文本,实体>格式的数据集;然后对训练集数据进行预处理,采集训练样本;再构建实体抽取模型,通过训练集对实体抽取模型进行训练;最后进行模型预测。本发明专利技术训练样本数量适中、质量高,有助于模型较快收敛,提升模型的训练效率。本发明专利技术设置了与训练过程相配适的动态采样策略。在训练初期,通过增加与正例有相似边界的负样本占比,使得模型更好地学习实体边界切分。在训练中后期,增大负样本随机采样的比例,以便模型更好地学习上下文语义。加大了模型学习的难度,以达到锻炼模型的目的,有利于提高模型的鲁棒性。于提高模型的鲁棒性。于提高模型的鲁棒性。

【技术实现步骤摘要】
一种Span标注框架下的实体抽取采样方法


[0001]本专利技术属于信息抽取(information extraction)中的实体抽取领域,主要提出了一种实体抽取模型训练的采样方法。

技术介绍

[0002]实体抽取,即在自然语言中识别实体指称的边界和类别,也称为命名实体识别,其主要任务是识别文本中具有意义的实体,比如人名、地名、机构名等。
[0003]目前,实体抽取有序列标注、跨度(Span)表示等多种常见的标注方法。序列标注通过为文本序列中的每一个字符打上标签来表示对应字符是否是实体的一部分。序列标注实现较简单,但是对漏标的噪音数据较为敏感,且难以解决嵌套实体抽取等复杂的问题。跨度表示通过列举文本中可能出现的跨度片段,构建片段表示并进行分类,达到识别出序列中所有的实体的目的。相比序列标注模式下的实体抽取,在实体数据漏标严重的情况下,基于跨度表示的实体抽取方法更不易受噪音数据的影响,更加独立灵活。但是,基于跨度表示的实体抽取方法通常存在大量负样本,训练成本过高。而且,不平衡的正负样本分布,也会影响模型的训练效果。

技术实现思路

[0004]本专利技术旨在解决上述问题。本专利技术的核心改进点在于提出了一种基于跨度表示的实体抽取模型训练的采样策略,通过构建文本数据的采样矩阵,根据不同阶段的训练特点,灵活动态地对文本中可能出现的跨度片段进行采样和训练,增强模型在复杂语境下的识别实体的能力,提升了抽取的准确率和训练的效率。
[0005]一种Span标注框架下的实体抽取采样方法,步骤如下:r/>[0006]步骤1:获取互联网语料库,经并将其整理得到<文本,实体>格式的数据集。
[0007]步骤2:对训练集数据进行预处理。
[0008]步骤3:采集训练样本。
[0009]步骤4:构建实体抽取模型。
[0010]步骤5:通过训练集对实体抽取模型进行训练。
[0011]步骤6:模型预测。
[0012]步骤1具体步骤如下:
[0013]1‑
1所述的互联网语料库采用现有公开的数据库。
[0014]1‑
2构建数据集。具体实施步骤如下:
[0015]1‑2‑
1定义实体类别,具体参考行业内对于实体类型定义的规则规范。
[0016]1‑2‑
2实体关系标注。
[0017]对于存在实体的文本,可从中得到命名实体及其对应位置。根据步骤1
‑2‑
1定义的实体类型,采用人工标注的方法,对互联网语料中的命名实体进行标注,生成<文本,实体>格式的数据集。
[0018]1‑2‑
3数据集拆分。将所有文本数据拆分成两部分,其中85%作为训练集,15%作为测试集,分别用于模型的训练和测试。
[0019]步骤2具体步骤如下:
[0020]所述的预处理包括对所得数据集进行清洗和结构化整理,具体实施步骤如下:
[0021]2‑
1数据清洗,删除文本中的非法字符、空格、换行符。
[0022]2‑
2以字为粒度将文本分割,构建字典。
[0023]构建的字典D={d1,d2,...,d
z
}。其中z为字典的总长度,d
i
表示字典中第i个字。
[0024]2‑
3构建实体类型字典。
[0025]构建的实体类型字典L={l0,l1,l2,...,l
p
}。其中p为实体类型数,l0表示非实体类型,l
i
表示第i个实体类型。
[0026]步骤3具体步骤如下:
[0027]所述的训练样本包括正样本集合和负样本集合。对于文本数据S={s1,s2,...,s
n
},n是句子长度,和已标注实体集Y={y1,y2,...,y
m
},m是实体数量,具体实施步骤如下:
[0028]3‑
1构建正样本集合。
[0029]使用Span格式对样本进行表示,正样本集由已标注实体集Y构成。
[0030]集合Y中的任意元素y
k
是一个元组(i
k
,j
k
,l
k
)。Span(i
k
,j
k
)=(i
k
,j
k
)是一个跨度,对应一个字符串序列l
k
是类型标签,表示所属的实体类型。
[0031]3‑
2构建负样本集合。
[0032]3‑2‑
1计算得到采样所需负样本数negsamples,计算公式:
[0033][0034]其中m为实体数量,即正样本总数,negpercent为负采样比例。
[0035]3‑2‑
2初始化一个大小为n
×
n的随机矩阵M0,矩阵中的元素为小于10的随机数,M0(i,j)为Span(i,j)被抽中为样本参与训练的相对概率大小,即采样分数。
[0036]3‑2‑
3使用卷积运算,增大与正样本边界相近的样本的采样分数,获得增强后的矩阵M1。构建大小为5
×
5的过滤器F,并使用以0.05为期望的高斯分布进行初始化。
[0037]依次取Y中元素y
k
=(i
k
,j
k
,l
k
),并计算更新M0,得到M1。计算公式:
[0038][0039]其中*表示卷积运算,且(i,j)满足
[0040][0041][0042]其中stride表示步长。
[0043]3‑2‑
4确定采样矩阵M
f

[0044]生成0到1之间的随机数rand。若满足则令M
f
=M1,否则M
f
=M0。其中epoch为已训练的回合数,初始值为0,kp为概率选择上限。
[0045]3‑2‑
5生成负样本集合N。
[0046]根据步骤3
‑2‑
4得到的M
f
,得到集合
[0047][0048]maxspanlen为最大Span长度。取N0中采样分数排序靠前negsamples的部分,得到最终的负样本集N={n1,n2,...,n
negsamples
},集合N中的元素n
k
是一个元组(i
k
,j
k
,l0),l0表示Span(i
k
,j
k
)不是实体。
[0049]3‑
3生成训练样本集合T=Y∪N。
[0050]步骤4具体步骤如下:
[0051]4‑
1对文本数据S={s1,s2,...,s
n
}进行填充达到固定长度max_本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种Span标注框架下的实体抽取采样方法,其特征在于,步骤如下:步骤1:获取互联网语料库,经并将其整理得到<文本,实体>格式的数据集;步骤2:对训练集数据进行预处理;步骤3:采集训练样本;步骤4:构建实体抽取模型;步骤5:通过训练集对实体抽取模型进行训练;步骤6:模型预测。2.根据权利要求1所述的一种Span标注框架下的实体抽取采样方法,其特征在于,步骤1具体步骤如下:1

1所述的互联网语料库采用现有公开的数据库;1

2构建数据集;具体实施步骤如下:1
‑2‑
1定义实体类别,具体参考行业内对于实体类型定义的规则规范;1
‑2‑
2实体关系标注;对于存在实体的文本,可从中得到命名实体及其对应位置;根据步骤1
‑2‑
1定义的实体类型,采用人工标注的方法,对互联网语料中的命名实体进行标注,生成<文本,实体>格式的数据集;1
‑2‑
3数据集拆分;将所有文本数据拆分成两部分,其中85%作为训练集,15%作为测试集,分别用于模型的训练和测试。3.根据权利要求2所述的一种Span标注框架下的实体抽取采样方法,其特征在于,步骤2具体步骤如下:所述的预处理包括对所得数据集进行清洗和结构化整理,具体实施步骤如下:2

1数据清洗,删除文本中的非法字符、空格、换行符;2

2以字为粒度将文本分割,构建字典;构建的字典D={d1,d2,...,d
z
};其中z为字典的总长度,d
i
表示字典中第i个字;2

3构建实体类型字典;构建的实体类型字典L={l0,l1,l2,...,l
p
};其中p为实体类型数,l0表示非实体类型,l
i
表示第i个实体类型。4.根据权利要求3所述的一种Span标注框架下的实体抽取采样方法,其特征在于,步骤3具体步骤如下:所述的训练样本包括正样本集合和负样本集合;对于文本数据S={s1,s2,...,s
n
},n是句子长度,和已标注实体集Y={y1,y2,...,y
m
},m是实体数量,具体实施步骤如下:3

1构建正样本集合;使用Span格式对样本进行表示,正样本集由已标注实体集Y构成;集合Y中的任意元素y
k
是一个元组(i
k
,j
k
,l
k
);Span(i
k
,j
k
)=(i
k
,j
k
)是一个跨度,对应一个字符串序列l
k
是类型标签,表示所属的实体类型;3

2构建负样本集合;3
‑2‑
1计算得到采样所需负样本数negsamples,计算公式:
其中m为实体数量,即正样本总数,negpercent为负采样比例;3
‑2‑
2初始化一个大小为n
×
n的随机矩阵M0,矩阵中的元素为小于10的随机数,M0(i,j)为Span(i,j)被抽中为样本参与训练的相对概率大小,即采样分数;3
‑2‑
3使用卷积运算,增大与正样本边界相近的样本的采样分数,获得增强后的矩阵M1;构建大小为5
×
5的过滤器F,并使用以0.05为期望的高斯分布进行初始化;依次取Y中元素y
k
=(i
k
,j
k
,l
k
),并计算更新M0,得到M1;计算公式:其中*表示卷积运算,且(i,j)满足(i,j)∈{(i,j)|(i∈{i
k

2,i
k

1,i
k
,i
k
+1,i
k
+2},j∈[j
k

2,j
k

1,j
k
,j
k
+1,j
k
+2])∨(i=i
k
,j∈{i
k

【专利技术属性】
技术研发人员:康文涛傅啸毛佳豪周春珂闫梦琦
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1