一种命名实体识别模型训练方法、电子设备及存储介质技术

技术编号：35611365 阅读：25 留言：0更新日期：2022-11-16 15:35

本发明专利技术涉及人工智能技术领域，具体涉及一种命名实体识别模型训练方法、电子设备及存储介质，所述方法包括：通过f个批处理样本训练命名实体识别模型，其中第j个批处理样本batch

全部详细技术资料下载

【技术实现步骤摘要】
一种命名实体识别模型训练方法、电子设备及存储介质

[0001]本专利技术涉及人工智能
，特别是涉及一种命名实体识别模型训练方法、电子设备及存储介质。

技术介绍

[0002]在命名实体识别任务中，实体类型的标注准确率直接影响着实体识别模型的准确率，所述标注准确率会被数据集的采样方法、实体的数量等因素影响；现有的对实体的采样一般采取随机采样，即对所有的实体所在的数据集采取同等比例且同等概率的采样，导致在模型训练时各个实体的训练量与数据集的实体数量呈正相关，这种采样方法会使实体数量少的数据集不能得到足够的训练次数，命名实体识别的准确率低。
[0003]CN114021565A中公开了一种命名实体识别模型的训练方法及装置，所述方法通过获取多个训练任务一一对应的多组数据集，其中，多组数据集中的每组数据集中包括训练集和验证集；对于每组数据集中的训练集和验证集，通过该训练集训练初始模型，并通过该验证集确定经该训练集训练后的初始模型的训练损失；但是上述现有技术也存在着以下技术问题：所述方法采用不同数量的数据集直接进行模型训练，数据集中数量少的实体类型参与的模型训练次数少，会造成数量少的实体识别准确率低。

技术实现思路

[0004]针对上述技术问题，本专利技术采用的技术方案为：一种命名实体识别模型训练方法，方法通过f个批处理样本batch={batch1,batch2,
…
,batch
j
,
…
,batch
f
}训练命名实体识别模型，

【技术保护点】

【技术特征摘要】
1.一种命名实体识别模型训练方法，其特征在于，所述方法通过f个批处理样本batch={batch1,batch2,
…
,batch
j
,
…
,batch
f
}训练命名实体识别模型，其中，batch
j
为第j个批处理样本，j的取值范围为1到f，命名实体识别模型包括m个分类器，batch
j
通过对n个数据集data={data1,data2,
…
,data
i
,
…
,data
n
}进行采样得到，其中，data
i
为第i个数据集，i的取值范围为1到n；所述batch
j
的采样步骤包括：S100，获取采样权重data_weight={data_weight1,data_weight2,
…
,data_weight
i
,
…
,data_weight
n
}，其中，data_weight
i
为第i个采样权重，i的取值范围为1到n；所述data_weight满足：data_weight1+data_weight2+
…
+data_weight
n
=1；其中，data_weight
i
与subi成正相关，subi表示数据集data
i
包含的实体数量d
i
和实体权重entity_q
i
的乘积，所述实体权重entity_q
i
与e
ientityL
成负相关，e
ientityL
为data
i
中实体类型为第L个实体类型的实体数量，m为data中包含的实体类型数量，1≤L≤m；S200，根据data_weight的比例将(0，1]区间划分为n个区间{in1,in2,
…
,in
i
,
…
,in
n
}，其中，in
i
为第i个区间，i的取值范围为1到n，in
i
对应data_weight
i
；S300，获取一个(0，1)之间的随机数s，并确定s所在的区间in
i
；S400，根据in
i
对应的data_weight
i
获取对应的data
i
，data
i
中包含d
i
个实体{en1,en2,
…
,en
p
,
…
,en
di
}，其中，en
p
为data
i
中第p个实体，p的取值范围为i到d
i
；S500，获取en
p
，p为随机数s落入区间in
i
的次数；S600，重复步骤S300
‑
S500，将获取的en
p
存储到batch
j
中，当k=batch_size时，结束重复步骤S300
‑
S500；其中，k为batch
j
中的实体数量，batch_size为batch
j
中能存储实体数量的最大值。2.根据权利要求1所述的方法，其特征在于，所述data包含m个实体类型entity={entity1,entity2,
…
,entity
L
,
…
,entity
m
}，其中，entity
L
为data中第L个实体类型，L的取值范围为1到m；entity
L
对应输入到第L个分类器中进行模型训练。3.根据权利要求1所述的方法，其特征在于，所述data_weight
i
满足：data_weight
i
=data_...

【专利技术属性】
技术研发人员：王全修，于伟，靳雯，赵洲洋，石江枫，王明超，
申请(专利权)人：日照睿安信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人