【技术实现步骤摘要】
一种命名实体识别模型训练方法、电子设备及存储介质
[0001]本专利技术涉及人工智能
,特别是涉及一种命名实体识别模型训练方法、电子设备及存储介质。
技术介绍
[0002]在命名实体识别任务中,实体类型的标注准确率直接影响着实体识别模型的准确率,所述标注准确率会被数据集的采样方法、实体的数量等因素影响;现有的对实体的采样一般采取随机采样,即对所有的实体所在的数据集采取同等比例且同等概率的采样,导致在模型训练时各个实体的训练量与数据集的实体数量呈正相关,这种采样方法会使实体数量少的数据集不能得到足够的训练次数,命名实体识别的准确率低。
[0003]CN114021565A中公开了一种命名实体识别模型的训练方法及装置,所述方法通过获取多个训练任务一一对应的多组数据集,其中,多组数据集中的每组数据集中包括训练集和验证集;对于每组数据集中的训练集和验证集,通过该训练集训练初始模型,并通过该验证集确定经该训练集训练后的初始模型的训练损失;但是上述现有技术也存在着以下技术问题:所述方法采用不同数量的数据集直接进行模型训练,数据集中数量少的实体类型参与的模型训练次数少,会造成数量少的实体识别准确率低。
技术实现思路
[0004]针对上述技术问题,本专利技术采用的技术方案为:一种命名实体识别模型训练方法,方法通过f个批处理样本batch={batch1,batch2,
…
,batch
j
,
…
,batch
f
}训练命名实体识别模型,
【技术保护点】
【技术特征摘要】
1.一种命名实体识别模型训练方法,其特征在于,所述方法通过f个批处理样本batch={batch1,batch2,
…
,batch
j
,
…
,batch
f
}训练命名实体识别模型,其中,batch
j
为第j个批处理样本,j的取值范围为1到f,命名实体识别模型包括m个分类器,batch
j
通过对n个数据集data={data1,data2,
…
,data
i
,
…
,data
n
}进行采样得到,其中,data
i
为第i个数据集,i的取值范围为1到n;所述batch
j
的采样步骤包括:S100,获取采样权重data_weight={data_weight1,data_weight2,
…
,data_weight
i
,
…
,data_weight
n
},其中,data_weight
i
为第i个采样权重,i的取值范围为1到n;所述data_weight满足:data_weight1+data_weight2+
…
+data_weight
n
=1;其中,data_weight
i
与subi成正相关,subi表示数据集data
i
包含的实体数量d
i
和实体权重entity_q
i
的乘积,所述实体权重entity_q
i
与e
ientityL
成负相关,e
ientityL
为data
i
中实体类型为第L个实体类型的实体数量,m为data中包含的实体类型数量,1≤L≤m;S200,根据data_weight的比例将(0,1]区间划分为n个区间{in1,in2,
…
,in
i
,
…
,in
n
},其中,in
i
为第i个区间,i的取值范围为1到n,in
i
对应data_weight
i
;S300,获取一个(0,1)之间的随机数s,并确定s所在的区间in
i
;S400,根据in
i
对应的data_weight
i
获取对应的data
i
,data
i
中包含d
i
个实体{en1,en2,
…
,en
p
,
…
,en
di
},其中,en
p
为data
i
中第p个实体,p的取值范围为i到d
i
;S500,获取en
p
,p为随机数s落入区间in
i
的次数;S600,重复步骤S300
‑
S500,将获取的en
p
存储到batch
j
中,当k=batch_size时,结束重复步骤S300
‑
S500;其中,k为batch
j
中的实体数量,batch_size为batch
j
中能存储实体数量的最大值。2.根据权利要求1所述的方法,其特征在于,所述data包含m个实体类型entity={entity1,entity2,
…
,entity
L
,
…
,entity
m
},其中,entity
L
为data中第L个实体类型,L的取值范围为1到m;entity
L
对应输入到第L个分类器中进行模型训练。3.根据权利要求1所述的方法,其特征在于,所述data_weight
i
满足:data_weight
i
=data_...
【专利技术属性】
技术研发人员:王全修,于伟,靳雯,赵洲洋,石江枫,王明超,
申请(专利权)人:日照睿安信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。