一种命名实体识别模型训练方法、电子设备及存储介质技术

技术编号:35611365 阅读:25 留言:0更新日期:2022-11-16 15:35
本发明专利技术涉及人工智能技术领域,具体涉及一种命名实体识别模型训练方法、电子设备及存储介质,所述方法包括:通过f个批处理样本训练命名实体识别模型,其中第j个批处理样本batch

【技术实现步骤摘要】
一种命名实体识别模型训练方法、电子设备及存储介质


[0001]本专利技术涉及人工智能
,特别是涉及一种命名实体识别模型训练方法、电子设备及存储介质。

技术介绍

[0002]在命名实体识别任务中,实体类型的标注准确率直接影响着实体识别模型的准确率,所述标注准确率会被数据集的采样方法、实体的数量等因素影响;现有的对实体的采样一般采取随机采样,即对所有的实体所在的数据集采取同等比例且同等概率的采样,导致在模型训练时各个实体的训练量与数据集的实体数量呈正相关,这种采样方法会使实体数量少的数据集不能得到足够的训练次数,命名实体识别的准确率低。
[0003]CN114021565A中公开了一种命名实体识别模型的训练方法及装置,所述方法通过获取多个训练任务一一对应的多组数据集,其中,多组数据集中的每组数据集中包括训练集和验证集;对于每组数据集中的训练集和验证集,通过该训练集训练初始模型,并通过该验证集确定经该训练集训练后的初始模型的训练损失;但是上述现有技术也存在着以下技术问题:所述方法采用不同数量的数据集直接进行模型训练,数据集中数量少的实体类型参与的模型训练次数少,会造成数量少的实体识别准确率低。

技术实现思路

[0004]针对上述技术问题,本专利技术采用的技术方案为:一种命名实体识别模型训练方法,方法通过f个批处理样本batch={batch1,batch2,

,batch
j
,

,batch
f
}训练命名实体识别模型,其中,batch
j
为第j个批处理样本,j的取值范围为1到f,命名实体识别模型包括m个分类器,batch
j
通过对n个数据集data={data1,data2,

,data
i
,

,data
n
}进行采样得到,其中,data
i
为第i个数据集,i的取值范围为1到n;batch
j
的采样步骤包括:S100,获取采样权重data_weight={data_weight1,data_weight2,

,data_weight
i
,

,data_weight
n
},其中,data_weight
i
为第i个采样权重,i的取值范围为1到n;data_weight满足:data_weight1+data_weight2+

+data_weight
n
=1;其中,data_weight
i
与subi成正相关,subi表示数据集data
i
包含的实体数量d
i
和实体权重entity_q
i
的乘积,实体权重entity_q
i
与e
ientityL
成负相关,e
ientityL
为data
i
中实体类型为第L个实体类型的实体数量,m为data中包含的实体类型数量,1≤L≤m。
[0005]S200,根据data_weight的比例将(0,1]区间划分为n个区间{in1,in2,

,in
i
,

,in
n
},其中,in
i
为第i个区间,i的取值范围为1到n,in
i
对应data_weight
i

[0006]S300,获取一个(0,1)之间的随机数s,并确定s所在的区间in
i

[0007]S400,根据in
i
对应的data_weight
i
获取对应的data
i
,data
i
中包含d
i
个实体{en1,en2,

,en
p
,

,en
di
},其中,en
p
为data
i
中第p个实体,p的取值范围为i到d
i

[0008]S500,获取en
p
,p为随机数s落入区间in
i
的次数。
[0009]S600,重复步骤S300

S500,将获取的en
p
存储到batch
j
中,当k=batch_size时,结束
重复步骤S300

S500;其中,k为batch
j
中的实体数量,batch_size为batch
j
中能存储实体数量的最大值。
[0010]本专利技术至少具有以下有益效果:对数据集采样时增加data_weight来控制每个batch的数据集采样比例,并按照n个data_weight的比例将(0,1]区间划分为多个子区间,随机数s分布在每个子区间上的概率能够代表该区间对应的数据集data
i
被选中的概率,data_weight与数据集实体数量有关,通过提升实体数量少的数据集在训练过程中的采样频次,提升了数量少的实体类型在训练过程中的出现频次,进而提高数量少的实体类型的识别准确率。
附图说明
[0011]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0012]图1为本专利技术实施例提供的命名实体识别模型训练方法的框图;图2为本专利技术实施例提供的获取批处理样本batch
j
的流程图。
具体实施方式
[0013]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0014]图1示出了本专利技术实施例提供的一种命名实体识别模型训练方法,通过f个批处理样本batch={batch1,batch2,

,batch
j
,

,batch
f
}训练命名实体识别模型,其中,batch
j
为第j个批处理样本,j的取值范围为1到f,命名实体识别模型包括m个分类器,batch
j
通过对n个数据集data={data1,data2,

,data
i
,

,data
n...

【技术保护点】

【技术特征摘要】
1.一种命名实体识别模型训练方法,其特征在于,所述方法通过f个批处理样本batch={batch1,batch2,

,batch
j
,

,batch
f
}训练命名实体识别模型,其中,batch
j
为第j个批处理样本,j的取值范围为1到f,命名实体识别模型包括m个分类器,batch
j
通过对n个数据集data={data1,data2,

,data
i
,

,data
n
}进行采样得到,其中,data
i
为第i个数据集,i的取值范围为1到n;所述batch
j
的采样步骤包括:S100,获取采样权重data_weight={data_weight1,data_weight2,

,data_weight
i
,

,data_weight
n
},其中,data_weight
i
为第i个采样权重,i的取值范围为1到n;所述data_weight满足:data_weight1+data_weight2+

+data_weight
n
=1;其中,data_weight
i
与subi成正相关,subi表示数据集data
i
包含的实体数量d
i
和实体权重entity_q
i
的乘积,所述实体权重entity_q
i
与e
ientityL
成负相关,e
ientityL
为data
i
中实体类型为第L个实体类型的实体数量,m为data中包含的实体类型数量,1≤L≤m;S200,根据data_weight的比例将(0,1]区间划分为n个区间{in1,in2,

,in
i
,

,in
n
},其中,in
i
为第i个区间,i的取值范围为1到n,in
i
对应data_weight
i
;S300,获取一个(0,1)之间的随机数s,并确定s所在的区间in
i
;S400,根据in
i
对应的data_weight
i
获取对应的data
i
,data
i
中包含d
i
个实体{en1,en2,

,en
p
,

,en
di
},其中,en
p
为data
i
中第p个实体,p的取值范围为i到d
i
;S500,获取en
p
,p为随机数s落入区间in
i
的次数;S600,重复步骤S300

S500,将获取的en
p
存储到batch
j
中,当k=batch_size时,结束重复步骤S300

S500;其中,k为batch
j
中的实体数量,batch_size为batch
j
中能存储实体数量的最大值。2.根据权利要求1所述的方法,其特征在于,所述data包含m个实体类型entity={entity1,entity2,

,entity
L
,

,entity
m
},其中,entity
L
为data中第L个实体类型,L的取值范围为1到m;entity
L
对应输入到第L个分类器中进行模型训练。3.根据权利要求1所述的方法,其特征在于,所述data_weight
i
满足:data_weight
i
=data_...

【专利技术属性】
技术研发人员:王全修于伟靳雯赵洲洋石江枫王明超
申请(专利权)人:日照睿安信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1