【技术实现步骤摘要】
样本均衡方法、装置、设备以及存储介质
本申请涉及数据处理
,尤其涉及深度学习、人工智能和智能搜索技术。具体地,本申请提供了一种样本均衡方法、装置、设备以及存储介质。
技术介绍
在训练多分类模型的过程中,由于多标签分类任务的特殊性,通常客户标注的多标签分类任务的数据样本满足不了模型训练的样本均衡要求。而经过不均衡样本训练得到的模型往往将数据误分为样本占比高的标签类别,从而导致模型分类错误。
技术实现思路
本公开提供了一种样本均衡方法、装置、设备以及存储介质。根据本公开的一方面,提供了一种样本均衡方法,包括:根据待均衡样本集中标签对应的样本数量,从所述待均衡样本集关联的至少两个标签中,确定待均衡的目标标签,且将所述待均衡样本集中与所述目标标签对应的样本作为目标样本,所述待均衡样本集包括至少二个样本,每个样本具有至少一个标签;增加所述目标样本,使所述待均衡样本集中所述目标标签对应的样本数量达到目标样本数量,得到新样本集;若所述新样本集中除所述目标标签外的其他标签对应的样本数 ...
【技术保护点】
1.一种样本均衡方法,包括:/n根据待均衡样本集中标签对应的样本数量,从所述待均衡样本集关联的至少两个标签中,确定待均衡的目标标签,且将所述待均衡样本集中与所述目标标签对应的样本作为目标样本,所述待均衡样本集包括至少二个样本,每个样本具有至少一个标签;/n增加所述目标样本,使所述待均衡样本集中所述目标标签对应的样本数量达到目标样本数量,得到新样本集;/n若所述新样本集中除所述目标标签外的其他标签对应的样本数量小于所述目标样本数量,则增加所述新样本集中除所述目标标签外的其他标签对应的样本,使所述待均衡样本集中所述其他标签对应的样本数量达到目标样本数量。/n
【技术特征摘要】
1.一种样本均衡方法,包括:
根据待均衡样本集中标签对应的样本数量,从所述待均衡样本集关联的至少两个标签中,确定待均衡的目标标签,且将所述待均衡样本集中与所述目标标签对应的样本作为目标样本,所述待均衡样本集包括至少二个样本,每个样本具有至少一个标签;
增加所述目标样本,使所述待均衡样本集中所述目标标签对应的样本数量达到目标样本数量,得到新样本集;
若所述新样本集中除所述目标标签外的其他标签对应的样本数量小于所述目标样本数量,则增加所述新样本集中除所述目标标签外的其他标签对应的样本,使所述待均衡样本集中所述其他标签对应的样本数量达到目标样本数量。
2.根据权利要求1所述的方法,所述若所述新样本集中除所述目标标签外的其他标签对应的样本数量小于所述目标样本数量,则增加所述新样本集中除所述目标标签外的其他标签对应的样本,使所述待均衡样本集中所述其他标签对应的样本数量达到目标样本数量之前,所述方法还包括:
基于增加的目标样本,统计所述新样本集中除所述目标标签外的其他标签的样本数量。
3.根据权利要求1或2所述的方法,其中,所述若所述新样本集中除所述目标标签外的其他标签对应的样本数量小于所述目标样本数量,则增加所述新样本集中除所述目标标签外的其他标签对应的样本,使所述待均衡样本集中所述其他标签对应的样本数量达到目标样本数量,包括:
若所述新样本集中除所述目标标签外的其他标签对应的样本数量小于所述目标样本数量,则根据所述其他标签对应的样本数量和所述目标样本数量,从所述其他标签中确定待均衡标签,以及所述新样本集中与所述待均衡标签对应的待均衡样本;
增加所述待均衡样本,使所述新样本集中所述待均衡标签的样本数量达到所述目标样本数量。
4.根据权利要求1或2所述的方法,其中,所述增加所述目标样本,使所述待均衡样本集中所述目标标签对应的样本数量达到目标样本数量,得到新样本集,包括:
确定所述待均衡样本集中所述目标标签的样本数量与所述目标样本数量的差值;
根据确定的差值,增加所述目标样本,使所述目标标签的样本数量达到所述目标样本数量,得到新样本集。
5.根据权利要求1或2所述的方法,其中,所述增加所述目标样本,使所述待均衡样本集中所述目标标签对应的样本数量达到目标样本数量,得到新样本集,包括:
若所述目标样本的种类为至少两种,且所述目标样本数量为至少两个,则根据所述目标样本数量,增加至少两种的目标样本,使所述待均衡样本集中所述目标标签的样本数量达到所述目标样本数量,得到新样本集。
6.根据权利要求5所述的方法,其中,所述根据所述目标样本数量,增加至少两种的目标样本,使所述待均衡样本集中所述目标标签的样本数量达到所述目标样本数量,得到新样本集,包括:
根据所述目标样本数量,确定所述至少两种的目标样本中各种目标样本的增加数量,其中各种目标样本的增加数量之间的差值小于设定差值阈值;
根据确定的各种目标样本的增加数量,增加所述至少两种的目标样本,得到新样本集。
7.根据权利要求1或2所述的方法,所述若所述新样本集中除所述目标标签外的其他标签对应的样本数量小于所述目标样本数量,则增加所述新样本集中除所述目标标签外的其他标签对应的样本,使所述待均衡样本集中所述其他标签对应的样本数量达到目标样本数量之后,所述方法还包括:
确定所述新样本集的高频标签;
从所述新样本集中确定标签数量为一,且标注有所述高频标签的高频样本;
减少所述高频样本的数量,以降低所述高频标签的样本数量与所述新样本集中除所述高频标签外的其他标签的样本数量的差值。
8.根据权利要求7所述的方法,其中,所述确定所述新样本集的高频标签,包括:
确定所述新样本集中各标签对应的样本数量与所述目标样本数量的差值;
根据确定的差值从所述新样本集对应的至少两个标签中确定所述高频标签。
9.一种样本均衡的装置,包括:
标签确定模块,用于根据待均衡样本集中标签对应的样本数量,从所述待均衡样本集关联的至少...
【专利技术属性】
技术研发人员:杨晨,杨天行,彭彬,张一麟,宋勋超,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。