数据采样方法、装置及存储介质制造方法及图纸

技术编号:34781252 阅读:16 留言:0更新日期:2022-09-03 19:37
本公开提供了一种数据采样方法、装置及存储介质,通过获取多个场景下各自对应的数据标注集合;基于数据标注集合中的不同图片对应的多个标注信息,统计数据标注集合对应的M个标注信息类别的数量,进而确定出数据标注集合的初始权重;基于标注信息类别的数量与权重成负相关性,调整每个场景下的初始权重,得到每个场景的数据标注集合的采样权重;基于采样权重进行采样。进行采样。进行采样。

【技术实现步骤摘要】
【国外来华专利技术】数据采样方法、装置及存储介质
[0001]交叉引用
[0002]本申请基于并要求申请号为10202113665U申请日为2021年12月9日的新加坡专利申请的优先权,其公开内容通过引用全文结合于此。


[0003]本公开实施例涉及数据采样
,尤其涉及一种数据采样方法、装置及存储介质。

技术介绍

[0004]目标检测是智能视频分析系统的重要一环。在一些智能游戏场景的目标检测中,我们希望对与游戏相关的目标物体进行高准确率的检测。
[0005]传统的检测模型通过已标注的样品数据进行训练得到。但在一些游戏场景中,采集样品数据存在两个主要的问题:一,在样品数据的采集过程中,主要针对游戏区域中某个类别样品进行采集,每批次采集的数据中各个类别的数据有数量级的差距。二,每个场景下数据量不相同,如果按照随机采样的方法进行采样,容易导致数据量少的场景样品数据采集量少。进而使得模型对样品进行训练时,面对数据量少的场景或者类别的样品时,得不到充分的训练,进而对数据量少的场景或者类别的待测物品的检测性能较差。
[0006]公开内容
[0007]本公开实施例提供的一种数据采样方法、装置及存储介质,可以提高对数据量少的场景或者类别的待测物品的检测性能。
[0008]本公开的技术方案是这样实现的:
[0009]本公开实施例提供了一种数据采样方法,包括:
[0010]获取多个场景下各自对应的数据标注集合;
[0011]针对每个场景,基于所述数据标注集合中的不同图片对应的多个标注信息,统计所述数据标注集合对应的M个标注信息类别的数量,进而确定出所述数据标注集合的初始权重;其中,M为大于等于1的整数;
[0012]基于标注信息类别的数量与权重成负相关性,调整所述每个场景下的所述初始权重,得到所述每个场景的所述数据标注集合的采样权重;
[0013]基于所述采样权重,对所述每个场景的所述数据标注集合中的不同图片进行采样,得到样品图片;所述样品图片用于进行训练样本,作用于训练目标检测模型的过程中。
[0014]上述方案中,所述针对每个场景,基于所述数据标注集合中的不同图片对应的多个标注信息,统计所述数据标注集合对应的M个标注信息类别的数量,进而确定出所述数据标注集合的初始权重,包括:
[0015]针对每个场景,根据每个数据标注集合对应的所述多个标注信息,统计出所述每个数据标注集合对应的M个标注信息类别;
[0016]在所述不同图片中统计出,所述M个标注信息类别各自对应的M个数量信息;
[0017]确定所述M个数量信息中的最大数量信息,为所述每个数据标注集合对应的初始权重。
[0018]上述方案中,所述基于标注信息类别的数量与权重成负相关性,调整所述每个场景下的所述初始权重,得到所述每个场景的所述数据标注集合的采样权重,包括:
[0019]基于所述多个场景下各自对应的所述初始权重,计算所述每个数据标注集合对应的权重占比信息;
[0020]将权重占比信息的取负后做指数运算,得到所述每个数据标注集合对应的中间数值;
[0021]基于所述中间数值与第二常数成负相关处理,实现标注信息类别的数量与权重成负相关性,从而计算所述每个数据标注集合对应的所述采样权重;所述第二常数为大于等于1的正整数。
[0022]上述方案中,所述基于所述多个场景下各自对应的所述初始权重,计算所述每个数据标注集合对应的权重占比信息,包括:
[0023]将每个场景的初始权重与所述多个场景下对应的每个初始权重的和相比,得到所述每个场景的所述每个数据标注集合对应的所述权重占比信息。
[0024]上述方案中,所述基于所述中间数值与第二常数负相关处理,实现标注信息类别的数量与权重成负相关性,从而计算所述每个数据标注集合对应的所述采样权重,包括:
[0025]将所述中间数值与预设常数相加,得到次中间数值;
[0026]将所述第二常数与所述次中间数值相比取倒数,实现标注信息类别的数量与权重成负相关性,从而得到所述每个数据标注集合对应的所述采样权重。
[0027]上述方案中,所述基于所述采样权重,对所述每个场景的所述数据标注集合中的不同图片进行采样,得到样品图片,包括:
[0028]将每个场景对应的所述采样权重与所述多个场景下对应的每个采样权重之和相比,得到所述每个场景对应的所述每个数据标注集合对应的采样比例;
[0029]将所述采样比例与预设总样品图片的数量相乘,得到所述每个数据标注集合对应的样品图片的采样数量;
[0030]根据所述采样数量,在所述每个场景对应的所述每个数据标注集合中进行随机采样,得到所述样品图片。
[0031]上述方案中,所述M个标注信息类别各自对应的M个数量信息采用二维数组的形式构建;
[0032]所述确定所述M个数量信息中的最大数量信息,为所述每个数据标注集合对应的初始权重,包括:
[0033]确定M个二维数组对应的所述M个数量信息中的最大数量信息,为所述每个数据标注集合的初始权重。
[0034]上述方案中,所述M个二维数组中的每个二维数组包括:对应的所述每个数据标注集合的编号信息以及对应的标注信息类别的编号信息。
[0035]本公开实施例中还提供了一种数据采样装置,包括:
[0036]数据获取单元,用于获取多个场景下各自对应的数据标注集合;
[0037]权重确定单元,用于针对每个场景,基于所述数据标注集合中的不同图片对应的
多个标注信息,统计所述数据标注集合对应的M个标注信息类别的数量,进而确定出所述数据标注集合的初始权重;其中,M为大于等于1的整数;
[0038]权重调整单元,用于基于标注信息类别的数量与权重成负相关性,调整所述每个场景下的所述初始权重,得到所述每个场景的所述数据标注集合的采样权重;
[0039]采样单元,用于基于所述采样权重,对所述每个场景的所述数据标注集合中的不同图片进行采样,得到样品图片;所述样品图片用于进行训练样本,作用于训练目标检测模型的过程中。
[0040]本公开实施例还提供了一种数据采样装置,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的步骤。
[0041]本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的步骤。
[0042]本公开实施例中,通过获取多个场景下各自对应的数据标注集合;针对每个场景,基于数据标注集合中的不同图片对应的多个标注信息,统计数据标注集合对应的M个标注信息类别的数量,进而确定出数据标注集合的初始权重;其中,M为大于等于1的整数;基于标注信息类别的数量与权重成负相关性,调整每个场景下的初始权重,得到每个场景的数据标注集合的采样权重;基于采样权重,对每个场景的数据标注集合中的不同图片进行采样,得到样品图片;样品图片用于进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种数据采样方法,包括:获取多个场景下各自对应的数据标注集合;针对每个场景,基于所述数据标注集合中的不同图片对应的多个标注信息,统计所述数据标注集合对应的M个标注信息类别的数量,进而确定出所述数据标注集合的初始权重;其中,M为大于等于1的整数;基于标注信息类别的数量与权重成负相关性,调整所述每个场景下的所述初始权重,得到所述每个场景的所述数据标注集合的采样权重;基于所述采样权重,对所述每个场景的所述数据标注集合中的所述不同图片进行采样,得到样品图片;所述样品图片用于进行训练样本,作用于训练目标检测模型的过程中。2.根据权利要求1所述的数据采样方法,其中,所述针对每个场景,基于所述数据标注集合中的不同图片对应的多个标注信息,统计所述数据标注集合对应的M个标注信息类别的数量,进而确定出所述数据标注集合的初始权重,包括:针对每个场景,根据每个数据标注集合对应的所述多个标注信息,统计出所述每个数据标注集合对应的M个标注信息类别;在所述不同图片中统计出,所述M个标注信息类别各自对应的M个数量信息;确定所述M个数量信息中的最大数量信息,为所述每个数据标注集合对应的初始权重。3.根据权利要求1或2所述的数据采样方法,其中,所述基于标注信息类别的数量与权重成负相关性,调整所述每个场景下的所述初始权重,得到所述每个场景的所述数据标注集合的采样权重,包括:基于所述多个场景下各自对应的所述初始权重,计算所述每个数据标注集合对应的权重占比信息;将所述权重占比信息的取负后做指数运算,得到所述每个数据标注集合对应的中间数值;基于所述中间数值与第二常数成负相关处理,实现标注信息类别的数量与权重成负相关性,从而计算所述每个数据标注集合对应的所述采样权重;所述第二常数为大于等于1的正整数。4.根据权利要求3所述的数据采样方法,其中,所述基于所述多个场景下各自对应的所述初始权重,计算所述每个数据标注集合对应的权重占比信息,包括:将每个场景的初始权重与所述多个场景下对应的每个初始权重的和相比,得到所述每个场景的所述每个数据标注集合对应的所述权重占比信息。5.根据权利要求3或4所述的数据采样方法,其中,所述基于所述中间数值与第二常数负相关处理,实现标注信息类别的数量与权重成负相关性,从而计算所述每个数据标注集合对应的所述采样权重,包括:将所述中间数值与预设常数相加,得到次中间数值;将所述第二常数与所述次中间数值相比取倒数,实现标注信息类别的数量与权重成负相关性,从而得到所述每个数据标注集合对应的所述采样权重。6.根据权利要求1

5任一项所述的数据采样方法,其中,所述基于所述采样权重,对所述每个场景的所述数据标注集合中的所述不同图片进行采样,得到样品图片,包括:将每个场景对应的所述采样权重与所述多个场景下对应的每个采样权重之和相比,得
到所述每个场景对应的所述每个数据标注集合对应的采样比例;将所述采样比例与预设总样品图片的数量相乘,得到所述每个数据标注集合对应的样品图片的采样数量;根据所述采样数量,在所述每个场景对应的所述每个数据标注集合中进行随机采样,得到所述样品图片。7.根据权利要求2所述的数据采样方法,其中,所述M个标注信息类别各自对应的M个数量信息采用二维数组的形式构建;所述确定所述M个数量信息中的最大数量信息,为所述每个数据标注集合对应的初始权重,包括:确定M个二维数组对应的所述M个数量信息中的最大数量信息,为所述每个数据标注集合的初始权重。8.根据权利要求7所述的数据采样方法,其中,所述M个二维数组中的每个二维数组包括:对应的所述每个数据标注集合的编号信息以及对应的标注信息类别的编号信息。9.一种数据采样装置,包括:数据获取单元,用于获取多个场景下各自对应的数据标注集合;权重确定单元,用于针对每个场景,基于所述数据标注集合中的不同图片对应的多个标注信息,统计所述数据标注集合对...

【专利技术属性】
技术研发人员:刘春亚
申请(专利权)人:商汤国际私人有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1