The present application provides a sample data generation method and a device, a training model method and a device, wherein the sample data generation method includes: acquiring a sample picture containing multiple target categories; determining the first target category in which the distribution proportion in the sample picture is less than the first preset proportion, and/or the distribution proportion. The second target class whose ratio is larger than the second preset proportion, traverses the sample image according to the preset window size to generate the slices to be analyzed, and determines the sample data from the slices to be analyzed according to the preset screening conditions, so that the obtained sample data meets the following conditions: for the case based on the first target class, The proportion of sample data containing the first target category in the sample data increases, and the proportion of sample data containing the second target category in the sample data decreases when the second target category is selected as the basis. This application avoids the problem of data imbalance and improves the accuracy of model training by constructing balanced data.
【技术实现步骤摘要】
样本数据生成方法及装置、训练模型的方法及装置
本申请涉及数据处理
,具体而言,涉及一种样本数据生成方法及装置、训练模型的方法及装置。
技术介绍
对于机器学习,尤其是深度学习而言,大多数算法的运行均需要以大量的样本数据为基础。样本数据的丰富程度及准确性对于机器学习具有非常重要的意义。例如,基于深度学习实现的语义分割需要使用大量的样本数据对神经网络模型进行训练,才能使训练后的神经网络模型能够获得较好的语义分割结果。其中,上述样本数据可以包括:大量的样本图片以及对样本图片内的物体按照物体类别进行精确语义分割后的图片。尽管上述样本图片的数据量特别的大,但是,某类样本数据数量明显少于其他类样本数据数量,这种不平衡数据在研究工作中往往难以避免。上述数据不平衡现象与数据获取方式有着必然的联系,在相关技术中,不同的应用场景将获取到不同的原始图片集,且该原始图片集中的原始图片的尺寸通常非常大而无法匹配神经网络模型的尺寸,一般会对上述原始图片按照预设窗口大小进行遍历,以切片得到对应于原始图片集的样本数据。然而,相关技术中由于无目的地进行图片切分以进行数据的获取,数据不平衡问题严 ...
【技术保护点】
1.一种样本数据生成方法,其特征在于,所述方法包括:获取样本图片,所述样本图片中包含多个目标类别;确定所述样本图片中分布占比小于第一预设占比的第一目标类别,和/或分布占比大于第二预设占比的第二目标类别;按照预设窗口大小对所述样本图片进行遍历,生成待分析切片;按照预设筛选条件从待分析切片中确定样本数据,使得得到的样本数据符合如下条件:针对以第一目标类别为筛选依据的情况,样本数据中包含第一目标类别的样本数据比例增多;针对以第二目标类别为筛选依据的情况,样本数据中包含第二目标类别的样本数据比例减少。
【技术特征摘要】
1.一种样本数据生成方法,其特征在于,所述方法包括:获取样本图片,所述样本图片中包含多个目标类别;确定所述样本图片中分布占比小于第一预设占比的第一目标类别,和/或分布占比大于第二预设占比的第二目标类别;按照预设窗口大小对所述样本图片进行遍历,生成待分析切片;按照预设筛选条件从待分析切片中确定样本数据,使得得到的样本数据符合如下条件:针对以第一目标类别为筛选依据的情况,样本数据中包含第一目标类别的样本数据比例增多;针对以第二目标类别为筛选依据的情况,样本数据中包含第二目标类别的样本数据比例减少。2.根据权利要求1所述的方法,其特征在于,针对以第一目标类别为筛选依据的情况,按照预设筛选条件从待分析切片中确定样本数据,包括:确定待分析切片中所包含的第一目标类别在该待分析切片中的分布占比;若确定的分布占比大于第一预设切片占比,则将该待分析切片确定为样本数据。3.根据权利要求1所述的方法,其特征在于,针对以第二目标类别为筛选依据的情况,按照预设筛选条件从待分析切片中确定样本数据,包括:确定待分析切片中所包含的第二目标类别在该待分析切片中的分布占比;若确定的分布占比小于第二预设切片占比,则将该待分析切片确定为样本数据。4.根据权利要求1-3任一项所述的方法,其特征在于,还包括:对所述样本图片中的像素进行标注,得到标注图;其中,构成同一目标类别的像素具有相同的标注值;根据所述标注图中不同目标类别对应的不同标注值,确定各目标类别在所述样本图片中的分布占比。5.根据权利要求4所述的方法,其特征在于,针对样本图片数量大于一的情况,根据所述标注图中不同目标类别对应的不同标注值,确定各目标类别在所述样本图片中的分布占比,包括:针对不同目标类别,将该目标类别对应标注值在各样本图片分别对应的标注图中的总数量,与各样本图片分...
【专利技术属性】
技术研发人员:刘萌,夏珺峥,李长升,孙源良,
申请(专利权)人:国信优易数据有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。