【技术实现步骤摘要】
一种数据合成方法、图像处理模型的训练方法及相关装置
[0001]本专利技术涉及数据处理
,尤其是涉及一种数据合成方法、图像处理模型的训练方法及相关装置。
技术介绍
[0002]在图像识别中,数据实际分布的不均衡性会导致采集数据各维度的不均衡性。数据不均衡是经常会面临的问题,不同属性间的数据不均衡会导致属性识别结果更倾向于多数类,而偏离少数类,类内的数据不均衡也会导致数据维度的缺失,导致算法在某些维度的效果较差,从而影响算法的泛化能力,所以数据不均衡影响算法效果的一大难题。但算法的识别效果也不完全由数据量决定,有些易分样本只需少量的数据就能达到比较好的效果。一般来说,靠近特征中心的样本比较容易区分,而靠近特征边界的样本容易错分。
[0003]本申请的专利技术人在长期研发中发现,目前缓解数据不均衡问题的一种常用方法为重采样。但是重采样中的多数类数据随机下采样时,易改变原有数据的分布,且易丢失样本中的有效信息,而少数类数据随机上采样时,易使样本信息重复,导致过拟合,从而导致算法的泛化能力降低。目前已有一些方法可用于缓 ...
【技术保护点】
【技术特征摘要】
1.一种数据合成方法,其特征在于,包括:获取包含第一数量的特征数据的第一特征数据集,以及获取包含第二数量的特征数据的第二特征数据集,所述第一数量小于所述第二数量;基于特征相似度,对所述第一特征数据集的各个特征数据进行划分,得到多个特征数据子集;其中,不同特征数据子集和参考特征数据的相似度不同,所述参考特征数据是基于所述第一特征数据集确定的;基于所述第二数量,对所述多个特征数据子集中各个特征数据子集的特征数据进行合成处理,得到各个特征数据子集的扩展特征数据。2.根据权利要求1所述的方法,其特征在于,所述基于所述第二数量,对所述多个特征数据子集中各个特征数据子集的特征数据进行合成处理,得到各个特征数据子集的扩展特征数据,包括:基于所述第二数量,确定所述各个特征数据子集对应的基础扩展数量;所述基础扩展数量表征针对对应的特征数据子集的扩展特征数据的数量参考值;基于所述各个特征数据子集对应的基础扩展数量,对所述各个特征数据子集中的特征数据进行合成处理,得到各个特征数据子集的扩展的特征数据。3.根据权利要求2所述的方法,其特征在于,所述基于所述第二数量,确定所述各个特征数据子集对应的基础扩展数量,包括:确定所述各个特征数据子集对应的特征密度,以及基于所述第二数量确定所述第一特征数据集对应的扩展数量;所述扩展数量表征所述第一特征数据集的扩展特征数据的数量参考值;基于所述特征密度以及所述扩展数量,确定所述各个特征数据子集对应的基础扩展数量。4.根据权利要求3所述的方法,其特征在于,所述确定所述各个特征数据子集对应的特征密度的步骤包括:确定所述各个特征数据子集中特征数据的第三数量,以及确定所述各个特征数据子集中特征数据的密度;所述密度是基于所述各个特征数据子集中的特征数据的邻域特征确定的;基于所述第三数量以及所述密度,确定所述各个特征数据子集对应的特征密度。5.根据权利要求2所述的数据合成方法,其特征在于,所述基于所述第二数量,对所述多个特征数据子集中各个特征数据子集的特征数据进行合成处理,得到各个特征数据子集的扩展特征数据的步骤,包括:对所述各个特征数据子集对应的基础扩展数量进行加权处理,确定所述各个特征数据子集对应的最终扩展数量,所述最终扩展数量为针对对应的特征数据子集的扩展特征数据的数量确定值;基于所述最终扩展数量,以及所述各个特征数据子集的特征数据的邻域特征,对所述各个特征数据子集的特征数据进行合成处理,得到各个特征数据子集的扩展特征数据。6.根据权利要求1所述的数据合成方法,其特征在于,所述基于特征相似度,对所述第一特征数据集的各个特征数据进行划分,得到多个特征数据子集的步骤,包括:遍历所述第一特征数据集中的所...
【专利技术属性】
技术研发人员:杨永涛,唐邦杰,苏慧,潘华东,殷俊,
申请(专利权)人:浙江大华技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。