【技术实现步骤摘要】
本专利技术属于有监督的深度学习,特别涉及一种基于动态调整多采样区域的低维k中心数据遴选方法及系统,本专利技术结合不确定性和代表性混合采样的主动学习方法,旨在通过从庞大的训练数据集中有效地选择一个训练子集来提高模型的训练效率和维持模型的性能。
技术介绍
1、在有监督深度学习的研究和应用中,高质量的训练数据是确保模型性能和训练效率的关键,特别是在无人驾驶、医疗图像分析和工业瑕疵检测等领域。虽然这些领域拥有海量训练数据,但直接用于训练却面临数据冗余、存在噪声数据以及高昂的标注成本等挑战,这些问题阻碍了模型训练的进行。因此,如何从这些庞大的数据集中筛选出一个有效的训练子集对于提升模型的训练效率和性能至关重要。
2、针对从海量数据中筛选出有效的训练子集,研发人员提出了主动学习方案。主动学习根据模型的训练轨迹,通过选择最有助于提高模型性能的样本来提高模型的学习效率。主动学习方法主要通过不确定性和代表性选择样本。不确定性采样的方法通过模型对样本预测不确定性的反馈,优先挑选不确定性最大的样本。由于这些样本包含的信息量较大,优先选择这些样本可以快速的提高模型的性能,从而提升训练子集的有效性。代表性采样的方法通过度量样本特征的相似性,选择既能代表整个数据集又具有多样化特征表示的样本。确保训练子集能覆盖更广泛的数据空间,从而提高训练子集样本特征的多样性和差异性。
3、不确定性采样的方法容易导致模型反馈偏向性,因为它倾向于选择那些模型当前预测最不确定的样本。这种方法可能导致模型选择非典型的噪声样本和过度集中于特定类型样本,从而忽
4、目前研究人员提出了一种结合不确定性和代表性混合采样的策略,旨在同时利用两种方法的优点:基于不确定性方法的信息增益性和基于特征多样性方法的广泛覆盖能力。尽管结合不确定性和代表性混合采样的方法在一定程度上减少了基于不确定性的方法容易导致模型反馈偏向性和基于特征多样性方法容易忽略决策边界的问题,但由于固定关注不确定性最大的采样区域,无法根据模型的训练轨迹选择不确定性大小与之匹配的采样区域,忽略了其他潜在采样区域内样本的代表性。仅在模型预测不确定性最大的采样区域进行代表性的选择容易导致只关注了局部区域的代表性而忽略了其他潜在采样区域内样本的代表性,从而导致模型不能充分学习及适应整个数据集的分布。
技术实现思路
1、针对现有技术的上述现状,本专利技术成功地解决了传统数据选择方法中只能固定的关注不确定性最大的采样区域,无法根据模型的训练轨迹选择不确定性大小与之匹配的采样区域,忽略了其他采样区域内样本的代表性的问题,提供了一种基于动态调整多采样区域低维k中心数据遴选的方法及系统,本专利技术引入动态调整多采样区域模块和多采样区域内的低维k中心贪婪采样。动态调整多采样区域低维k中心数据遴选策略能够根据模型训练轨迹和样本不确定性灵活调整采样区域,确保不同阶段选择的样本具有高代表性和多样性。多采样区域内的低维k中心贪婪采样方法利用稀疏随机投影技术在低维空间中进行样本选择,减少数据冗余,提升训练子集的多样性和代表性。为从庞大的训练数据集中有效地选择一个训练子集提供了一种更精准、灵活的解决方案。
2、为了达到上述专利技术目的,本专利技术采用以下技术方案:
3、基于动态调整多采样区域的低维k中心数据遴选的方法,包括如下步骤:
4、s1、根据损失预测网络度量未选择训练数据集中样本不确定性;
5、s2、根据样本的不确定性对未选择的训练数据集中的样本进行排序;
6、s3、根据排序后的结果,将未选择训练数据集中样本按不确定性划分为不确定性最大和不确定性渐进多个采样区域;
7、s4、迭代过程中动态调整区域权重来调整不确定性最大和不确定性渐进的采样区域的大小;
8、s5、将多个采样区域内样本特征投影到低维空间;
9、s6、在低维空间中执行k中心贪婪采样,选择出具有代表性(即符合设定条件)的样本添加到训练子集;
10、s7、根据s6中的训练子集训练目标模型和损失预测网络,并根据训练后的损失预测网络,执行s1到s6的遴选过程,直到训练子集样本数量达到预先设定个数时停止迭代。
11、作为优选,步骤s1中:通过引入一个损失预测网络来预测未选择样本集中每个样本uj(uj∈ui)的预测损失具体地,预测损失集合表示为:
12、
13、作为优选,步骤s2中:根据预测损失集合ui,l中每个样本的不确定性对未选择样本集ui中的样本排序得到一个不确定性从低到高排列的有序的未选择样本集
14、作为优选,步骤s3包括以下步骤:
15、s31、不确定性最大的采样区域起始样本的不确定性是通过选择当前未选择样本集中最高不确定性的样本来确定的。具体而言,可以表示为:
16、
17、其中,是向上取整操作,而|ui|代表未选择样本集ui的大小。
18、s32、设定采样区域的大小不确定性最大的采样区域的大小的确定方法是通过区域权重α(t)确定的。具体公式为:
19、
20、其中,每次迭代的样本选择预算为k,m是一个超参数,α(t)是一个区域权重。
21、s33、给定所有样本的不确定性度量集合ui,l和数据集ui,不确定性最大的采样区域则可以表示为:
22、
23、这里,包含在不确定性最高的个样本中。
24、s34、在迭代过程中,不确定性渐进区域是指随着迭代的进行,不确定性逐步从小到大增加的区域。在每一轮迭代中,不确定性渐进的采样区域起始样本的不确定性逐步增大,从低不确定性向高不确定性过渡。不确定性渐进的采样区域起始样本的不确定性可以通过以下公式表示:
25、
26、其中,分位数τ=t/t的计算依赖于当前迭代的轮次t(t=1,2,…,t)和总计划的迭代轮次t。
27、s35、不确定性渐进的采样区域的采样窗口大小的确定方法同样基于动态调节权重α(t),其公式为:
28、
29、s36、给定所有样本的不确定性度量集合ui,l和数据集ui,渐进不确定性渐进的区域可以用以下公式表示:
30、
31、作为优选,步骤s4中:迭代过程中,区域权重a(t)会在每轮迭代中进行动态调整,以调节不确定性最大和不确定性渐进的采样区域的大小。该步骤通过逐步调整采样区域的权重,实现对低不确定性和高不确定性样本之间的平衡。具体的调整公式如下:
32、
33、其中,t是当前迭代的轮次(t=1,2,…,t),t是总计划的迭代轮次,nselected代表已经选择的样本数量,nto本文档来自技高网...
【技术保护点】
1.基于动态调整多采样区域的低维K中心数据遴选的方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于动态调整多采样区域的低维K中心数据遴选的方法,其特征在于,步骤S1中:通过引入一个损失预测网络来预测未选择样本集Ui={u1,u2,…,u|Ui|}中每个样本uj的预测损失为预测损失集合表示为:
3.根据权利要求2所述的基于动态调整多采样区域的低维K中心数据遴选的方法,其特征在于,步骤S2中:根据预测损失集合Ui,l中每个样本的不确定性,对未选择样本集Ui中的样本排序,得到一个不确定性从低到高排列的有序的未选择样本集
4.根据权利要求3所述的基于动态调整多采样区域的低维K中心数据遴选的方法,其特征在于,步骤S3包括以下步骤:
5.根据权利要求4所述的基于动态调整多采样区域的低维K中心数据遴选的方法,其特征在于,步骤S4中:迭代过程中,区域权重α(t)会在每轮迭代中进行动态调整,以调节不确定性最大和不确定性渐进的采样区域的大小,公式如下:
6.根据权利要求5所述的基于动态调整多采样区域的低维K中心数据遴选的方法,其
7.根据权利要求6所述的基于动态调整多采样区域的低维K中心数据遴选的方法,其特征在于,步骤S6包括以下步骤:
8.根据权利要求7所述的基于动态调整多采样区域的低维K中心数据遴选的方法,其特征在于,步骤S7中:根据步骤S6的训练子集Li+1训练目标模型Mtiask和损失预测网络并根据训练后的损失预测网络执行步骤S1到步骤S6的遴选过程,直到训练子集样本数量达到预先设定B个时,停止迭代。
9.基于动态调整多采样区域的低维K中心数据遴选的系统,基于权利要求1-8任一项所述的方法,其特征在于,包括如下模块:
...【技术特征摘要】
1.基于动态调整多采样区域的低维k中心数据遴选的方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于动态调整多采样区域的低维k中心数据遴选的方法,其特征在于,步骤s1中:通过引入一个损失预测网络来预测未选择样本集ui={u1,u2,…,u|ui|}中每个样本uj的预测损失为预测损失集合表示为:
3.根据权利要求2所述的基于动态调整多采样区域的低维k中心数据遴选的方法,其特征在于,步骤s2中:根据预测损失集合ui,l中每个样本的不确定性,对未选择样本集ui中的样本排序,得到一个不确定性从低到高排列的有序的未选择样本集
4.根据权利要求3所述的基于动态调整多采样区域的低维k中心数据遴选的方法,其特征在于,步骤s3包括以下步骤:
5.根据权利要求4所述的基于动态调整多采样区域的低维k中心数据遴选的方法,其特征在于,步骤s4...
【专利技术属性】
技术研发人员:宋瑛沛,郭春生,应娜,陈华华,叶学义,
申请(专利权)人:杭州电子科技大学平湖数字技术创新研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。