【技术实现步骤摘要】
一种基于数据库索引技术的主动学习训练加速方法及系统
[0001]本专利技术涉及了一种主动学习训练加速方法,涉及人工智能
AI
数据库索引
,具体涉及一种基于数据库索引技术的主动学习训练加速方法及系统
。
技术介绍
[0002]近年来,深度神经网络在各个领域取得了引人瞩目的进展,并成为许多任务的核心技术
。
然而,这些深度神经网络的训练通常要求大量高质量标注数据,以实现最佳性能
。
以
ChatGPT
为例,其完整训练需要数千万级别的语料库
。
尽管当前已经存在一些用于深度学习模型训练的大型数据集,但这些数据集的质量和数量仍然无法满足深度神经网络模型训练的需求
。
因此,主动学习作为一种能够通过有效选择和标注最有价值样本的技术,已广泛应用于深度学习模型训练中,以降低标注成本并提高模型性能
。
[0003]主动学习作为一种有效的学习范式,通过有针对性地选择最有信息价值的样本进行标注,以减少标注成本并提高模型性能
。
在主动学习中,样本选择的关键是能够快速有效地找到对当前模型训练最有效的样本
。
近年来,研究者们提出了许多适用于主动学习的方法和技术,以改进样本选择的效率和性能
。
[0004]目前,对主动学习的研究虽然取得了一定的成果,但在处理大规模数据集时,传统的样本选择方法面临一些问题需要解决:
[0005]1.
重复训练问题:在传 ...
【技术保护点】
【技术特征摘要】
1.
一种基于数据库索引技术的主动学习训练加速方法,其特征在于,包括:步骤
1)
建立主动学习训练加速模型,主动学习训练加速模型包括样本特征提取模块
、
主动学习评价模块
、
高性能索引模块和集成主动学习算法模块;步骤
2)
将各个未训练样本和已训练样本输入样本特征提取模块中,样本特征提取模块输出各个未训练样本和已训练样本的特征向量;步骤
3)
将各个未训练样本和已训练样本的特征向量输入主动学习评价模块中,主动学习评价模块输出各个未训练样本的样本评分,通过调用高性能索引模块对各个未训练样本的样本评分从高到低进行排序;步骤
4)
高性能索引模块对各个未训练样本的样本评分进行保存,同时高性能索引模块进行各个未训练样本的样本评分的排序次序关系维护;步骤
5)
集成主动学习算法模块通过调用高性能索引模块对各个未训练样本进行预筛选获得若干边界样本,然后集成主动学习算法模块使用主动学习算法在各个边界样本中挑选出若干待训练样本,将各个待训练样本输入待训练的深度学习模型中进行训练;步骤
6)
重复步骤
1)
‑
5)
直至训练完成
。2.
根据权利要求1所述的基于数据库索引技术的主动学习训练加速方法,其特征在于:所述的步骤
2)
中,样本特征提取模块具体为自监督
DINO
模型
。3.
根据权利要求1所述的基于数据库索引技术的主动学习训练加速方法,其特征在于:所述的步骤
3)
中,将各个未训练样本和已训练样本的特征向量输入主动学习评价模块中,主动学习评价模块首先使用
k
最近邻
KNN
算法进行检索并挑选出每个已训练样本的特征向量的最近邻的未训练样本的特征向量,然后获得每个未训练样本的特征向量被选中的频次作为各自的样本评分;在主动学习评价模块初始化阶段,每个未训练样本的特征向量的初始样本评分为0,随后每轮训练均对每个未训练样本的特征向量的样本评分进行迭代更新,具体如下:其中,和分别表示当前迭代更新和上一次迭代更新的未训练样本的特征向量的样本评分;
x
i
和
x
′
i
分别表示已训练样本的特征向量及其经
k
最近邻
KNN
算法挑选出的最近邻的未训练样本的特征向量;
D
labeled
表示已训练样本的特征向量的集合
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。