当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于数据库索引技术的主动学习训练加速方法及系统技术方案

技术编号:39845092 阅读:6 留言:0更新日期:2023-12-29 16:42
本发明专利技术公开了一种基于数据库索引技术的主动学习训练加速方法及系统

【技术实现步骤摘要】
一种基于数据库索引技术的主动学习训练加速方法及系统


[0001]本专利技术涉及了一种主动学习训练加速方法,涉及人工智能
AI
数据库索引
,具体涉及一种基于数据库索引技术的主动学习训练加速方法及系统


技术介绍

[0002]近年来,深度神经网络在各个领域取得了引人瞩目的进展,并成为许多任务的核心技术

然而,这些深度神经网络的训练通常要求大量高质量标注数据,以实现最佳性能


ChatGPT
为例,其完整训练需要数千万级别的语料库

尽管当前已经存在一些用于深度学习模型训练的大型数据集,但这些数据集的质量和数量仍然无法满足深度神经网络模型训练的需求

因此,主动学习作为一种能够通过有效选择和标注最有价值样本的技术,已广泛应用于深度学习模型训练中,以降低标注成本并提高模型性能

[0003]主动学习作为一种有效的学习范式,通过有针对性地选择最有信息价值的样本进行标注,以减少标注成本并提高模型性能

在主动学习中,样本选择的关键是能够快速有效地找到对当前模型训练最有效的样本

近年来,研究者们提出了许多适用于主动学习的方法和技术,以改进样本选择的效率和性能

[0004]目前,对主动学习的研究虽然取得了一定的成果,但在处理大规模数据集时,传统的样本选择方法面临一些问题需要解决:
[0005]1.
重复训练问题:在传统的深度学习模型训练中,由于存在许多相似的数据样本,模型可能会进行大量的重复训练,这导致难以有效地检索到对模型更有用的样本

因此,需要开发更加智能和高效的样本选择策略,以优化模型的训练效率和性能

[0006]2.
低效的数据扫描和位置调整:传统的主动学习样本选择方法在大规模数据集中可能面临低效的数据扫描和数据位置调整问题

这会导致在大规模数据集上的训练效率下降,同时也增加了训练过程中的计算成本

[0007]3.
维护开销:当数据索引需要进行大范围的更新时,比如数据的添加或删除,涉及到数据的移动和重新排序,这会给数据集的维护带来显著的开销

因此,需要提出更加高效的数据索引和更新方法,以降低维护成本并保持数据集的稳定性

[0008]传统的深度学习模型训练流程中,会使用大量相似的数据样本,模型会基于此大量重复训练,导致难以获得最佳效果,其次传统的主动学习样本选择方法在大规模数据集中可能面临低效的数据扫描和数据位置调整问题

这会导致在大规模数据集上的训练效率下降,同时也增加了训练过程中的计算成本


技术实现思路

[0009]为了解决
技术介绍
中存在的问题,本专利技术所提供一种基于数据库索引技术的主动学习训练加速方法及系统

[0010]本专利技术采用的技术方案是:
[0011]一

一种基于数据库索引技术的主动学习训练加速方法,包括:
[0012]步骤
1)
建立主动学习训练加速模型,主动学习训练加速模型包括样本特征提取模块

主动学习评价模块

高性能索引模块和集成主动学习算法模块

[0013]步骤
2)
将各个未训练样本和已训练样本输入样本特征提取模块中,样本特征提取模块输出各个未训练样本和已训练样本的特征向量

[0014]步骤
3)
将各个未训练样本和已训练样本的特征向量输入主动学习评价模块中,主动学习评价模块输出各个未训练样本的样本评分,通过调用高性能索引模块对各个未训练样本的样本评分从高到低进行排序

[0015]步骤
4)
高性能索引模块对各个未训练样本的样本评分进行保存,同时高性能索引模块进行各个未训练样本的样本评分的排序次序关系维护

[0016]步骤
5)
集成主动学习算法模块通过调用高性能索引模块对各个未训练样本进行预筛选获得若干边界样本,然后集成主动学习算法模块使用主动学习算法在各个边界样本中挑选出若干待训练样本,将各个待训练样本输入待训练的深度学习模型中进行训练

[0017]步骤
6)
重复步骤
1)

5)
直至训练完成

[0018]所述的步骤
2)
中,样本特征提取模块具体为自监督
DINO(DETR withImproved deNoising anchOr boxes)
模型

在进行样本特征提取前需先对训练样本进行统一常规的预处理操作

[0019]所述的步骤
3)
中,将各个未训练样本和已训练样本的特征向量输入主动学习评价模块中,主动学习评价模块首先使用
k
最近邻
KNN(k

Nearest Neighbors)
算法进行检索并挑选出每个已训练样本的特征向量的最近邻的未训练样本的特征向量,然后获得每个未训练样本的特征向量被选中的频次作为各自的样本评分

[0020]在主动学习评价模块初始化阶段,每个未训练样本的特征向量的初始样本评分为0,
{{S

x
}
init
=0,
x

∈D
unlabeld
}
,随后每轮训练均对每个未训练样本的特征向量的样本评分进行迭代更新,具体如下:
[0021][0022]其中,和分别表示当前迭代更新和上一次迭代更新的未训练样本的特征向量的样本评分;
x
i

x

i
分别表示已训练样本的特征向量及其经
k
最近邻
KNN
算法挑选出的最近邻的未训练样本的特征向量;
D
labeled
表示已训练样本的特征向量的集合

[0023]所述的步骤
4)
中,高性能索引模块包括半有序索引结构和状态信息记录表,半有序索引结构中包括若干数据块,各个数据块之间保持有序关系;每个数据块中保存若干条数据项,各个数据项之间保持无序关系,每个数据项包括一个未训练样本及其样本评分;当向索引插入数据时,会从索引首部,依次遍历各个数据块,找到第一个数据位于该块存储范围的数据块,然后将数据存入块内空闲位置

[0024]状态信息记录表中记录了每个数据块中的每个数据项的状态信息,即每个未训练样本的特征向量所处的更新状态,更新状态包括未训练样本的特征向量的样本评分正在被更新
、<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于数据库索引技术的主动学习训练加速方法,其特征在于,包括:步骤
1)
建立主动学习训练加速模型,主动学习训练加速模型包括样本特征提取模块

主动学习评价模块

高性能索引模块和集成主动学习算法模块;步骤
2)
将各个未训练样本和已训练样本输入样本特征提取模块中,样本特征提取模块输出各个未训练样本和已训练样本的特征向量;步骤
3)
将各个未训练样本和已训练样本的特征向量输入主动学习评价模块中,主动学习评价模块输出各个未训练样本的样本评分,通过调用高性能索引模块对各个未训练样本的样本评分从高到低进行排序;步骤
4)
高性能索引模块对各个未训练样本的样本评分进行保存,同时高性能索引模块进行各个未训练样本的样本评分的排序次序关系维护;步骤
5)
集成主动学习算法模块通过调用高性能索引模块对各个未训练样本进行预筛选获得若干边界样本,然后集成主动学习算法模块使用主动学习算法在各个边界样本中挑选出若干待训练样本,将各个待训练样本输入待训练的深度学习模型中进行训练;步骤
6)
重复步骤
1)

5)
直至训练完成
。2.
根据权利要求1所述的基于数据库索引技术的主动学习训练加速方法,其特征在于:所述的步骤
2)
中,样本特征提取模块具体为自监督
DINO
模型
。3.
根据权利要求1所述的基于数据库索引技术的主动学习训练加速方法,其特征在于:所述的步骤
3)
中,将各个未训练样本和已训练样本的特征向量输入主动学习评价模块中,主动学习评价模块首先使用
k
最近邻
KNN
算法进行检索并挑选出每个已训练样本的特征向量的最近邻的未训练样本的特征向量,然后获得每个未训练样本的特征向量被选中的频次作为各自的样本评分;在主动学习评价模块初始化阶段,每个未训练样本的特征向量的初始样本评分为0,随后每轮训练均对每个未训练样本的特征向量的样本评分进行迭代更新,具体如下:其中,和分别表示当前迭代更新和上一次迭代更新的未训练样本的特征向量的样本评分;
x
i

x

i
分别表示已训练样本的特征向量及其经
k
最近邻
KNN
算法挑选出的最近邻的未训练样本的特征向量;
D
labeled
表示已训练样本的特征向量的集合
...

【专利技术属性】
技术研发人员:侯捷伍赛陈刚
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1