机器学习数据索引结构的自适应结构调整方法及系统技术方案

技术编号:24574850 阅读:29 留言:0更新日期:2020-06-21 00:14
本发明专利技术提供了一种机器学习数据索引结构的自适应结构调整方法及系统,包括:选取节点步骤:按照预设的节点编号顺序逐个选取机器学习数据索引结构中的节点;分析节点步骤:分析选取得的节点,根据节点中缓存数据量和误差范围大小执行对应的结构调整操作:若节点中缓存数据量或节点内机器学习模型的预测误差过大,则执行节点分裂步骤;若节点与其相邻节点中的缓存数据量及误差范围都过小,则两节点执行节点合并步骤;否则,则结束流程。本发明专利技术提供细粒度的机器学习索引结构调整方法,相比对全部数据重新训练,能减少重新训练模型的个数,避免结构调整时对不相关模型和缓存的性能影响。

Adaptive structure adjustment method and system for index structure of machine learning data

【技术实现步骤摘要】
机器学习数据索引结构的自适应结构调整方法及系统
本专利技术涉及数据存储系统数据索引领域,具体地,涉及机器学习数据索引结构的自适应结构调整方法及系统。
技术介绍
在如今的大数据时代,数据规模愈发庞大,数据库被越来越多地运用,并且也在这个过程中不断遇到新的挑战,主要包括对低延时,高吞吐索引的更高要求等。索引是从数据库原始数据派生出来的附加结构,包括许多关键词,每个关键词指向一项数据,索引可以快速地查询某个关键词对应的数据,在数据库中可以利用索引加速数据查询。机器学习研究如何通过算法与统计学模型使计算机系统基于对模式的观察与推断可以不需要人为提供指示而可以有效地进行某项具体任务。按照学习形式的不同,机器学习可以分为监督学习、无监督学习、半监督学习、增强学习等等。其具体算法又包括线性回归、支持向量机、决策树、深度神经网络等等。近年来,机器学习因其强大的学习、推理、规划等能力,被广泛应用于包括数据库在内的各个领域。机器学习为数据库提供了新的发展机遇,甚至替代数据库中的部分组件。机器学习和索引的结合应运而生。2018年,谷歌提出机器学习索引本文档来自技高网...

【技术保护点】
1.一种机器学习数据索引结构的自适应结构调整方法,其特征在于,包括:/n选取节点步骤:按照预设的节点编号顺序逐个选取机器学习数据索引结构中的节点;/n分析节点步骤:分析选取得的节点,根据节点中缓存数据量和误差范围大小执行对应的结构调整操作:若节点中缓存数据量或节点内机器学习模型的预测误差过大,则执行节点分裂步骤;若节点与其相邻节点中的缓存数据量及误差范围都过小,则两节点执行节点合并步骤;否则,则结束流程。/n节点分裂步骤:将原节点数据范围分为两部分,分配两个新节点管理,两个新节点根据各自分配的数据范围将原节点数组和缓存中的数据拷贝入各自的数组中,执行重新训练步骤。/n节点合并步骤:将两个原节点...

【技术特征摘要】
1.一种机器学习数据索引结构的自适应结构调整方法,其特征在于,包括:
选取节点步骤:按照预设的节点编号顺序逐个选取机器学习数据索引结构中的节点;
分析节点步骤:分析选取得的节点,根据节点中缓存数据量和误差范围大小执行对应的结构调整操作:若节点中缓存数据量或节点内机器学习模型的预测误差过大,则执行节点分裂步骤;若节点与其相邻节点中的缓存数据量及误差范围都过小,则两节点执行节点合并步骤;否则,则结束流程。
节点分裂步骤:将原节点数据范围分为两部分,分配两个新节点管理,两个新节点根据各自分配的数据范围将原节点数组和缓存中的数据拷贝入各自的数组中,执行重新训练步骤。
节点合并步骤:将两个原节点数据范围合并,分配一个新节点管理。新节点将两个原节点数组和缓存中的数据拷贝入自己的数组中,执行重新训练步骤。
重新训练步骤:根据新节点中的数据重新训练机器学习模型。训练完成后执行节点生效步骤。
节点生效步骤:将根节点中保存的原节点指针和原节点的数据范围对应修改为新节点指针和新节点的数据范围。新节点生效,结束流程。


2.根据权利要求1所述的机器学习数据索引结构的自适应结构调整方法,其特征在于,所述缓存数据量和误差范围均有指定的上限阈值与下限阈值,若节点的缓存数据量或误差范围大于该上限阈值则视为缓存数据量或误差范围过大,缓存数据量和误差范围都小于该下限阈值则视为缓存数据量和误差范围都过小。


3.根据权利要求1所述的机器学习数据索引结构的自适应结构调整方法,其特征在于,所述的节点分裂步骤和节点合并步骤从开始直到节点调整完成时,需要并发控制保证该区间内操作的原子性。


4.根据权利要求1所述的机器学习数据索引结构的自适应结构调整方法,其特征在于,所述的节点保存特定范围的有序数据以及从该范围内数据训练得到的机器学习模型,根节点保存指向其他节点的指针以及其他节点的数据范围。


5.根据权利要求1所述的机器学习数据索引结构的自适应结构调整方法,其特征在于,所述数据主要存储于数组中;新插入数据暂时存储于缓存中,之后写入数组。

【专利技术属性】
技术研发人员:王肇国王友运唐楚哲董致远胡淦森陈海波
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1