【技术实现步骤摘要】
本申请涉及大模型技术、模型训练领域,具体而言,涉及一种模型处理方法、电子设备及存储设备。
技术介绍
1、目前,在数据采样时主要依赖于外部监督,例如,人工或更先进的大模型,但是,在对大规模数据进行采样的成本较高且效率低下,由于数据采集过程中耗费大量时间,因此导致模型整体训练的训练效率较低。
2、针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
1、本申请实施例提供了一种模型处理方法、电子设备及存储设备,以至少解决相关技术中模型的训练效率较低的技术问题。
2、根据本申请实施例的一个方面,提供了一种模型处理方法,包括:获取原始训练数据集;利用原始训练数据集中的第一训练数据集对初始机器学习模型进行训练,得到第一机器学习模型;基于第一机器学习模型的表征空间,从第二训练数据集中选取目标训练数据,其中,表征空间用于表征第一机器学习模型输出的特征向量所在的空间,第二训练数据集由原始训练数据集中除第一训练数据集之外的训练数据构成;基于目标训练数据和第一训练数据集对第一机器学
...【技术保护点】
1.一种模型处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,基于所述第一机器学习模型的表征空间,从第二训练数据集中选取目标训练数据,包括:
3.根据权利要求2所述的方法,其特征在于,基于所述表征空间,确定所述第二训练数据集包含的训练数据与所述第一训练数据集之间的目标距离,包括:
4.根据权利要求3所述的方法,其特征在于,基于所述第一特征向量集和所述第二特征向量集,确定所述目标距离,包括:
5.根据权利要求4所述的方法,其特征在于,基于所述第二训练数据集包含的任意一个训练数据与所述第一训练数据集包含
...【技术特征摘要】
1.一种模型处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,基于所述第一机器学习模型的表征空间,从第二训练数据集中选取目标训练数据,包括:
3.根据权利要求2所述的方法,其特征在于,基于所述表征空间,确定所述第二训练数据集包含的训练数据与所述第一训练数据集之间的目标距离,包括:
4.根据权利要求3所述的方法,其特征在于,基于所述第一特征向量集和所述第二特征向量集,确定所述目标距离,包括:
5.根据权利要求4所述的方法,其特征在于,基于所述第二训练数据集包含的任意一个训练数据与所述第一训练数据集包含的至少一个训练数据之间的所述第一距离,确定所述任意一个训练数据与所述第一训练数据集之间的第二距离,包括:
6.根据权利要求4所述的方法,其特征在于,获取所述第二训练数据集包含的至少一个训练数据与所述第一训练数据集之间的所述第二距离,确定所述目标距离,包括:
7.根据权利要求2所述的方法,其特征在于,基于所述表征...
【专利技术属性】
技术研发人员:吴胜广,陆柯铭,徐本峰,林俊旸,苏祺,周畅,
申请(专利权)人:阿里巴巴中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。