【技术实现步骤摘要】
一种大模型非时序训练数据质量评价方法
[0001]本专利技术属于数据集的质量评价领域,主要涉及一种大模型非时序训练数据质量评价方法
。
技术介绍
[0002]随着人工智能技术的发展,大模型(如
GPT、BERT
等)在各个领域都展现出了强大的能力和潜力
。
这些大模型的训练依赖于大量的数据,数据的质量直接影响了模型的性能和效果
。
然而,大模型预训练数据集的来源多样,包括网页
、
社交媒体
、
新闻
、
百科等,这些数据往往存在噪声
、
偏差
、
重复
、
错误等问题,导致数据集的质量难以保证
。
目前,对于大模型训练数据集的质量评价还缺乏足够的关注和研究,很多数据集没有公开或者没有经过充分的验证
。
这对于大模型训练带来了很大的挑战,因为大模型训练难度大,训练周期长,低质量的数据集会影响大模型的性能进而造成时间和金钱的浪费
。
因此,开展大模型训练数据集评价是很有必要的,它可以筛选出高质量的数据集,提高大模型训练的效率和效果,促进人工智能技术的发展和应用
。
[0003]现有技术中,主流的数据质量评价的方法可分为两大类
:1)
定量方法
;2)
定性方法
。
常用的定量方法有统计分析
、
实验研究和实证评价,大多仅仅聚焦于数据的完整性和准确 ...
【技术保护点】
【技术特征摘要】
1.
一种大模型非时序训练数据质量评价方法,其特征在于,包括以下步骤:步骤
1、
收集原始数据集,根据原始数据集的总量
、
数据类分布情况
、
数据实时性三个方面对数据集进行宏观评价;步骤
2、
对数据集进行微观评价前,对原始数据集进行标签重排列,形成实验数据集:将原始数据集按照标签进行分组,并将分组后各组的数据样本标签进行随机交换,与其他组的样本特征组合得到新的实验数据集,所述标签为需要进行分类的具体类别;步骤
3、
进行相关系数测试:计算标签重排列所形成的实验数据集各个特征与标签之间的斯皮尔曼相关系数,对特征与标签的关联强度进行评价,并观察随着标签重排列比例的上升,斯皮尔曼相关系数的变化趋势;步骤
4、
性能表现测试前,采用分层抽样的方法对标签重排列所形成的新的数据集进行样本抽取,形成所需的训练集与测试集;步骤
5、
进行性能表现测试:通过上述分层抽样所形成的训练集与测试集在由
K
近邻
、
支持向量机
、
决策树
、
随机森林四种
ML
分类算法分类器池上的性能表现,对特征与标签之间的关联性进行验证;步骤
S6、
若观察到随着标签重排列比例的上升,性能指标随之下降后,计算各个特征对模型性能下降贡献度,得出数据集质量评价结果
。2.
根据权利要求1所述的大模型非时序训练数据质量评价方法,其特征在于,步骤1中,所述宏观评价包括:
S1.1、
对数据集的数据总量进行统计,确保数据集包含的样本总数达到需要的规模;
S1.2、
对数据集的类分布情况进行检查,确保数据类别分布平衡,使样本数据量最少的类的数据量和样本数据量最多的类的数据量相比,数据量差值不高于预设;
S1.3、
对数据进行实时性进行分析,基于数据的时效性,使数据集上传时间与数据集采集时间的间隔在预设时间内
。3.
根据权利要求2所述的大模型非时序训练数据质量评价方法,其特征在于,步骤2中标签重排列方法包括:通过标签重排列打乱原始数据集,将各个组别的标签与其他组别的特征值进行组合,按照标签的具体类别将得到的数据集分为
Group 1、Group 2、Group 3 ......Group n
,设定评估过程中的排列比例,从各组数据样本中依次抽取所述排列比例的标签进行随机交换,与其他组的样本特征组合得到新的实验数据集
。4.
根据权利要求3所述的大模型非时序训练数据质量评价方法,其特征在于,步骤3在相关系数测试时,使用斯皮尔曼相关系数作为相关系数测试的评价指标,计算过程如下:假设待评估实验数据集包含
n
个样本,特征变量
X
和标签变量
Y
的观测值分别为:
;
在特征变量
X
和标签变量
Y
的观测值中,
x
i
为样本
i
的特征变量,
y
i
为样本
i
的标签变量,
i=1,2...n
;则对应的秩为
:
;
在特征变量
X
和标签变量
Y
对应秩中,和表示样本
x
i
和
y
i
的秩;特征与标签之间的斯皮尔曼相关系数的计算公式为
:;
其中,
n
表示的是样本量,表示第
i
个样本特征变量
X
的秩与标签变量
Y
的秩之间的差值,表示每个样本的秩差的平方和
。5.
根据权利要求4所述的大模型非时序训练数据质量...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。