一种大模型非时序训练数据质量评价方法技术

技术编号:39657708 阅读:23 留言:0更新日期:2023-12-09 11:26
本发明专利技术公开了一种大模型非时序训练数据质量评价方法,从宏观与微观两个角度出发对大模型预训练数据集的质量做出评价

【技术实现步骤摘要】
一种大模型非时序训练数据质量评价方法


[0001]本专利技术属于数据集的质量评价领域,主要涉及一种大模型非时序训练数据质量评价方法


技术介绍

[0002]随着人工智能技术的发展,大模型(如
GPT、BERT
等)在各个领域都展现出了强大的能力和潜力

这些大模型的训练依赖于大量的数据,数据的质量直接影响了模型的性能和效果

然而,大模型预训练数据集的来源多样,包括网页

社交媒体

新闻

百科等,这些数据往往存在噪声

偏差

重复

错误等问题,导致数据集的质量难以保证

目前,对于大模型训练数据集的质量评价还缺乏足够的关注和研究,很多数据集没有公开或者没有经过充分的验证

这对于大模型训练带来了很大的挑战,因为大模型训练难度大,训练周期长,低质量的数据集会影响大模型的性能进而造成时间和金钱的浪费

因此,开展大模型训练数据集评价是很有必要的,它可以筛选出高质量的数据集,提高大模型训练的效率和效果,促进人工智能技术的发展和应用

[0003]现有技术中,主流的数据质量评价的方法可分为两大类
:1)
定量方法
;2)
定性方法

常用的定量方法有统计分析

实验研究和实证评价,大多仅仅聚焦于数据的完整性和准确性,以确定它们是否达到质量标准,缺乏对数据集内部结构的深刻评价

定性方法常见的有审查数据源头,采访主要采集者和考察数据采集环境等,然而机器学习所需的数据集相当庞大,使用定性方法评估质量通常是不现实的

故而目前仍然缺少一种全面且实用的流量数据集评价方法


技术实现思路

[0004]本专利技术所要解决的问题是:提供一种大模型非时序训练数据质量评价方法,用于解决大模型预训练数据规模大

来源多样,数据质量难以评价的问题

[0005]本专利技术采用如下技术方案:一种大模型非时序训练数据质量评价方法,包括以下步骤:步骤
1、
收集原始数据集,根据原始数据集的总量

数据类分布情况

数据实时性三个方面对数据集进行宏观评价;步骤
2、
对原始数据集进行进行标签重排列,形成实验数据集:将原始数据集按照标签进行分组,并将分组后各组的数据样本标签进行随机交换,与其他组的样本特征组合得到新的实验数据集,所述标签为需要进行分类的具体类别;步骤
3、
进行相关系数测试:计算标签重排列所形成的实验数据集各个特征与标签之间的斯皮尔曼相关系数,对特征与标签的关联强度进行评价,并观察随着标签重排列比例的上升,斯皮尔曼相关系数的变化趋势;步骤
4、
采用分层抽样的方法对标签重排列所形成的新的数据集进行样本抽取,形成所需的训练集与测试集;
步骤
5、
进行性能表现测试:通过上述分层抽样所形成的训练集与测试集在由
K
近邻

支持向量机

决策树

随机森林四种
ML
分类算法分类器池上的性能表现,对特征与标签之间的关联性进行验证;步骤
6、
若观察到随着标签重排列比例的上升,性能指标随之下降后,计算各个特征对模型性能下降贡献度,得出数据集质量评价结果

[0006]具体的,步骤1中,宏观评价包括:
S1.1、
对数据集的数据总量进行统计,确保数据集包含的样本总数达到需要的规模;
S1.2、
对数据集的类分布情况进行检查,确保数据类别分布平衡,使样本数据量最少的类的数据量和样本数据量最多的类的数据量相比,数据量差值不高于预设;
S1.3、
对数据进行实时性进行分析,基于数据的时效性,数据集上传时间与数据集采集时间的间隔在预设时间内

[0007]步骤2中,标签重排列方法包括:通过标签重排列打乱原始数据集,将各个组别的标签与其他组别的特征值进行组合,按照标签的具体类别,将得到的数据集分为
Group 1、Group 2、Group3 ......Group n
,设定评估过程中的排列比例,从各组数据样本中依次抽取所述排列比例的标签进行随机交换,与其他组的样本特征组合得到新的实验数据集

[0008]步骤3在相关系数测试时,使用斯皮尔曼相关系数作为相关系数测试的评价指标,计算过程如下:假设待评估数据集包含
n
个样本,特征变量
X
和标签变量
Y
的观测值分别为:
;
在特征变量
X
和标签变量
Y
的观测值中,
x
i
为样本
i
的特征变量,
y
i
为样本
i
的标签变量,
i=1,2...n
;则对应的秩为
:;
在特征变量
X
和标签变量
Y
对应秩中,和表示样本
x
i

y
i
的秩;特征与标签之间的斯皮尔曼相关系数的计算公式为
:;
其中,
n
表示的是样本量,表示第
i
个样本特征变量
X
的秩与标签变量
Y
的秩之间的差值,表示每个样本的秩差的平方和

[0009]步骤3相关系数测试,方法包括如下子步骤:
S3.1、
假设数据集由
m
个特征,计算原数据集各特征与标签的斯皮尔曼相关系数
P
j

S3.2、
按照标签重排列过程,对待评价数据集进行标签打乱;
S3.3、
对于每个标签重排列比例下特征与标签的相关系数进行多次计算,每次计算所使用的数据集的标签重排列百分比相同,但排列次序各不相同,在该排列比例下形成了
t
个排列次序不同的数据集即进行了
t
次计算,得到对应的斯皮尔曼相关系数;
S3.4、
对得到的斯皮尔曼相关系数取平均值作为该排列比例最终的相关系数,表示特征
j
和标签
Y
之间的斯皮尔曼相关系数,公式如下:

[0010]步骤4通过分层抽样的方法形成微观评价时所需要的测试集和训练集,分层抽样的过程包括如下子步骤:
S4.1、
通过步骤1得到数据集总量为
Q
,通过数据集的标签即需要进行分类的具体类别对原数据集进行分组;<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种大模型非时序训练数据质量评价方法,其特征在于,包括以下步骤:步骤
1、
收集原始数据集,根据原始数据集的总量

数据类分布情况

数据实时性三个方面对数据集进行宏观评价;步骤
2、
对数据集进行微观评价前,对原始数据集进行标签重排列,形成实验数据集:将原始数据集按照标签进行分组,并将分组后各组的数据样本标签进行随机交换,与其他组的样本特征组合得到新的实验数据集,所述标签为需要进行分类的具体类别;步骤
3、
进行相关系数测试:计算标签重排列所形成的实验数据集各个特征与标签之间的斯皮尔曼相关系数,对特征与标签的关联强度进行评价,并观察随着标签重排列比例的上升,斯皮尔曼相关系数的变化趋势;步骤
4、
性能表现测试前,采用分层抽样的方法对标签重排列所形成的新的数据集进行样本抽取,形成所需的训练集与测试集;步骤
5、
进行性能表现测试:通过上述分层抽样所形成的训练集与测试集在由
K
近邻

支持向量机

决策树

随机森林四种
ML
分类算法分类器池上的性能表现,对特征与标签之间的关联性进行验证;步骤
S6、
若观察到随着标签重排列比例的上升,性能指标随之下降后,计算各个特征对模型性能下降贡献度,得出数据集质量评价结果
。2.
根据权利要求1所述的大模型非时序训练数据质量评价方法,其特征在于,步骤1中,所述宏观评价包括:
S1.1、
对数据集的数据总量进行统计,确保数据集包含的样本总数达到需要的规模;
S1.2、
对数据集的类分布情况进行检查,确保数据类别分布平衡,使样本数据量最少的类的数据量和样本数据量最多的类的数据量相比,数据量差值不高于预设;
S1.3、
对数据进行实时性进行分析,基于数据的时效性,使数据集上传时间与数据集采集时间的间隔在预设时间内
。3.
根据权利要求2所述的大模型非时序训练数据质量评价方法,其特征在于,步骤2中标签重排列方法包括:通过标签重排列打乱原始数据集,将各个组别的标签与其他组别的特征值进行组合,按照标签的具体类别将得到的数据集分为
Group 1、Group 2、Group 3 ......Group n
,设定评估过程中的排列比例,从各组数据样本中依次抽取所述排列比例的标签进行随机交换,与其他组的样本特征组合得到新的实验数据集
。4.
根据权利要求3所述的大模型非时序训练数据质量评价方法,其特征在于,步骤3在相关系数测试时,使用斯皮尔曼相关系数作为相关系数测试的评价指标,计算过程如下:假设待评估实验数据集包含
n
个样本,特征变量
X
和标签变量
Y
的观测值分别为:
;
在特征变量
X
和标签变量
Y
的观测值中,
x
i
为样本
i
的特征变量,
y
i
为样本
i
的标签变量,
i=1,2...n
;则对应的秩为
:
;
在特征变量
X
和标签变量
Y
对应秩中,和表示样本
x
i

y
i
的秩;特征与标签之间的斯皮尔曼相关系数的计算公式为
:;
其中,
n
表示的是样本量,表示第
i
个样本特征变量
X
的秩与标签变量
Y
的秩之间的差值,表示每个样本的秩差的平方和
。5.
根据权利要求4所述的大模型非时序训练数据质量...

【专利技术属性】
技术研发人员:王攀刘沣汉
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1