一种基于突变算法的数据维度敏感性排序方法技术

技术编号:37723008 阅读:30 留言:0更新日期:2023-06-02 00:24
本发明专利技术提出了一种基于突变算法的数据维度敏感性排序方法,该发明专利技术通过对数据进行突变来获得完整的数据组合,计算数据基尼系数并根据基尼系数排序获得模型对于数据值的敏感程度,对每个数据值的敏感程度进行统计的方法,获得模型对于数据维度的敏感度以及敏感性的排序。本方法实现了通过无监督的方法对于模型数据维度敏感度进行排序,通过实验发现,该方法对于敏感属性的推断能力较强,并且在不同数据集和不同模型下都可以使用,能够较好的适用于各种任务中。于各种任务中。

【技术实现步骤摘要】
一种基于突变算法的数据维度敏感性排序方法


[0001]本专利技术属于机器学习领域,尤其涉及一种基于突变算法的数据维度敏感性排序方法。

技术介绍

[0002]随着人工智能的发展,机器学习在人们生活中起到了越来越重要的作用,在各个领域都发挥了重要的作用,如信用评级系统,犯罪判断系统,学生质量评估等,而机器学习的公平性研究旨在减少深度学习模型对于某些维度数据过于重视的情况,而那些存在上述技术问题的算法就被记作不公平算法。
[0003]模型的公平性是保证算法实用性的重要一环,缺少了公平性,模型就有可能在使用中出现结果可信度不高现象,因此对于模型的偏见去除对于提高数据结果泛用性与可信度都有着重要的意义。并且偏见去除对于模型研究也有着重要的意义,去除模型的偏见对于我们认识模型也有关键性的作用,我们根据算法的公平性能够获得模型对于每一个维度的敏感程度,从而了解到模型构建过程中出现的问题。
[0004]解决算法模型中不公平的方法就称之为去偏操作,目前主流的去偏算法分为先验去偏,模型去偏,后验去偏三类,先验去偏主要集中与对于已有数据的预处理操作,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于突变算法的数据维度敏感性排序方法,其特征在于,该方法包括以下步骤:(1)收集数据以及数据突变:收集实验对象的所需的信息,建立为数据集S,接下来对于数据集S中样本进行突变;具体包括以下子步骤:(1.1)通过调查信息建立的数据集S,其中数据集S包含n个样本数据,每个样本数据包含k个特征值;(1.2)创建空集合B1,B2,B3,.....,B
k
;(1.3)读取数据集S中第x个样本的第i维的数据值s
x,i
,其中x∈(1,n),i∈(1,k),若集合B
i
中没有数据与s
x,i
相同,则将s
x,i
存入B
i
中,即表示为若则B
i
=B
i
+S
x,i
ꢀꢀꢀꢀ
(1)(1.4)重复n*k次(1.3)步骤,其中n表示数据集S中的样本数据,k表示样本数据的特征值,即可获得样本集S中所有存在的数据值,将B
i
中数据值的数量保存为a
i
;(1.5)创建空样本集S
c
;(1.6)将数据集S的第x个样本中的第i维数据值s
x,i
突变为b
i,y
的值,b
i,y
代表B
i
中的第y个数据值,y∈(1,a
i
),第x个样本中的其他数据值不变,突变的表达式为:S
x,i

b
i,y
(1.7)将突变后的样本保存到样本集S
c
中,重复次1.6)的步骤,获得n
total
个样本;(2.1)将样本集S
c
内的样本全部输入到已有分类模型M中,模型M的输出结果为一个1*c的概率向量,此向量中第i个数据值代表着输入结果对应的输出为第i类的概率,记为p
i
,i∈(1,c);利用输出概率向量计算获得基尼系数;(2.2)创建样本集S
m
,令S
m
=NULL,根据ε
a
进行对S
c
中样本进行降序排序,从S
c
中取得基尼系数最大的前100个样本,存入样本集S
m
;(2.3)创建a
i
维向量C
i
,用于记录S
m
中的样本中数据值的出现次数,其中i∈(1,k),并且将向量中所有值初始化为0,读取前100个样本的第i维数据,若q
x,i
=B
i,j
,则C
ji

【专利技术属性】
技术研发人员:郑海斌项云鹏陈晋音宣琦
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1