基于综合奖励强化学习提升机器学习分类器公平性和准确性权衡的方法技术

技术编号:39654243 阅读:13 留言:0更新日期:2023-12-09 11:23
本发明专利技术公开了一种基于综合奖励强化学习提升机器学习分类器公平性和准确性权衡的方法,包括:

【技术实现步骤摘要】
基于综合奖励强化学习提升机器学习分类器公平性和准确性权衡的方法、系统及应用


[0001]本专利技术属于机器学习
,涉及一种提高机器学习分类器多种公平性的方法,尤其涉及一种利用综合奖励强化学习方法提升机器学习分类器多种公平性和准确性之间的权衡的方法

系统及应用


技术介绍

[0002]机器学习技术已经被广泛应用于各种应用场景中,例如司法审判

医疗图像识别

信用风险评估和就业招聘等领域

分类任务是机器学习中常见的任务,它能辅助人们做决策

尽管已有的分类器能够做出十分准确的分类,它们也经常引起一些公平性相关的问题

[0003]解决这些公平性问题的方法是一个研究热点

现有的公平性提升技术分为预处理公平性设计

过程公平性设计和后处理公平性设计三类

预处理公平性设计通过对训练数据进行处理,防止机器学习模型学习到数据中的不公平;过程公平性设计在机器学习模型训练过程中嵌入对公平性的约束;后处理公平性设计在训练后对不公平类别的概率估计进行调整

例如
M.Feldman
等人
[1]提出了一种预处理公平性设计,它对每个属性进行修改,使得基于给定敏感属性子集的边际分布都相等
。B.H.Zhang
等人
[2]提出了一种基于对抗训练的过程公平性设计,它由一个训练器和判别器构成,通过判别器判断敏感属性和其他属性,训练器训练模型直到判别器难以判断出敏感属性
。F.Kamiran
等人
[3]提出了一种后处理公平性设计,它将预测后的特权组中的偏好标签调整为非偏好标签

将非特权组中的非偏好标签调整为偏好标签

[0004]然而,现有方法存在两大缺陷

首先,现有技术均仅针对一种特定的公平性定义或评价指标来提升公平性

公平性定义十分复杂,目前已有
20
多种公平性定义及超过
70
种评价指标

现行法规并未指定具体的公平性定义或指标,不同社会语境下对公平性的评价标准也不尽相同

因此仅提升一种公平性定义或指标是不够的

其次,现有方法面临公平性和准确性权衡的问题,公平性和准确性在一定程度上难以同步进行提高

现有的提升公平性的方法常伴随着较大的准确性损失

因此,亟需一种能够同时提升多种公平性并兼顾准确性的方法以及对应的系统


技术实现思路

[0005]为了解决现有技术在公平性和准确性的权衡上存在的不足,本专利技术的目的是提供一种基于综合奖励强化学习提升机器学习分类器公平性和准确性权衡的方法及系统

本专利技术方法能够针对综合提升机器学习多种公平性的问题,提供一种综合提升机器学习公平性的方法,用于应对多种公平性的定义和评价指标;此外本专利技术方法也能够实现公平性和准确性的权衡,能够在提升多种公平性的同时保证准确率损失较少

本专利技术所指的多种公平性是指利用多种公平性指标对公平性进行评价,本专利技术方法可以提高分类器在多种公平性评价指标上的测评效果

[0006]本专利技术方法包括如下步骤:
[0007]S1
:获取需要调整的机器学习分类器;
[0008]S2
:将机器学习分类器参数作为强化学习智能体的输入,得到的输出为分类器参数的更新梯度方向;
[0009]S3
:将分类器参数按照更新梯度方向进行调整,得到包含调整后的新分类器参数的分类器;
[0010]S4
:根据训练集数据和包含新分类器参数的分类器在训练集上的输出通过综合奖励函数计算奖励;
[0011]S5
:如果机器学习分类器的综合准确性低于预设的阈值,执行
S6
;否则返回执行
S2

[0012]S6
:根据本回合的所有奖励,通过强化学习算法更新智能体参数;
[0013]S7
:如果回合数已经到达预设的阈值,结束;否则返回执行
S2。
[0014]优先地,
S1
具体为:预先训练一个机器学习分类器,该分类器即为需要调整公平性和准确性的分类器

机器学习的算法能够用于分类任务即可,可以包括逻辑回归

支持向量机

神经网络等

[0015]优先地,
S2
具体为:智能体为一个神经网络,其输入为分类器的参数,输出为所述参数的调整方向

调整方向为1或0,1表示将参数向正梯度方向更新,0表示将参数向负梯度方向更新

[0016]优先地,
S3
具体为:在原参数的基础上加上方向与步长的乘积

步长为动态值,通过预设的学习率与单调减函数的乘积得到

用下述公式表示:
[0017]θ
t+1

θ
t
+A
t
*lr*c(t)

[0018]其中,在第
t
步,
θ
t
为模型的参数,即旧参数,
θ
t+1
为调整后得到的新参数,
lr
为学习率,
c(t)
为随着
t
增加衰减的函数;
A
t
为方向向量

[0019]优先地,
S4
具体为:得到新分类器在训练数据集上的输出,并根据输出和训练集数据通过综合奖励函数计算奖励

[0020]训练集数据在新分类器上的输出可以获得分类结果,并通过训练数据集和分类结果进一步计算获得
FPR
u
、FPR
p
、FNR
u
、FNR
p
、TPR
u
、TPR
p
等;
[0021]其中,
[0022]假阳性率
(False Positive Rate,FPR)
是在所有实际为非偏好标签的样本中,被分类器错误地判定为偏好标签的样本所占比例
。FPR
u
表示非特权组的假阳性率,
FPR
p
表示特权组的假阳性率

[0023]真阳性率
(True Positive Rate,TPR)
是在所有实际为偏好标签的样本中,被分类器正确地判定为偏好标签的样本所占比例
。TPR
u
表示非特权组的真阳性率,
TP本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于综合奖励强化学习提升机器学习分类器公平性和准确性权衡的方法,其特征在于,所述方法包括如下步骤:
S1
:获取需要调整的机器学习分类器;
S2
:将机器学习分类器参数作为强化学习智能体的输入,得到的输出为分类器参数的更新梯度方向;
S3
:将分类器参数按照更新梯度方向进行调整,得到包含调整后的新分类器参数的分类器;
S4
:根据训练集数据和包含新分类器参数的分类器在训练集上的输出通过综合奖励函数计算奖励;
S5
:如果机器学习分类器的综合准确性低于预设的阈值,执行
S6
;否则返回执行
S2

S6
:根据本回合的所有奖励,通过强化学习算法更新智能体参数;
S7
:如果回合已经到达预设的阈值,结束;否则返回执行
S2。2.
如权利要求1所述的方法,其特征在于,步骤
S1
中,所述机器学习分类器为待调整公平性和准确性的分类器,用于执行分类任务,包括逻辑回归

支持向量机

神经网络
。3.
如权利要求1所述的方法,其特征在于,步骤
S2
中,所述机器学习分类器参数是指分类器设置中的参数集合,描述输入输出关系函数以及函数间的加权因子;所述参数的更新方向包括正梯度方向更新或负梯度方向更新,分别用1和0表示
。4.
如权利要求1所述的方法,其特征在于,步骤
S3
中,所述新分类器参数通过在原参数的基础上加上方向与步长的乘积获得,如下公式:
θ
t+1

θ
t
+A
t
*lr*c(t)
,其中,在第
t
步,
θ
t
为模型的参数,即旧参数,
θ
t+1
为调整后得到的新参数,
lr
为学习率,
c(t)
为随着
t
增加衰减的函数;
A
t
为方向向量
。5.
如权利要求1所述的方法,其特征在于,步骤
S4
中,所述综合奖励函数综合考虑多种公平性指标和准确性指标,用于衡量分类器的公平性与准确性;所述公平性指标包括:不平等影响指标,统计性歧视差异指标,平均几率差异指标,平等机会差异指标,错误率差异指标;所述准确性指标包括:
accuracy
指标,
AUC
指标,
F1
指标
。6.
如权利要求5所述的方法,其特征在于,所述综合奖励函数的获得方法如下:将多种公平性指标和准确性指标的单调性标准化,值域归一化,使处理后指标的值越大公平性或准确性越高,且值域为
[0,1]
区间;在对指标进行标准化和归一化操作时,针对单调递增指标

单调递减指标

非...

【专利技术属性】
技术研发人员:张思淼张越龄白纪韬管孟弘蒲戈光
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1