一种基于随机森林的信息检索系统公平性量化方法技术方案

技术编号:36180918 阅读:19 留言:0更新日期:2022-12-31 20:38
基于随机森林算法的信息检索系统公平性量化方法,包括:1)对信息检索系统的数据集(由查询主题集、文档集和相关文档集构成)进行处理,生成量化集(由查询主题集、相关特征集、特权群体特征集、非特权群体特征集构成),包括:1.1)对于相关文档集进行实体提取,形成相关特征集;1.2)训练随机森林模型;1.3)特权群体特征集和非特权群体特征集的形成2)公平性量化,包括:2.1)求解主题比例公平性程度;2.2)求解主题排序公平性程度;2.3)重复2.1)到2.2)的步骤,直到所有主题及对应的所有特征的比例公平性程度和排序公平性程度都计算完毕;2.4)求解整个系统的公平性程度。整个系统的公平性程度。整个系统的公平性程度。

【技术实现步骤摘要】
一种基于随机森林的信息检索系统公平性量化方法


[0001]本专利技术属于机器学习领域,提出了一种基于随机森林的信息检索 系统公平性量化方法。

技术介绍

[0002]随着信息化社会的发展,信息数量变得越来越庞大,人们获取对 自己有用的信息也就变得越来越困难。由此,信息检索系统应运而生。 信息检索系统是根据特定的需求而建立起来的一种有关信息搜集、加 工、存储和检索的程序化系统,它具有存储、检索和报道职能,能够 使得特定的信息用户能够在特定的时间和地点、以特定的方式和方法 获得特定的信息,从而满足其信息需求。信息检索系统经历了手工、 自动化、计算机检索、计算机网络检索4个主要阶段,而现如今的信 息检索系统与机器学习相结合,变得更加智能化和自动化。
[0003]但是受机器学习自身本质和技术特征的影响,信息检索系统会产 生一定程度的公平违规,在基于种族、性别的主题检索上存在着不公 平,可能会对受保护群体表现出歧视行为,从而对个人和社会产生潜 在的负面影响。
[0004]这些不公平直接影响着社会和公众对信息检索系统的信任,影响 着社会的进步与发展。因此,为使信息检索系统在社会中可以更好地 发挥其作用,确保和提升其公平性是十分重要的。公平是指处理事情 合情合理,不偏袒任何一方。公平主要分为个体公平和群体公平。个 人公平是指个体在其特征上相似时,应该得到相似的模型预测。群体 公平性是指在由受保护属性定义的群体中,平均分类器行为应该是相 同的。受保护属性包括种族、肤色、国籍、性别、年龄和残疾等属性, 按照受保护属性可以将群体划分为特权群体和非特权群体。有特权群 体是指那些更有可能在机器学习的二元分类任务中获得有利标签的人。 非特权群体则是在机器学习的二元分类任务中获得不利标签和偏见的 人。
[0005]为了消除信息检索系统中存在的偏见,提高公平性,进行信息检 索系统的公平性测试是首要前提。但现有的公平性测试方法主要是通 过生成尽可能多的实例来实现违反公平行为的揭露,该种方法并不适 用于信息检索系统,并且缺乏可解释性,无法得知具体在哪些方面需 要对公平性进行改进以达到去除偏见的目的。由此,对信息检索系统 的公平程度进行量化描述也显得格外重要。而现有的有关信息检索系 统的评价指标多注重于其使用性能,如准确率、召回率等,而忽略了 公平性,使得公平性量化所可以使用的人工标记少。且信息检索系统 的高维度数据也使得公平性量化的难度增大。

技术实现思路

[0006]为了克服已有的公平性测试方法可解释性弱、对信息检索系统的 适应性差、在信息检索系统人工标记少的情况下准确率低、数据维度 高的情况下效率低下的不足,本专利技术提供了一种可解释信强、在信息 检索系统人工标记少的情况下依然保持较高的准确率、数据维度高的 情况下仍能有较高效率的信息检索系统公平性量化方法。
[0007]为了解决已有的公平性测试方法缺乏可解释性、对信息检索系统 的适应性差、信息检索系统人工标记少、数据维度高所引发的信息检 索系统公平性量化问题,本专利技术设计了一种基于随机森林的信息检索 系统公平性量化方法,即在只有少量的类别标签的情况下,通过将数 据输入随机森林中得到特权群体与非特权群体的分类,对两个群体在 比例和排序上的距离进行计算,从而得到信息检索系统的公平性量化, 以使信息检索系统的构建者能够在系统设计中考虑公平性。
[0008]本专利技术解决其技术问题所采用的技术方案是:
[0009]基于随机森林算法的信息检索系统公平性量化方法,包括如下步 骤:
[0010]1)对信息检索系统的数据集进行处理,生成量化集。信息检索 系统的数据集由查询主题集、文档集和相关文档集构成,查询主题集 中每一个主题对应一个相关文档集,文档集为所有相关文档的集合。 量化集由查询主题集、相关特征集、特权群体特征集、非特权群体特 征集构成。其生成方法如下:
[0011]1.1)对于相关文档集进行实体提取,形成相关特征集:由人工 设置需要查验公平性的实体特征,设其个数为t,而后运用命名实体 识别模型将各查询主题所对应的每个相关文档中的特征值提取出来, 对于每一主题每一相关文档,将相应的特征与特征值按照检索系统中 的顺序存入其相关特征集中,从而形成了多维的相关特征集。
[0012]1.2)训练随机森林模型:
[0013]1.2.1)生成训练集:首先,随机地从查询主题集中选取N个查 询主题,并从与查询主题对应的相关特征集中随机抽取1个特征,并 将特征中的群体都分为特权群体和非特权群体,分别存入对应的特权 群体特征集和非特权群体特征集中。
[0014]1.2.2)利用训练集,从训练集的查询主题中随机抽取1个,利 用与该主题对应的特征及其特征值,构建可以依据特征值的等级和所 占比例判断特征中的某一特征值是否为特权群体的决策树。
[0015]1.2.3)重复1.2.2)的步骤,直至训练集中所有的主题和特征 都被抽取,由此便生成了大量可以依据特征值的等级和所占比例判断 特征中的某一特征值是否为特权群体的决策树,从而构成了随机森林。
[0016]1.3)特权群体特征集和非特权群体特征集的形成:将每一主题 集对应的相关特征集都送入训练好的随机森林模型中,将相关特征集 中的每一特征中的特征值都分为特权群体和非特权群体,而后分别存 入特权群体特征集和非特权群体特征集中,并保证它们的顺序和与主 题的对应关系不变。
[0017]2)公平性量化:
[0018]2.1)求解主题比例公平性程度:
[0019][0020]其中,k表示第k个查询主题,m表示第m个实体特征,B
k,m
表示第k 个查询主题的第m个特征的比例公平性程度,表示第k个查询主 题的第m个特征所对应的特权群体总数,表示第k个查询主题的 第m个特征所对应的非特权群体总数,表示第m个特征所对应的 特权群体总数,表示第m个特征所对应的非特权群体总数。设定 比例公平性程度的
阈值为当时,说明该主题在该特征 上比例公平;当时,说明该主题在该特征上比例不公平,且 该特征中的特权群体在比例上存在歧视;当时,说明该主题在 该特征上比例不公平,且该特征中的非特权群体在比例上存在歧视。
[0021]2.2)求解主题排序公平性程度:
[0022][0023]其中,k表示第k个查询主题,m表示第m个实体特征,D
k,m
表示第k 个查询主题的第m个特征的排序公平性程度,表示第k个查询主 题的第m个特征所对应的特权群体总数,表示第k个查询主题的 第m个特征所对应的非特权群体总数,i表示当前的特权群体特征值 是第k个查询主题的第m个特征所对应的所有特权群体中第i个被检 索出来的,表示当前的特权群体特征值在第k个查询主题的第 m个特征所对应的所有特征值中的排序等级,j表示当前的非特权群 体特征值是第k个查询主题的第m个特征所对应的所有非特权群体中 第j个被检索出来的,表示当前的非特权群体特征值在第k个 查询主题的第m个特征所对应的所有群体中的排序等本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于随机森林算法的信息检索系统公平性量化方法,包括如下步骤:1)对信息检索系统的数据集进行处理,生成量化集;信息检索系统的数据集由查询主题集、文档集和相关文档集构成,查询主题集中每一个主题对应一个相关文档集,文档集为所有相关文档的集合;量化集由查询主题集、相关特征集、特权群体特征集、非特权群体特征集构成;具体包括:1.1)对于相关文档集进行实体提取,形成相关特征集:由人工设置需要查验公平性的实体特征,设其个数为t,而后运用命名实体识别模型将各查询主题所对应的每个相关文档中的特征值提取出来,对于每一主题每一相关文档,将相应的特征与特征值按照检索系统中的顺序存入其相关特征集中,从而形成了多维的相关特征集;1.2)训练随机森林模型:1.2.1)生成训练集:首先,随机地从查询主题集中选取N个查询主题,并从与查询主题对应的相关特征集中随机抽取1个特征,并将特征中的群体都分为特权群体和非特权群体,分别存入对应的特权群体特征集和非特权群体特征集中;1.2.2)利用训练集,从训练集的查询主题中随机抽取1个,利用与该主题对应的特征及其特征值,构建可以依据特征值的等级和所占比例判断特征中的某一特征值是否为特权群体的决策树;1.2.3)重复1.2.2)的步骤,直至训练集中所有的主题和特征都被抽取,由此便生成了大量可以依据特征值的等级和所占比例判断特征中的某一特征值是否为特权群体的决策树,从而构成了随机森林;1.3)特权群体特征集和非特权群体特征集的形成:将每一主题集对应的相关特征集都送入训练好的随机森林模型中,将相关特征集中的每一特征中的特征值都分为特权群体和非特权群体,而后分别存入特权群体特征集和非特权群体特征集中,并保证它们的顺序和与主题的对应关系不变;2)公平性量化:2.1)求解主题比例公平性程度:其中,k表示第k个查询主题,m表示第m个实体特征,B
k,m
表示第k个查询主题的第m个特征的比例公平性程度,表示第k个查询主题的第m个特征所对应的特权群体总数,表示第k个查询主题的第m个特征所对应的非特权群体总数,表示第m个特征所对应的特权群体总数,表示第m个特征所对应的非特权群体总数;设定比例公平性程度的阈值为当时,说明该主题在该特征上比例公平;当时,说明该主题在该特征上比例不公平,且该特征中的特权群体在比例上存在歧视;当时,说明该主题在该特征上比例不公平,且该特征中的非特权群体在比例上存在歧视;2.2)求解主题排序公平性程度:...

【专利技术属性】
技术研发人员:郑海斌谢欣怡陈晋音
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1