一种基于随机森林的信息检索系统公平性量化方法技术方案

技术编号：36180918 阅读：19 留言：0更新日期：2022-12-31 20:38

基于随机森林算法的信息检索系统公平性量化方法，包括：1)对信息检索系统的数据集(由查询主题集、文档集和相关文档集构成)进行处理，生成量化集(由查询主题集、相关特征集、特权群体特征集、非特权群体特征集构成)，包括：1.1)对于相关文档集进行实体提取，形成相关特征集；1.2)训练随机森林模型；1.3)特权群体特征集和非特权群体特征集的形成2)公平性量化，包括：2.1)求解主题比例公平性程度；2.2)求解主题排序公平性程度；2.3)重复2.1)到2.2)的步骤，直到所有主题及对应的所有特征的比例公平性程度和排序公平性程度都计算完毕；2.4)求解整个系统的公平性程度。整个系统的公平性程度。整个系统的公平性程度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于随机森林的信息检索系统公平性量化方法

[0001]本专利技术属于机器学习领域，提出了一种基于随机森林的信息检索系统公平性量化方法。

技术介绍

[0002]随着信息化社会的发展，信息数量变得越来越庞大，人们获取对自己有用的信息也就变得越来越困难。由此，信息检索系统应运而生。信息检索系统是根据特定的需求而建立起来的一种有关信息搜集、加工、存储和检索的程序化系统，它具有存储、检索和报道职能，能够使得特定的信息用户能够在特定的时间和地点、以特定的方式和方法获得特定的信息，从而满足其信息需求。信息检索系统经历了手工、自动化、计算机检索、计算机网络检索4个主要阶段，而现如今的信息检索系统与机器学习相结合，变得更加智能化和自动化。
[0003]但是受机器学习自身本质和技术特征的影响，信息检索系统会产生一定程度的公平违规，在基于种族、性别的主题检索上存在着不公平，可能会对受保护群体表现出歧视行为，从而对个人和社会产生潜在的负面影响。
[0004]这些不公平直接影响着社会和公众对信息检索系统的信任，影响着社会的进步与发展。因此，为使信息检索系统在社会中可以更好地发挥其作用，确保和提升其公平性是十分重要的。公平是指处理事情合情合理,不偏袒任何一方。公平主要分为个体公平和群体公平。个人公平是指个体在其特征上相似时，应该得到相似的模型预测。群体公平性是指在由受保护属性定义的群体中，平均分类器行为应该是相同的。受保护属性包括种族、肤色、国籍、性别、年龄和残疾等属性，按照受保护属性可以...

【技术保护点】

【技术特征摘要】
1.基于随机森林算法的信息检索系统公平性量化方法，包括如下步骤：1)对信息检索系统的数据集进行处理，生成量化集；信息检索系统的数据集由查询主题集、文档集和相关文档集构成，查询主题集中每一个主题对应一个相关文档集，文档集为所有相关文档的集合；量化集由查询主题集、相关特征集、特权群体特征集、非特权群体特征集构成；具体包括：1.1)对于相关文档集进行实体提取，形成相关特征集：由人工设置需要查验公平性的实体特征，设其个数为t，而后运用命名实体识别模型将各查询主题所对应的每个相关文档中的特征值提取出来，对于每一主题每一相关文档，将相应的特征与特征值按照检索系统中的顺序存入其相关特征集中，从而形成了多维的相关特征集；1.2)训练随机森林模型：1.2.1)生成训练集：首先，随机地从查询主题集中选取N个查询主题，并从与查询主题对应的相关特征集中随机抽取1个特征，并将特征中的群体都分为特权群体和非特权群体，分别存入对应的特权群体特征集和非特权群体特征集中；1.2.2)利用训练集，从训练集的查询主题中随机抽取1个，利用与该主题对应的特征及其特征值，构建可以依据特征值的等级和所占比例判断特征中的某一特征值是否为特权群体的决策树；1.2.3)重复1.2.2)的步骤，直至训练集中所有的主题和特征都被抽取，由此便生成了大量可以依据特征值的等级和所占比例判断特征中的某一特征值是否为特权群体的决策树，从而构成了随机森林；1.3)特权群体特征集和非特权群体特征集的形成：将每一主题集对应的相关特征集都送入训练好的随机森林模型中，将相关特征集中的每一特征中的特征值都分为特权群体和非特权群体，而后分别存入特权群体特征集和非特权群体特征集中，并保证它们的顺序和与主题的对应关系不变；2)公平性量化：2.1)求解主题比例公平性程度：其中，k表示第k个查询主题，m表示第m个实体特征，B
k,m
表示第k个查询主题的第m个特征的比例公平性程度，表示第k个查询主题的第m个特征所对应的特权群体总数，表示第k个查询主题的第m个特征所对应的非特权群体总数，表示第m个特征所对应的特权群体总数，表示第m个特征所对应的非特权群体总数；设定比例公平性程度的阈值为当时，说明该主题在该特征上比例公平；当时，说明该主题在该特征上比例不公平，且该特征中的特权群体在比例上存在歧视；当时，说明该主题在该特征上比例不公平，且该特征中的非特权群体在比例上存在歧视；2.2)求解主题排序公平性程度：...

【专利技术属性】
技术研发人员：郑海斌，谢欣怡，陈晋音，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人