一种基于可解释模型的文本歧视性样本检测生成系统与方法技术方案

技术编号：32834979 阅读：16 留言：0更新日期：2022-03-26 20:53

本发明专利技术公开了一种基于可解释模型的文本歧视性样本检测生成系统与方法，该方法分三步对文本分类集中包含潜在的歧视性的种子样本进行定位，并检测和生成大量生成歧视性样本：首先通过知识图谱构建给定敏感特征集中所有敏感特征的对应词库和扰动词库；其次，从文本数据集中随机选择一部分样本通过可解释模型得到其Top

全部详细技术资料下载

【技术实现步骤摘要】
一种基于可解释模型的文本歧视性样本检测生成系统与方法

[0001]本专利技术属于机器学习的可解释性技术和自然语言领域，涉及一种基于可解释模型的文本歧视性样本检测生成系统与方法。

技术介绍

[0002]随着人工智能的发展，机器学习方法在解决各种问题中展现了巨大的优势，然而最新的研究发现，机器学习算法会在一些特定的敏感特征上产生歧视性，例如性别，人种等等。一旦将这些带有歧视的模型应用于有重大社会影响力的决策中，则会产生不可挽回的严重后果，因此检测和消除模型的歧视性对软件安全来说至关重要。
[0003]为了检测应用于关键领域的机器学习模型是否存在歧视性，国内外的研究人员针对分类数据集上模型的歧视性进行了大量研究，提出了Aequitas，SG，ADF等多种测试生成方法，主要通过随机生成，梯度下降等方法，或检测效率较低，或要求提供模型结构。其次，现有针对文本数据集的公平性检测相关研究较少，目前还没有一种通用的模型无关的检测方法，因此研究针对文本的通用公平性检测及歧视性样本生成方法是一个亟待解决的问题。
[0004]总体来说，现有的模型公平性检测方法主要存在以下问题：
[0005]1)检测效率低，随机测试的方法没有目标导向，造成大量冗余的重复测试样本被生成，导致检测效率低下；
[0006]2)目前通常是针对特定的分类器设计，通过读取梯度信息来确定搜索方向，需要获取模型训练的参数，有较强的权限限制；
[0007]3)目前研究仅针对分类数据集，但文本数据集的特征空间远大于分类数据集，检测手段更...

【技术保护点】

【技术特征摘要】
1.一种基于可解释模型的文本歧视性样本检测生成方法，其特征在于，包括以下步骤：步骤1，已知文本数据集D，确定针对D的待检测敏感属性集A，根据知识图谱H构造A中所有敏感属性的对应词库W1以及变异词库W2；将文本数据集D中每一条文本x转化为词向量，建立词向量和对应单词的查询字典，所述对应单词属于文本x；步骤2，任意选取文本数据集D中的一个子集D1，将D1中的每一条文本x转化为词向量z，将词向量z输入待检测分类器M中获得x的预测标签p；通过词向量z、待检测分类器M和预测标签p输入可解释模型中，获得文本x的重要程度排名大于k的top
‑
k单词，所述k为设置阈值；将文本x中的top
‑
k单词通过知识图谱H进行词性查询，获得词性返回结果，将词性返回结果与对应词库W1匹配，若匹配成功，则将文本x视为一个种子样本；遍历子集D1中的每一条样本，得到种子样本集S；步骤3，设定种子样本集S中的每一个文本x为原始文本x
s
，对每一个原始文本x
s
复制N个相同样本，获得搜索群体P0；步骤4，取出搜索群体P0中的一条文本p
i
，随机选择其中一个非敏感单词，将其替换为近义词，获得变异后的群体P
′0；从变异后的群体P
′0中随机抽取两个文本进行单词的交叉，将变异后的群体P
′0中的所有文本进行交叉后，获得全部文本交叉后的群体P
″0；从全部文本交叉后的群体P
″0中取出一个样本p，从变异词库W2中检索出与样本p的敏感单词相反的单词，生成测试样本p
′
，所述测试样本p
′
包括样本p和与p的敏感单词相反的单词；将一对测试样本输入至待检测分类器M中，若返回的预测标签不同，则视为一对歧视性样本，否则不是一对歧视性样本；步骤5，对群体P
″0中的所有样本通过适应度函数计算适应度值，以适应度值的概率分布选择下一代迭代的群体P1，重复步骤4，直至达到最大迭代次数，获得由原始文本x生成的所有歧视性样本对；步骤6，重复步骤4和步骤5，直至遍历种子样本集S生成对应的歧视性样本集。2.根据权利要求1所述的一种基于可解释模型的文本歧视性样本检测生成方法，其特征在于，步骤1中，所述对应词库W1获得的方法为：对于敏感属性集A中的任一属性a，将所述属性a输入至知识图谱H中查询近义词，若查询到的近义词权重大于等于1的单词作为候选近义词，人工过滤候选近义词，建立对应词库W1。3.根据权利要求1所述的一种基于可解释模型的文本歧视性样本检测生成方法，其特征在于，变异词库W2的获得方法为，定义添加前缀和单词替换两种敏感属性扰动策略，构建A中所有敏感属性的变异词库W2；所述添加前缀的敏感属性扰动策略为，对文本x中与敏感属性相关的名词前插入与包含敏感信息的形容词前缀；所述单词替换的敏感属性扰动策略为，将文本x中与敏感信息中的名词或形容词替换为包含相反敏感信息的名词或形容词。4.根据权利要求1所述的一种基于可解释模型的文本歧视性样本检测生成方法，其特征在于，步骤2中，待检测分类器M和预测标签p输入可解释模型中，获得文本x的重要程度排名大于k的top
‑
k单词的过程为：将词向量z、预测标签p和待检测分类器M一同输入可解释模型G中，返回x的解释结果；
设置阈值k，根据可解释模型G得到的解释结果，返回文本x的重要程度排名大于k的top
‑
k单词。5.根据权利要求1所述的一种基于可解释模型的文本歧视性样本检测生成方法，其特征在于，步骤2中，文本x中的top
‑
k单词通过知识图谱H进行词性查询的过程为：文本x从解释结果中返回top
‑
k单词，对于每一个单词i，以“IsA”为连接关系，单词i为头节点，查询满足正则表达式的尾节点单词，对于查询返回的尾节点单词，过滤掉权重小于1的单词，权重大于等于1的单词，为返回结果。6.根据权利要求1所述的一种基于可解释模型的文本歧视性样本检测生成方法，其特征在于，步骤4中，获得变异后的群体P
′0的具体过程作为：S501，对于由种子样本生成的搜索群体P0，定义变异率mr以及变异单词个数n；S502，从种子样本生成的搜索群体P0中取出一个初始文本随机生成0到1之间的小数，若生成的随机数小于变异率mr，则对初始文本进行变异操作，否则反之；S503，对...

【专利技术属性】
技术研发人员：范铭，魏闻英，刘烃，晋武侠，魏佳利，陶俊杰，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人