【技术实现步骤摘要】
【国外来华专利技术】使用机器学习模型来抑制偏差数据
本公开涉及使用机器学习模型抑制(reject)偏差数据。
技术介绍
一般地说,偏差是统计数据高估或低估参数的趋势。在这方面,收集数据和分析数据通常包括一些固有偏差。这些偏差可能由收集和分析的方法或执行收集和分析的实体产生。例如,由人类设计并执行的数据研究可以迎合特定假设、人类设计约束(例如,人类能力)、采样约束等。通过迎合这些要素,研究的数据结果很可能包括各种采样误差、测量误差、或更广泛地基于不表示研究目标群体(targetpopulation)的样本的误差。由于计算机处理使得技术能够以与人类活动不可比拟的速率收集数据和分析数据,所以数据处理技术必须同样地克服偏差的问题。否则,数据处理尤其对于大块数据,可能放大偏差问题并产生与由人类活动生成的偏差不可比拟的结果。
技术实现思路
本公开的一个方面提供一种用于使用机器学习模型来抑制偏差数据的方法。该方法包括在数据处理硬件处接收偏差训练数据集,该偏差训练数据集基于目标群体的偏差敏感变量的概率分布。该方法还包括由数据处理硬件基于目标 ...
【技术保护点】
1.一种方法(400),包括:/n在数据处理硬件(112)处接收偏差训练数据集(130),所述偏差训练数据集(130)基于目标群体的偏差敏感变量的概率分布;/n由所述数据处理硬件(112)基于所述目标群体的至少一个相应的偏差敏感变量将所述偏差训练数据集(130)分段成聚类(212),所述聚类(212)中的每个聚类(212)包括对应的偏差聚类权重(214);/n在所述数据处理硬件(112)处接收用于机器学习模型(300)的训练数据集(302);/n由所述数据处理硬件(112)将用于所述机器学习模型(300)的所述训练数据集(302)分段成训练聚类(216),每个训练聚类(21 ...
【技术特征摘要】
【国外来华专利技术】20180910 US 16/126,7421.一种方法(400),包括:
在数据处理硬件(112)处接收偏差训练数据集(130),所述偏差训练数据集(130)基于目标群体的偏差敏感变量的概率分布;
由所述数据处理硬件(112)基于所述目标群体的至少一个相应的偏差敏感变量将所述偏差训练数据集(130)分段成聚类(212),所述聚类(212)中的每个聚类(212)包括对应的偏差聚类权重(214);
在所述数据处理硬件(112)处接收用于机器学习模型(300)的训练数据集(302);
由所述数据处理硬件(112)将用于所述机器学习模型(300)的所述训练数据集(302)分段成训练聚类(216),每个训练聚类(216)与所述目标群体的至少一个对应的偏差敏感变量相关联并且包括对应的训练数据集权重(218);
由所述数据处理硬件(112)调整每个训练数据集权重(218)以与相应的偏差聚类权重(214)匹配以形成调整后的训练数据集(208);以及
由所述数据处理硬件(112)将所述调整后的训练数据集(208)作为无偏差训练数据集(206)提供给所述机器学习模型(300)。
2.根据权利要求1所述的方法(400),其中将所述调整后的训练数据集(208)作为所述无偏差训练数据集(206)提供给所述机器学习模型(300)包括利用所述无偏差训练数据集(206)来训练所述机器学习模型(300)。
3.根据权利要求1或者2所述的方法(400),还包括:
由所述数据处理硬件(112)利用所述无偏差训练数据集(206)来训练所述机器学习模型(300);
在所述数据处理硬件(112)处接收包括至少一个相应的偏差敏感变量的样本数据集(308);以及
由所述数据处理硬件(112)使用所训练的机器学习模型(300)基于所接收的样本数据集(308)来生成无偏差预测值(310)。
4.根据权利要求1-3中的任一项所述的方法(400),其中调整每个训练数据集权重(218)以与所述相应的偏差聚类权重(214)匹配包括,对于每个训练数据集权重(218):
基于公共偏差敏感变量来使该训练数据集权重(218)与所述相应的偏差聚类权重(214)匹配;以及
从所述训练数据集中移除数据,直到该训练数据集权重(218)与所述相应的偏差聚类权重(214)匹配为止。
5.根据权利要求1-4中的任一项所述的方法(400),其中调整每个训练数据集权重(218)以与所述相应的偏差聚类权重(214)匹配包括,对于每个训练数据集权重(218):
基于公共偏差敏感变量来使该训练数据集权重(218)与所述相应的偏差聚类权重(214)匹配;以及
从所述训练数据集中复制数据,直到该训练数据集权重(218)与所述相应的偏差聚类权重(214)匹配为止。
6.根据权利要求1-5中的任一项所述的方法(400),其中调整每个训练数据集权重(218)以与所述相应的偏差聚类权重(214)匹配包括,对于每个训练数据集权重(218):
基于公共偏差敏感变量来使该训练数据集权重(218)与所述偏差聚类权重(214)匹配;以及
在该训练数据集权重(218)小于所述相应的偏差聚类权重(214)时,关联指示关于与该训练数据集权重(218)相对应的训练数据增加所述机器学习模型(300)的训练的重要性权重(228)。
7.根据权利要求1-6中的任一项所述的方法(400),其中调整每个训练数据集权重(218)以与所述相应的偏差聚类权重(214)匹配包括,对于每个训练数据集权重(218):
基于公共偏差敏感变量来使该训练数据集权重(218)与所述偏差聚类权重(214)匹配:以及
在该训练数据集权重(218)大于所述相应的偏差聚类权重(214)时,关联指示关于与该训练数据集权重(218)相对应的训练数据减少所述机器学习模型(300)的训练的重要性权重(228)。
8.根据权利要求1-7中的任一项所述的方法(400),其中调整每个训练数据集权重(218)以与所述相应的偏差聚类权重(214)匹配还包括,对于每个训练数据集权重(218):
基于公共偏差敏感变量来使该训练数据集权重(218)与所述相应的偏差聚类权重(214)匹配;
在该训练数据集权重(218)小于所述相应的偏差聚类权重(214)时,关联指示关于与该训练数据集权重(218)相对应的训练数据增加所述机器学习模型(300)的训练的重要性权重(228);以及
在该训练数据集权重(218)大于所述对应的偏差聚类权重(214)时,关联指示关于与该训练数据集权重(218)相对应的训练数据减少所述机器学习模型(300)的训练的重要性权重(228)。
9.根据权利要求1-8中的任一项所述的方法(400),其中将所述偏差训练数据集(130)分段成聚类(212)包括基于相应的聚类(212)的大小与所述偏差训练数据集(130)的目标群体的大小的比率来确定每个聚类(212)的所述偏差聚类权重(214)。
10.根据权利要求1-9中的任一项所述的方法(400),其中训练所述偏差训练数据集(130)还包括定义偏差特征,所述偏差特征与所述偏差敏感变量相对...
【专利技术属性】
技术研发人员:克里斯托弗·法勒,史蒂文·罗斯,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。