【技术实现步骤摘要】
【国外来华专利技术】使用机器学习模型来抑制偏差数据
本公开涉及使用机器学习模型抑制(reject)偏差数据。
技术介绍
一般地说,偏差是统计数据高估或低估参数的趋势。在这方面,收集数据和分析数据通常包括一些固有偏差。这些偏差可能由收集和分析的方法或执行收集和分析的实体产生。例如,由人类设计并执行的数据研究可以迎合特定假设、人类设计约束(例如,人类能力)、采样约束等。通过迎合这些要素,研究的数据结果很可能包括各种采样误差、测量误差、或更广泛地基于不表示研究目标群体(targetpopulation)的样本的误差。由于计算机处理使得技术能够以与人类活动不可比拟的速率收集数据和分析数据,所以数据处理技术必须同样地克服偏差的问题。否则,数据处理尤其对于大块数据,可能放大偏差问题并产生也与由人类活动产生的偏差不可比拟的结果。
技术实现思路
本公开的一个方面提供一种用于使用机器学习模型来抑制偏差数据的方法。该方法包括,在数据处理硬件处接收聚类训练数据集,聚类训练数据集包括已知的无偏差数据群体。该方法还包括,由数据处理硬件训练聚类模型以基 ...
【技术保护点】
1.一种方法(500),包括:/n在数据处理硬件(112)处接收聚类训练数据集(130),所述聚类训练数据集(130)包括已知的无偏差数据群体;/n由所述数据处理硬件(112)训练聚类模型(211),以基于所述已知的无偏差数据群体的数据特性将所接收的聚类训练数据集(130)分段成聚类(212),所述聚类训练数据集(130)的每个聚类(212)包括聚类权重(214);/n在所述数据处理硬件(112)处接收用于机器学习模型(300)的训练数据集(302);/n由所述数据处理硬件(112)基于所述聚类模型(211)生成与用于所述机器学习模型(300)的所述训练数据集(302)相对 ...
【技术特征摘要】
【国外来华专利技术】20180910 US 16/126,8601.一种方法(500),包括:
在数据处理硬件(112)处接收聚类训练数据集(130),所述聚类训练数据集(130)包括已知的无偏差数据群体;
由所述数据处理硬件(112)训练聚类模型(211),以基于所述已知的无偏差数据群体的数据特性将所接收的聚类训练数据集(130)分段成聚类(212),所述聚类训练数据集(130)的每个聚类(212)包括聚类权重(214);
在所述数据处理硬件(112)处接收用于机器学习模型(300)的训练数据集(302);
由所述数据处理硬件(112)基于所述聚类模型(211)生成与用于所述机器学习模型(300)的所述训练数据集(302)相对应的训练数据集权重(218);
由所述数据处理硬件(112)调整所述训练数据集权重(218)中的每个训练数据集权重(218),以与相应的聚类权重(214)匹配并且形成调整的训练数据集(208);以及
由所述数据处理硬件(112)将所述调整的训练数据集(208)作为无偏差训练数据集提供给所述机器学习模型(300)。
2.根据权利要求1所述的方法(500),其中将所述调整的训练数据集(208)作为所述无偏差训练数据集(206)提供给所述机器学习模型(300)包括:利用所述无偏差训练数据集(206)来训练所述机器学习模型(300)。
3.根据权利要求1或者2所述的方法(500),还包括:
由所述数据处理硬件(112)利用所述无偏差训练数据集(206)来训练所述机器学习模型(300);
在所述数据处理硬件(112)处接收包括至少一个相应的数据特性的样本数据集;以及
由所述数据处理硬件(112)使用所训练的机器学习模型(300),基于所接收的样本数据集(308)来生成无偏差预测值(310)。
4.根据权利要求1-3中的任一项所述的方法(500),其中调整每个训练数据集权重(218)以与所述相应的聚类权重(214)匹配包括,对于每个训练数据集权重(218):
基于公共数据特性来使所述训练数据集权重(218)与所述相应的聚类权重(214)匹配;以及
从所述训练数据集中移除数据,直到所述训练数据集权重(218)与所述相应的聚类权重(214)匹配为止。
5.根据权利要求1-4中的任一项所述的方法(500),其中调整每个训练数据集权重(218)以与所述相应的聚类权重(214)匹配包括,对于每个训练数据集权重(218):
基于公共数据特性来使所述训练数据集权重(218)与所述相应的聚类权重(214)匹配;以及
从所述训练数据集复制数据,直到所述训练数据集权重(218)与所述相应的聚类权重(214)匹配为止。
6.根据权利要求1-5中的任一项所述的方法(500),其中,调整每个训练数据集权重(218)以与所述相应的聚类权重(214)匹配包括,对于每个训练数据集权重(218):
基于公共数据特性来使所述训练数据集权重(218)与所述聚类权重(214)匹配;以及
在所述训练数据集权重(218)小于所述相应的聚类权重(214)时,关联重要性权重(228),所述重要性权重(228)指示针对与所述训练数据集权重(218)相对应的训练数据而增加所述机器学习模型(300)的训练。
7.根据权利要求1-6中的任一项所述的方法(500),其中调整每个训练数据集权重(218)以与所述相应的聚类权重(214)匹配包括,对于每个训练数据集权重(218):
基于公共数据特性来使所述训练数据集权重(218)与所述聚类权重(214)匹配;以及
在所述训练数据集权重(218)大于所述相应的聚类权重(214)时,关联重要性权重(228),**所述重要性权重(228)指示针对与所述训练数据集权重(218)相对应的训练数据而减少所述机器学习模型(300)的训练。
8.根据权利要求1-7中的任一项所述的方法(500),其中调整所述训练数据集权重(218)中的每个训练数据集权重(218)以与所述相应的聚类权重(214)匹配进一步包括,对于每个训练数据集权重(218):
基于公共数据特性来使所述训练数据集权重(218)与所述对应的聚类权重(214)匹配;
在所述训练数据集权重(218)小于所述对应的聚类权重(214)时,关联重要性权重(228),所述重要性权重(228)指示针对与所述训练数据集权重(218)相对应的训练数据而增加所述机器学习模型(300)的训练;以及
在所述训练数据集权重(218)大于所述对应的聚类权重(214)时,关联重要性权重(228),所述重要性权重(228)指示针对与所述训练数据集权重(218)相对应的训练数据而减少所述机器学习模型(300)的训练。
9.根据权利要求1-8中的任一项所述的方法(500),其中训练所述聚类模型(211)进一步包括:
基于所述已知的无偏差数据群体的数据特性来将所接收的聚类训练数据集(300)分段成聚类(212);以及
对于基于所述已知的无偏差数据群体的所述数据特性的所述聚类(212)中的每个聚类(212),基于相应聚类(212)的大小与所述已知的无偏差数据群体的大小的比率来确定针对聚类模型(211)的每个聚类(212)的所述聚类权重(214)。
10.根据权利要求1-9中的任一项所述的方法(500),其中无监督的机器学习算法基于所述已知的无偏差数据群体的数据特性来将所接收的聚类训练数据集(130)分段成聚类(2...
【专利技术属性】
技术研发人员:克里斯托弗·法勒,史蒂文·罗斯,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。