【技术实现步骤摘要】
本申请涉及鲁棒学习和域泛化学习,尤其涉及风险协变量区域识别方法和装置。
技术介绍
1、传统的机器学习方法依赖于数据的独立同分布假设,即要求测试数据与训练数据独立同分布。而在实际应用中,由于现实中大量的未观测到的混杂因子以及训练数据中潜在的收集偏差,测试数据与训练数据之间往往存在着分布偏移,使得传统的机器学习模型通常在测试数据的泛化性能出现显著下降,为机器学习模型在金融、交通运输等高风险应用中的落地带来了较大的隐患。尽管现有方法,例如分布鲁棒优化方法、不变学习方法、领域泛化方法都试图解决这样的问题,然而它们大都依赖于较强的数据与理论假设,在实际应用中的效果不佳。在真实的应用场景中,在部署前或部署初期,模型开发人员通常会收集少量的测试验证数据来对模型进行评估;在部署之后,模型的泛化性能也可以在测试数据得到反映,而如何及时修正提升模型的泛化能力也是重要的问题。因此,如何在具有少量目标数据的情况下,准确识别出潜在的高风险协变量区域显得尤为重要,因其可以用于指导后续有针对性的数据收集与模型校正。例如,在金融、政策研究中十分重要的收入预测任务中,模
...【技术保护点】
1.一种风险协变量区域识别方法,其特征在于,包括以下步骤:
2.如权利要求1所述的方法,其特征在于,来自分布P(X,Y)的训练数据集、来自分布Q(X,Y)的测试验证数据集表示为:
3.如权利要求2所述的方法,其特征在于,所述确定每种数据集对应的权重,包括:
4.如权利要求3所述的方法,其特征在于,所述二分类模型表示为:
5.如权利要求4所述的方法,其特征在于,所述识别模型为从协变量X的空间到目标变量Y的映射,所述识别模型表示为:
6.如权利要求5所述的方法,其特征在于,全部数据的预测差异表示为:
...
【技术特征摘要】
1.一种风险协变量区域识别方法,其特征在于,包括以下步骤:
2.如权利要求1所述的方法,其特征在于,来自分布p(x,y)的训练数据集、来自分布q(x,y)的测试验证数据集表示为:
3.如权利要求2所述的方法,其特征在于,所述确定每种数据集对应的权重,包括:
4.如权利要求3所述的方法,其特征在于,所述二分类模型表示为:
5.如权利要求4所述的方法,其特征在于,所述识别模型为从协变量x的空间到目标变量y的映射,所述识别模型表示为:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。