风险协变量区域识别方法和装置制造方法及图纸

技术编号：41203737 阅读：29 留言：0更新日期：2024-05-07 22:29

本申请提出了一种风险协变量区域识别方法，涉及鲁棒学习和域泛化学习技术领域，其中，该方法包括：获取训练数据集和测试验证数据集，并确定数据集对应的权重；构建识别模型，并基于数据集对应的权重，通过训练数据集和测试验证数据集分别对构建的识别模型进行加权模型训练，得到第一识别模型和第二识别模型；利用第一识别模型和第二识别模型计算全部数据的预测差异，并基于计算出的预测差异确定新的数据集和对应的标签，通过学习模型预测新的数据集的标签，并输出风险协变量区域。采用上述方案的本发明专利技术实现了对受分布偏移影响最剧烈的协变量区域的准确识别。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及鲁棒学习和域泛化学习，尤其涉及风险协变量区域识别方法和装置。

技术介绍

1、传统的机器学习方法依赖于数据的独立同分布假设，即要求测试数据与训练数据独立同分布。而在实际应用中，由于现实中大量的未观测到的混杂因子以及训练数据中潜在的收集偏差，测试数据与训练数据之间往往存在着分布偏移，使得传统的机器学习模型通常在测试数据的泛化性能出现显著下降，为机器学习模型在金融、交通运输等高风险应用中的落地带来了较大的隐患。尽管现有方法，例如分布鲁棒优化方法、不变学习方法、领域泛化方法都试图解决这样的问题，然而它们大都依赖于较强的数据与理论假设，在实际应用中的效果不佳。在真实的应用场景中，在部署前或部署初期，模型开发人员通常会收集少量的测试验证数据来对模型进行评估；在部署之后，模型的泛化性能也可以在测试数据得到反映，而如何及时修正提升模型的泛化能力也是重要的问题。因此，如何在具有少量目标数据的情况下，准确识别出潜在的高风险协变量区域显得尤为重要，因其可以用于指导后续有针对性的数据收集与模型校正。例如，在金融、政策研究中十分重要的收入预测任务中，模...

【技术保护点】

1.一种风险协变量区域识别方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，来自分布P(X,Y)的训练数据集、来自分布Q(X,Y)的测试验证数据集表示为：

3.如权利要求2所述的方法，其特征在于，所述确定每种数据集对应的权重，包括：

4.如权利要求3所述的方法，其特征在于，所述二分类模型表示为：

5.如权利要求4所述的方法，其特征在于，所述识别模型为从协变量X的空间到目标变量Y的映射，所述识别模型表示为：

6.如权利要求5所述的方法，其特征在于，全部数据的预测差异表示为：

7.一种风险协变量区...

【技术特征摘要】

1.一种风险协变量区域识别方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，来自分布p(x,y)的训练数据集、来自分布q(x,y)的测试验证数据集表示为：

3.如权利要求2所述的方法，其特征在于，所述确定每种数据集对应的权重，包括：

4.如权利要求3所述的方法，其特征在于，所述二分类模型表示为：

5.如权利要求4所述的方法，其特征在于，所述识别模型为从协变量x的空间到目标变量y的映射，所述识别模型表示为：

【专利技术属性】
技术研发人员：崔鹏，刘家硕，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人