本申请公开了基于重复抽样与压力测试的模型稳健性检测方法,通过获取符合目标对象识别模型的样本对象,根据所述样本对象的行为数据在特定时间条件下是否符合条件,对所述样本对象进行划分及分层抽样,构成初始样本集;按照设定的配比对所述初始样本集进行有放回的抽取,生成测试样本集;根据预设的计算方式对所述测试样本集进行运算,得到验证参数,计算所述验证参数的统计变量;获取用户的需求信息,根据所述统计变量判断所述目标对象识别模型是否满足所述需求信息;若是,则输出所述目标对象识别模型,通过所述目标对象识别模型识别目标对象。应用本申请的技术方案,实现在各种样本配比的情况下,保证模型的稳健性,进而保证目标识别的准确性。
Model robustness testing method based on repeated sampling and stress testing
【技术实现步骤摘要】
基于重复抽样与压力测试的模型稳健性检测方法
本申请涉及计算机
,特别是指基于重复抽样与压力测试的模型稳健性检测方法。
技术介绍
现代社会中,基于特定的目的,用户会设计特定的模型对目标进行识别,辨别目标是否符合特定的需求或要求。例如:在人物识别时,用户可能会希望识别出未来有可能违法的人物,进而需要建立特定的模型对人物进行识别,获取人物的违法记录及违法频率等,从而得出人物违法概率等因素,进而实现人物识别,确定关注对象;或是在企业贷款或授信时,用户可能会希望识别出未来有可能逾期或违约的企业,进而需要建立特定的模型对企业进行识别等等。而模型的稳定对所建立的模型来说具有非常重要的意义,在模型不具有稳健性的条件下,其虽然仍可进行模型运算,但输出结果可能会掩盖真实的变量间的关系,从而扭曲结果,使模型参数的估计失去了准确性。基于模型输出结果对事物的指导就可能偏离实际,甚至带来损失。模型稳健性检测的研究是建立优质模型的必要环节,是模型具备泛化能力的前提。传统的模型稳健性检测方法,相关参数计算时,依据的样本较少,不能验证模型在不同样本配比情况下的极端表现,模型稳健性并没有被准确的预测。从而可能严重影响目标识别的准确性。
技术实现思路
有鉴于此,本申请的目的在于提出一种基于重复抽样与压力测试的模型稳健性检测方法,用以实现在各种样本配比的情况下,保证模型的稳健性,进而保证目标识别的准确性。基于上述目的,本申请提供了基于重复抽样与压力测试的模型稳健性检测方法,包括:获取符合目标对象识别模型的样本对象,根据所述样本对象的行为数据在特定时间条件下是否符合条件,对所述样本对象进行划分及分层抽样,构成初始样本集;按照设定的配比对所述初始样本集进行有放回的抽取,生成测试样本集;根据预设的计算方式对所述测试样本集进行运算,得到验证参数,计算所述验证参数的统计变量;获取用户的需求信息,根据所述统计变量判断所述目标对象识别模型是否满足所述需求信息;若是,则输出所述目标对象识别模型,通过所述目标对象识别模型识别目标对象。在一些实施方式中,所述按照设定的配比对所述初始样本集进行有放回的抽取,具体包括:设置包括至少一种所述配比的配比集;根据所述配比集中的每一种所述配比,分别对所述初始样本集进行有放回的抽取。在一些实施方式中,所述根据预设的计算方式对所述测试样本集进行运算,具体包括:抽取至少一种所述配比所对应的对应测试样本集;根据预设的计算方式,对所述对应测试样本集进行运算。在一些实施方式中,所述测试样本集内的所述样本对象数量与所述初始样本集内的所述样本对象数量相同。在一些实施方式中,所述计算方式,具体为:巴塞尔协议定义的计算方式。在一些实施方式中,所述验证参数,至少包括如下一项:基尼指数、柯尔莫可洛夫-斯米洛夫检验值、接收者操作特征曲线、接收者操作特征曲线下面积和/或群体稳定性指标。在一些实施方式中,所述统计变量,至少包括如下一项:最小值、最大值、平均数、中位数、方差和/或置信区间。从上面所述可以看出,本申请提供的基于重复抽样与压力测试的模型稳健性检测方法,通过获取符合目标对象识别模型的样本对象,根据所述样本对象的行为数据在特定时间条件下是否符合条件,对所述样本对象进行划分及分层抽样,构成初始样本集;按照设定的配比对所述初始样本集进行有放回的抽取,生成测试样本集;根据预设的计算方式对所述测试样本集进行运算,得到验证参数,计算所述验证参数的统计变量;获取用户的需求信息,根据所述统计变量判断所述目标对象识别模型是否满足所述需求信息;若是,则输出所述目标对象识别模型,通过所述目标对象识别模型识别目标对象。应用本申请的技术方案,可以实现在各种样本配比的情况下,保证模型的稳健性,进而保证目标识别的准确性。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提出的基于重复抽样与压力测试的模型稳健性检测方法的流程示意图;图2为本申请实施例提出的一种具体实施方式中的模型稳健性检测方法的流程示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件、物件或者方法步骤涵盖出现在该词后面列举的元件、物件或者方法步骤及其等同,而不排除其他元件、物件或者方法步骤。如
技术介绍
所言,现有的目标识别方式中,由于建立的识别模型不够稳健或在极端情况下达不到预期的效果。本领域中需要一种检验模型稳健性的方法,使模型建立者建立出符合要求的模型,从而使模型在进行目标识别时能够达到更高的准确度。在本领域中,模型验证技术中,并无通用的稳健性方法,但是存在通用的稳定性检验方法。群体稳定性指标(PSI,populationstabilityindex)就是其中使用较广的一种。PSI可衡量模型测试样本及模型训练样本的分布差异,是最常见的模型稳定度评估指标,PSI数值越小,两个分布之间的差异就越小,代表模型越稳定。然而PSI可以对模型稳定性进行预测,但是该指标仅能表达模型结果的稳定性,潜在假设就是外部环境和目标样本没有显著性的变化或迁移,并不能够检测模型在外部环境改变或者目标样本迁移情况下模型的适应能力,即稳健性。模型不同情况下的表现,尤其是极端情况下的表现,PSI指标并不能直观给出,很难全面把握模型预测能力。因此,一种能够直观并且量化给出模型表现范围的稳健性检测方法更加适合在使用模型前对模型进行稳健性评价,确认模型是否匹配风险承受能力。为此本申请设计实现了基于重复抽样与压力测试的模型稳健性检测方法,通过在建立的初始样本集中,按配比有放回的重新抽取样本,生成测试样本集,并对新生成的测试样本集进行计算并获取统计变量,再按照用户要求对统计变量进行检测,将符合要求的模型输出,并通过模型对目标对象进行识别。从而实现了一种目标对象识别模型的稳健性检测方法,进而可以实现在各种样本配比的情况下,保证模型的稳健性,进而保证目标识别的准确性。以下结合附图,详细说明本说明书实施例提供的技术方案。如图1所示,为本实施例的基于重复抽样与压力测试的模型稳健性检测方法的流程示意图,该方法具体包括以下步骤:步骤101,获取符合目标对象识别模型的样本对象,根据所述样本对象的行为数据在特定时间条件下是否符合条件,对所述样本对象进行划分及本文档来自技高网...
【技术保护点】
1.基于重复抽样与压力测试的模型稳健性检测方法,其特征在于,包括:/n获取符合目标对象识别模型的样本对象,根据所述样本对象的行为数据在特定时间条件下是否符合条件,对所述样本对象进行划分及分层抽样,构成初始样本集;/n按照设定的配比对所述初始样本集进行有放回的抽取,生成测试样本集;/n根据预设的计算方式对所述测试样本集进行运算,得到验证参数,计算所述验证参数的统计变量;/n获取用户的需求信息,根据所述统计变量判断所述目标对象识别模型是否满足所述需求信息;/n若是,则输出所述目标对象识别模型,通过所述目标对象识别模型识别目标对象。/n
【技术特征摘要】
1.基于重复抽样与压力测试的模型稳健性检测方法,其特征在于,包括:
获取符合目标对象识别模型的样本对象,根据所述样本对象的行为数据在特定时间条件下是否符合条件,对所述样本对象进行划分及分层抽样,构成初始样本集;
按照设定的配比对所述初始样本集进行有放回的抽取,生成测试样本集;
根据预设的计算方式对所述测试样本集进行运算,得到验证参数,计算所述验证参数的统计变量;
获取用户的需求信息,根据所述统计变量判断所述目标对象识别模型是否满足所述需求信息;
若是,则输出所述目标对象识别模型,通过所述目标对象识别模型识别目标对象。
2.根据权利要求1所述的方法,其特征在于,所述按照设定的配比对所述初始样本集进行有放回的抽取,具体包括:
设置包括至少一种所述配比的配比集;
根据所述配比集中的每一种所述配比,分别对所述初始样本集进行有放回的抽取。
【专利技术属性】
技术研发人员:吉风明,焦宇微,
申请(专利权)人:东方微银科技北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。