System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及树集成模型领域,尤其涉及一种规则提取方法、装置及存储介质。
技术介绍
1、金融风险评价对于中小企业的稳定发展至关重要,但目前面临着融资难、融资贵、融资慢等挑战。另外,由于金融领域数据的特殊性以及现有机器学习和深度学习模型的局限性,传统的金融风险评价模型已无法满足实际需求。因此,建立准确性与可解释性兼顾的中小企业金融智能风险评价模型成为当前研究的关键。
2、针对以上问题,提出了一种从树集成模型中提取规则的方法。树集成模型规则抽取结合了决策树、随机森林等树集成模型和规则抽取技术,旨在从金融领域的高维、复杂数据中提取可解释的规则,以用于构建金融风险评价模型。这种方法有望解决现有金融风险评价模型在可解释性和预测能力方面的问题,为中小企业的金融智能风险决策提供更为可靠的技术支持。
3、现有的规则提取方法,模型生成了复杂且庞大的规则集合,其中存在许多嵌套、交叉的子规则,规则长度过长,从而使最终的规则集难以理解和解释,难以被业务决策者理解和接受;这样的规则有可能过于抽象或脱离实际业务场景,使得业务决策者无法准确的理解规则和实际业务的对应关系;复杂规则也导致解释能力不足,业务决策者无法理解规则所蕴含的逻辑或背后的推理过程,使得他们对于模型的可信度和可接受度降低,减弱了模型解释结果的有效性。
技术实现思路
1、本专利技术在于提供一种规则提取方法,能够减少树集成模型的复杂性,提高了用户对模型决策的理解能力,且引入自适应机制,通过调整参数控制生成规则的粒度水平,从而
2、第一方面,一种规则提取方法,包括:
3、针对树集成模型中每棵决策树,遍历决策树的每个节点,提取每个非根节点到根节点的决策路径对应的规则,归入规则特征空间中;
4、在规则特征空间中选择不同决策树中的规则作为候选规则进行组合,合并候选规则形成新规则,重复将新规则和另外一棵决策树中的规则放入候选规则中,并将候选规则进行组合与合并,直到完成规则特征空间中的所有决策树中规则的组合与合并;
5、将完成组合与合并的规则加入新规则集中,统计新规则集中覆盖正例最多的新规则并随机选择其中之一,将选择的新规则从新规则集中放入解决方案规则集中,直至所有的正例都被覆盖或新规则集中的规则被耗尽。
6、较佳的,候选规则进行组合之前,包括:计算候选规则的粒度水平,在粒度水平大于预设最小粒度阈值时,组合候选规则;其中,粒度水平为规则覆盖的正例样本数与所有被预测为正例的样本总数之比。
7、较佳的,在针对树集成模型中每棵决策树,遍历决策树的每个节点之后,包括:每棵决策树对应一个规则提取任务,通过任务分配函数将所有规则提取任务分配给多个工作线程进行并行处理;并在完成并行处理后,每个规则提取任务对应生成一组规则路径,通过合并函数将所有规则路径整合成代表树集成模型的规则路径信息。
8、较佳的,在规则特征空间中选择不同决策树中的规则作为候选规则进行组合,包括:在树集成模型中选择第一决策树和第二决策树;第一决策树中的规则为第一规则集合,第二决策树中的规则为第二规则集合,计算第一规则集合和第二规则集合的笛卡尔积;针对笛卡尔积中的每个有序对所包含的两个元素,将两个元素对应的规则进行组合。
9、较佳的,将两个元素对应的规则进行组合,包括:将两个元素对应的规则条件进行逻辑与运算,作为新规则的规则条件;将两个元素对应的规则的类别概率向量进行平均运算,作为新规则的类别概率向量;新规则的覆盖区域为两个元素对应的规则的覆盖区域的交集;其中,新规则满足覆盖区域不为空且其置信度大于预设置信度阈值;置信度为规则覆盖区域内正例的比例。
10、较佳的,统计新规则集中覆盖正例最多的新规则并随机选择其中之一,将选择的新规则从新规则集中放入解决方案规则集中,直至所有的正例被覆盖或新规则集中的规则被耗尽,包括:
11、初始化一个空的规则子集作为解决方案规则集;对新规则集中的所有规则进行遍历,选择当前满足贡献度的最优规则子集,并随机选择其中之一,其中,贡献度用于衡量规则对未覆盖样本的贡献程度;将选择的最优规则子集放入解决方案规则集中,直至所有的样本都被覆盖或新规则集中的规则被耗尽;
12、其中,贡献度由以下方程得出:
13、
14、其中,θ用于表示一个最优的子集,即当前能够覆盖未覆盖元素最多的子集,s\s'用于表示在s中选择尚未包含在解s'中的子集,|s∩(u\c(s'))|表示规则子集s与未覆盖部分的交集大小;α是控制随机性参数,取值范围为0≤α<∞;weight(s)用于表示规则子集s的权重,其计算公式为:
15、
16、其中,用于表示规则子集s中不属于当前解s'的样本数量。
17、较佳的,在针对树集成模型中每棵决策树,遍历决策树的每个节点之前,包括:
18、将预处理后的训练集数据分为训练子集和测试子集;使用训练子集构建树集成模型;计算训练后的树集成模型在测试子集上的正确率;将决策树的数量和深度设置为变量,通过控制变量法,统计不同变量组合下的树集成模型在测试子集上的正确率,选择正确率最高的变量组合;选择正确率最高的变量组合对应的训练后的树集成模型作为待提取规则的树集成模型。
19、较佳的,候选规则组合之后,合并候选规则之前,包括:
20、针对每个组合后的规则,计算规则覆盖的样本之间的相似度,相似度大于设定相似度阈值时,合并组合后的规则;
21、其中,计算规则覆盖的样本之间的相似度,包括:将每个规则覆盖的样本作为一个集合,计算两集合之间的jaccard系数,相似度通过jaccard系数衡量。
22、第二方面,一种规则提取装置,包括:
23、规则提取模块,用于针对树集成模型中每棵决策树,遍历决策树的每个节点,提取每个非根节点到根节点的决策路径对应的规则,归入规则特征空间中;
24、规则合并模块,用于在规则特征空间中选择不同决策树中的规则进行组合,针对每个组合中的规则,计算规则覆盖的样本之间的相似度,相似度大于设定相似度阈值时,合并组合中的规则形成新规则,新规则再与另外一棵决策树中的规则进行组合,直到完成规则特征空间中的所有决策树中规则的组合与合并;
25、规则简化模块,用于将完成组合与合并的规则加入新规则集中,统计新规则集中覆盖正例最多的新规则并随机选择其中之一,将选择的新规则从新规则集中放入解决方案规则集中,直至所有的正例都被覆盖或新规则集中的规则被耗尽。
26、第三方面,一种计算机可读的存储介质,该计算机可读的存储介质包括存储的程序,其中,程序运行时执行第一方面中的方法。
27、有益效果:
28、本专利技术提供的规则提取方法,针对树集成模型,设计了一种用于从树集成模型中提取可解释规则的方法,该方法显著减少了树集成模型的复杂性,生成了具有非冗余信息的可解释规则列表,并且在大本文档来自技高网...
【技术保护点】
1.一种规则提取方法,其特征在于,所述方法包括:
2.根据权利要求1的规则提取方法,其特征在于,在所述合并组合中的规则形成新规则之后,在所述新规则再与另外一棵决策树中的规则进行组合之前,包括:
3.根据权利要求1的规则提取方法,其特征在于,在所述针对树集成模型中每棵决策树,遍历决策树的每个节点之后,包括:
4.根据权利要求1的规则提取方法,其特征在于,在所述规则特征空间中选择不同决策树中的规则进行组合,包括:
5.根据权利要求4的规则提取方法,其特征在于,将两个元素对应的规则进行组合,包括:
6.根据权利要求1的规则提取方法,其特征在于,统计所述新规则集中覆盖正例最多的新规则并随机选择其中之一,将选择的新规则从所述新规则集中放入解决方案规则集中,直至所有的正例被覆盖或新规则集中的规则被耗尽,包括:
7.根据权利要求1的规则提取方法,其特征在于,在所述针对树集成模型中每棵决策树,遍历决策树的每个节点之前,包括:
8.根据权利要求1的规则提取方法,其特征在于,所述计算规则覆盖的样本之间的相似度,包括:
9.一种规则提取装置,其特征在于,包括:
10.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1-8任一项中所述的方法。
...【技术特征摘要】
1.一种规则提取方法,其特征在于,所述方法包括:
2.根据权利要求1的规则提取方法,其特征在于,在所述合并组合中的规则形成新规则之后,在所述新规则再与另外一棵决策树中的规则进行组合之前,包括:
3.根据权利要求1的规则提取方法,其特征在于,在所述针对树集成模型中每棵决策树,遍历决策树的每个节点之后,包括:
4.根据权利要求1的规则提取方法,其特征在于,在所述规则特征空间中选择不同决策树中的规则进行组合,包括:
5.根据权利要求4的规则提取方法,其特征在于,将两个元素对应的规则进行组合,包括:
6.根据权利要求1的规则提取方法,其特征在于,...
【专利技术属性】
技术研发人员:李钊,朱孟宇,赵军,刘永宁,曹宇飞,张安妮,冯雅君,刘晓鹏,马斌,尤一,张发英,
申请(专利权)人:宁夏大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。