随机森林模型的等价类侧写生成方法、系统、介质及设备技术方案

技术编号：41137767 阅读：2 留言：0更新日期：2024-04-30 18:08

本申请公开了一种随机森林模型的等价类侧写生成方法、系统、介质及设备，方法包括：对获取的原始随机森林模型进行转换，得到原始随机森林模型对应的目标解释模型；其中，目标解释模型包含多个等价类组，每个等价类组包含多个用于解释及预测的规则；求解每个等价类组的加权最大可满足子集，加权最大可满足子集为每个等价类组中可同时满足预设条件的权重最大的子集；根据每个等价类组的加权最大可满足子集，生成原始随机森林模型的等价类侧写集。由于本申请对获取的原始随机森林模型进行转换，实现将黑盒的随机森林预测模型解释成为一个精炼的、包含若干决策规则的侧写集，该侧写集的预测能力与源模型相近，降低了模型参数，提升了模型的运行效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能领域，尤其涉及深度学习，特别涉及一种随机森林模型的等价类侧写生成方法、系统、介质及设备。

技术介绍

1、近年来，随着互联网的飞速发展，网络用户数据量呈指数级上升，社会各领域的随着人工智能的发展与进步，人工智能相关技术渐渐深入各行各业以及我们的生活，并在多领域取得了巨大的成果。但随之而来的是可靠、安全等问题，人工智能技术是否值得信任引起了领域专家的关注。

2、机器学习技术虽然在多领域取得巨大成功，但是它的缺点就是模型规模庞大复杂，难以理解其内部的结构以及预测逻辑。对机器学习的模型进行可解释性研究尚处于起步阶段，有大量的技术问题有待解决。

3、决策树模型是一种机器学习算法，它本身在一定程度上已然趋近于一个“白盒”模型，但也仅限于单棵树且树深度不高时。随即森林模型是一种经典的机器学习技术，它包含多棵决策树以获得更好的预测效果。在实际应用中，集成树模型通常拥有大量的决策树，且树的规模都很大，这样复杂庞大的模型难以直接给出比较适用的解释，模型庞大的参数影响了其运行效率。

技术实现思路

1、本申请实施例提供了一种随机森林模型的等价类侧写生成方法、系统、介质及设备。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

2、第一方面，本申请实施例提供了一种随机森林模型的等价类侧写生成方法，方法包括：

3、对获取的原始随机森林模型进行转换，得到原始随机森林模型对应的目标解释模型；其中，目标解释模型包含多个等价类组，每个等价类组包含多个用于解释及预测的规则；

4、求解每个等价类组的加权最大可满足子集，加权最大可满足子集为每个等价类组中可同时满足预设条件的权重最大的子集；

5、根据每个等价类组的加权最大可满足子集，生成原始随机森林模型的等价类侧写集。

6、可选的，对获取的原始随机森林模型进行转换，得到原始随机森林模型对应的目标解释模型，包括：

7、获取原始随机森林模型；

8、对原始随机森林模型进行转换，以获取与原随机森林模型具有相似预测行为的简化模型；

9、将简化模型作为原始随机森林模型对应的目标解释模型。

10、可选的，对原始随机森林模型进行转换，以获取与原随机森林模型具有相似预测行为的简化模型，包括：

11、将原始随机森林模型转换为逻辑表达式，得到原始随机森林模型对应的逻辑公式集合；其中，逻辑公式集合与原始随机森林模型的逻辑等价；

12、对逻辑公式集合中存在的冗余逻辑公式进行简化处理，得到初始解释模型；

13、采用惯性权重线性递减粒子群优化算法，对初始解释模型进行迭代优化，得到置信度最高的模型；

14、将该置信度最高的模型作为与原随机森林模型具有相似预测行为的简化模型。

15、可选的，采用惯性权重线性递减粒子群优化算法，对初始解释模型进行迭代优化，得到置信度最高的模型，包括：

16、将初始解释模型的模型原始参数进行不同参数组合，得到初始解释模型的多组模型生成参数；

17、采用惯性权重线性递减粒子群优化算法，迭代优化初始解释模型的每组模型生成参数，以确定初始解释模型的最优模型生成参数；

18、根据初始解释模型的最优模型生成参数，建立置信度最高的模型。

19、可选的，迭代优化初始解释模型的每组模型生成参数，以确定初始解释模型的最优模型生成参数，包括：

20、确定初始解释模型的每组模型生成参数与源数据标签对应的多个等价类组，每个等价类组包含多个用于解释及预测的规则；

21、将每个等价类组以及每个等价类组包含多个用于解释及预测的规则输入预先建立的目标函数，输出每组模型生成参数对应的目标值；

22、将目标值最大的一组模型生成参数，确定为初始解释模型的最优模型生成参数；其中，预先建立的目标函数为：

23、

24、其中，sopt为目标值，me(xi)为第i个等价类组，mo(xi)为第i个等价类组包含的多个用于解释及预测的规则，n为等价类组的总数量，θ为预设参数值；每个等价类组包含若干用于解释及预测的规则，形如：

25、f→d,w；

26、其中f为一阶逻辑公式，d为其所在等价类组的标签，w为该公式的权重。

27、可选的，求解每个等价类组的加权最大可满足子集，包括：

28、将每个等价类组中的所有公式及对应权重编码为smt-lib语言，得到编码后的公式；

29、将编码后的公式输入预设z3求解器，求解加权最大可满足问题，得到每个等价类组的加权最大可满足子集。

30、可选的，根据每个等价类组的加权最大可满足子集，生成原始随机森林模型的等价类侧写集，包括：

31、将每个等价类组的加权最大可满足子集中的所有公式，通过合取的方式合并为一条公式，得到每个等价类组的侧写；

32、将每个等价类组的侧写归为一组，得到原始随机森林模型的等价类侧写集。

33、第二方面，本申请实施例提供了一种随机森林模型的等价类侧写生成系统，系统包括：

34、模型转换模块，用于对获取的原始随机森林模型进行转换，得到原始随机森林模型对应的目标解释模型；其中，目标解释模型包含多个等价类组，每个等价类组包含多个用于解释及预测的规则；

35、加权最大可满足子集求解模块，用于求解每个等价类组的加权最大可满足子集，加权最大可满足子集为每个等价类组中可同时满足预设条件的权重最大的子集；

36、等价类侧写集生成模块，用于根据每个等价类组的加权最大可满足子集，生成原始随机森林模型的等价类侧写集。

37、第三方面，本申请实施例提供一种计算机存储介质，计算机存储介质存储有多条指令，指令适于由处理器加载并执行上述的方法步骤。

38、第四方面，本申请实施例提供一种设备，可包括：处理器和存储器；其中，存储器存储有计算机程序，计算机程序适于由处理器加载并执行上述的方法步骤。

39、本申请实施例提供的技术方案可以包括以下有益效果：

40、在本申请实施例中，随机森林模型的等价类侧写生成系统首先对获取的原始随机森林模型进行转换，得到原始随机森林模型对应的目标解释模型；其中，目标解释模型包含多个等价类组，每个等价类组包含多个用于解释及预测的规则；然后求解每个等价类组的加权最大可满足子集，加权最大可满足子集为每个等价类组中可同时满足预设条件的权重最大的子集；最后根据每个等价类组的加权最大可满足子集，生成原始随机森林模型的等价类侧写集。由于本申请对获取的原始随机森林模型进行转换，实现将黑盒的随机森林预测模型解释成为一个精炼的、包含若干决策规则的侧写集，该侧写集的预本文档来自技高网...

【技术保护点】

1.一种随机森林模型的等价类侧写生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对获取的原始随机森林模型进行转换，得到所述原始随机森林模型对应的目标解释模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述原始随机森林模型进行转换，以获取与所述原随机森林模型具有相似预测行为的简化模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述采用惯性权重线性递减粒子群优化算法，对所述初始解释模型进行迭代优化，得到置信度最高的模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述迭代优化所述初始解释模型的每组模型生成参数，以确定所述初始解释模型的最优模型生成参数，包括：

6.根据权利要求1所述的方法，其特征在于，所述求解每个等价类组的加权最大可满足子集，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据每个等价类组的加权最大可满足子集，生成所述原始随机森林模型的等价类侧写集，包括：

8.一种随机森林模型的等价类侧写生成系统，其特征在于，所述系统包括：

9.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1-7任意一项所述的方法。

10.一种设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1-7任意一项所述的方法。

...

【技术特征摘要】

1.一种随机森林模型的等价类侧写生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对获取的原始随机森林模型进行转换，得到所述原始随机森林模型对应的目标解释模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述迭代优化所述初始解释模型的每组模型生成参数，以确定所述初始解释模型的最优模型生成参数...

【专利技术属性】
技术研发人员：黄滟鸿，史建琦，张格林，任建鹏，
申请(专利权)人：上海丰蕾信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人