System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种特征提取方法、系统、介质及设备技术方案_技高网

一种特征提取方法、系统、介质及设备技术方案

技术编号:40833347 阅读:2 留言:0更新日期:2024-04-01 14:57
本公开涉及一种特征提取方法、系统、介质及设备,所述方法包括:采集数据并对采集得到的数据进行预处理,并初始化定义决策树的参数;基于初始化定义决策树的参数,将随机森林分类器编码为第一逻辑公式,在随机森林分类器编码得到的第一逻辑公式的基础上,结合输入的样本数据,将对该样本的决策过程编码为第二逻辑公式;基于编码得到的第二逻辑公式,利用可满足性模理论求解器对第二逻辑公式进行计算,提取出特征。本公开的系统和方法将随机森林的决策过程编码为逻辑公式,然后利用可满足性模理论求解器对其进行求解,提取出对决策过程和决策结果有重要影响的样本特征。本公开能够利用重要特征较为精准地对模型的决策过程和决策原因进行解释。

【技术实现步骤摘要】

本公开涉及特征提取,更为具体来说,本公开涉及一种特征提取方法、系统、介质及设备


技术介绍

1、近年来,机器学习已在许多领域表现出其巨大的发展潜力和发展前景,例如人脸识别、自然语言处理、图片识别分类、语音识别、推荐系统等。在安全关键领域,例如自动驾驶、智慧医疗、智慧政府等,机器学习同样得到了充分的应用和发展,其被用来为人类的决策提供建议,如病人的治疗方案、城市的管理方案、最优驾驶线路等。

2、复杂的内部构造以及不可预知、难以理解的计算过程使得机器学习模型仍被视作一个黑盒模型,以此缺乏相应的可信性和可靠性,阻碍了它的长期发展,尤其是在安全关键性领域,极有可能引发灾难性的后果。因此,引发了业界专家学者对人工智能可靠性的争议和讨论,他们达成了这样一个共识:一个可靠的、能够被人理解的机器学习模型才能被持续地应用,一个可信模型的计算结果才具有参考意义。由此可见,机器学习的可解释性尤为重要,其被定义为向人类解释或展示模型的能力,在准确代理决策模型的同时,又能被人类所理解。可解释性旨在提供预测结果的决策依据,尤其对于不理想的预测结果对应的现实世界中发生的事故,人们往往试图从预测模型和计算过程中分析出原因,如上述提到的自动驾驶汽车错判的原因。因此,亟需一个方法对机器学习模型进行决策原因的分析。


技术实现思路

1、本专利技术公开的主要目的在于提出一种基于可满足性模理论的随机森林样本重要特征提取方法,旨在通过重要特征增强随机森林模型的可解释性,帮助人们理解随机森林的决策原因。

2、为实现上述技术目的,本公开提供了一种特征提取方法,所述方法包括:

3、采集数据并对采集得到的数据进行预处理,并初始化定义决策树的参数;

4、基于初始化定义决策树的参数,将随机森林分类器编码为第一逻辑公式,在随机森林分类器编码得到的第一逻辑公式的基础上,结合输入的样本数据,将对该样本的决策过程编码为第二逻辑公式;

5、基于编码得到的第二逻辑公式,利用可满足性模理论求解器对第二逻辑公式进行计算,提取出特征。

6、进一步,所述采集数据并对采集得到的数据进行预处理具体包括:

7、采集数据,并将包含m个类别的一个特征替换成为m个二元特征,并利用m位寄存器记录特征的状态,其中,m为不小于2的整数;

8、所述m位寄存器中激活的特征对应位显示为1,其余特征对应位显示为0;

9、对缺失数据进行填补,对于缺失的数据对应位赋值-1;

10、对所述m位寄存器中记录的特征进行修正和统一。

11、进一步,所述对所述m位寄存器中记录的特征进行修正和统一具体包括:

12、对所述m位寄存器中记录的特征进行有序数值编码,同时,对于包含有单位的数值数据进行单位去除。

13、进一步,所述并初始化定义决策树的参数具体包括:

14、将决策树定义为三元数组t=<decide,leaf,value>;

15、其中,decide={n0,n1,..,nk},表示决策结点的集合,n0表示根结点,k为不小于2的整数;

16、leaf={l1,l2,…,lj},表示叶子结点的集合,j为不小于2的整数;

17、value={vl1,vl2,…,vlj},表示叶子结点值的集合,其表示了其对应下标的叶子结点的值。

18、进一步,所述将随机森林分类器编码为第一逻辑公式,具体包括:

19、对决策树中的一条路径编码为第一逻辑公式,每条路径由一个叶子节点l∈(0,k)和若干决策结点n∈n1组成;其中,n1表示根结点n0与叶子结点l之间结点的集合。

20、进一步,所述第一逻辑公式表示为:

21、

22、进一步,所述基于编码得到的第二逻辑公式,利用可满足性模理论求解器对第二逻辑公式进行计算,提取出特征具体包括:

23、使用可满足性模理论求解器对编码的第二逻辑公式进行计算;

24、计算完成后提取出最小不满足核,根据最小不满足核提取出特征。

25、对决策树中的一条路径编码为第一逻辑公式,路径由一个叶子节点l和若干决策结点n∈nl组成其中nl表示根结点n0与叶子结点l之间结点的集合。包含叶子结点l的路径的逻辑编码如下:

26、

27、其中,nl表示路径l上非根结点和非叶子结点的结点集合;

28、n∈nl,表示结点;

29、当n为其前驱结点pn的左子结点则其特征值阈值表达式满足

30、当n为其前驱结点pn的右子结点则其特征值阈值表达式满足

31、w表示各类预测值出现的概率,约束了该条路径的决策结果;vl表示各类别出现的概率集合;

32、叶结点l对应路径的编码公式π(l)表示为该路径上所有结点的特征值阈值公式以及决策结果的合取范式。

33、为实现上述技术目的,本公开还能够提供一种特征提取系统,包括:

34、数据预处理模块,用于采集数据并对采集得到的数据进行预处理,并初始化定义决策树的参数;

35、逻辑编码模块,用于基于初始化定义决策树的参数,将随机森林分类器编码为第一逻辑公式,在随机森林分类器编码得到的第一逻辑公式的基础上,结合输入的样本数据,将对该样本的决策过程编码为第二逻辑公式;

36、特征求解模块,用于基于编码得到的第二逻辑公式,利用可满足性模理论求解器对第二逻辑公式进行计算,提取出特征。

37、为实现上述技术目的,本公开还能够提供一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时用于实现上述的特征提取方法的步骤。

38、为实现上述技术目的,本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的特征提取方法的步骤。

39、本公开的有益效果:

40、本公开的系统和方法将随机森林的决策过程编码为逻辑公式,然后利用可满足性模理论求解器对其进行求解,提取出对决策过程和决策结果有重要影响的样本特征。由于利用形式化方法深入模型进行探究,能够利用重要特征较为精准地对模型的决策过程和决策原因进行解释。

本文档来自技高网...

【技术保护点】

1.一种特征提取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述采集数据并对采集得到的数据进行预处理具体包括:

3.根据权利要求2所述的方法,其特征在于,所述对所述m位寄存器中记录的特征进行修正和统一具体包括:

4.根据权利要求1所述的方法,其特征在于,所述并初始化定义决策树的参数具体包括:

5.根据权利要求4所述的方法,其特征在于,所述将随机森林分类器编码为第一逻辑公式,具体包括:

6.根据权利要求5所述的方法,其特征在于,所述第一逻辑公式表示为:

7.根据权利要求1所述的方法,其特征在于,所述基于编码得到的第二逻辑公式,利用可满足性模理论求解器对第二逻辑公式进行计算,提取出特征具体包括:

8.一种特征提取系统,其特征在于,所述系统包括:

9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,处理器执行计算机程序时实现权利要求1~7任一项中所述的特征提取方法对应的步骤。

10.一种计算机存储介质,其上存储有计算机程序指令,其特征在于,所述程序指令被处理器执行时用于实现权利要求1~7任一项中所述的特征提取方法对应的步骤。

...

【技术特征摘要】

1.一种特征提取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述采集数据并对采集得到的数据进行预处理具体包括:

3.根据权利要求2所述的方法,其特征在于,所述对所述m位寄存器中记录的特征进行修正和统一具体包括:

4.根据权利要求1所述的方法,其特征在于,所述并初始化定义决策树的参数具体包括:

5.根据权利要求4所述的方法,其特征在于,所述将随机森林分类器编码为第一逻辑公式,具体包括:

6.根据权利要求5所述的方法,其特征在于,所述第一逻辑公式表示为:

【专利技术属性】
技术研发人员:史建琦黄滟鸿马舒岑齐佳宁
申请(专利权)人:上海丰蕾信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1