System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据挖掘、机器学习和模式识别,具体而言,涉及一种基于邻域条件熵的特定类属性约简方法、设备和介质。
技术介绍
1、目前,随着大数据时代的发展,对数据对各类要求逐渐提升,为了更精准的提取直接需要的数据,提出了属性约简方法,并广泛应用于数据挖掘、机器学习和模式识别领域。属性约简的目标是识别数据集中最具信息量的属性子集,简化数据,提高分析效率。传统属性约简旨在保持数据集的分类能力,即对所有决策类进行约简。然而,在实际应用中,我们常常只需要考虑特定决策类别的简化数据,即特定类的属性约简。尽管传统属性约简方法旨在保持数据集对所有决策类的分类能力,但它们可能对每个单独的决策类别并不完全有效。因此,有必要探索特定类的属性约简方法。
2、目前关于特定类属性约简的研究仍然有限,主要集中在符号数据集方面,而且目前的研究主要体现在理论阶段。然而,在实际应用中,存在大量的数值型数据集,已有的属性约简方法并不能精确的处理特定类的属性约简。
技术实现思路
1、本专利技术旨在至少解决现有技术中存在无法满足大量的特定类属性约简需求的技术问题之一。
2、为此,本专利技术第一方面提供了一种基于邻域条件熵的特定类属性约简方法。
3、本专利技术第二方面提供了一种计算机设备。
4、本专利技术第三方面提供了一种计算机可读存储介质。
5、本专利技术提供的一种基于邻域条件熵的特定类属性约简方法,包括以下步骤:
6、获取邻域决策表,所述邻域决策表至
7、计算特定决策类在条件属性数据集下的邻域条件熵,其中,特定决策类在条件属性数据集下的邻域条件熵用以表示在特定决策类下条件属性数据集的所有邻域类的不确定性;
8、计算条件属性数据集中每个条件属性的内部重要度,所述内部重要度代表从条件属性数据集中移除该条件属性时的重要性,其中,根据该条件属性移除前后领域条件熵的变化确定内部重要度;
9、将所有内部重要度满足设定阈值要求的条件属性并入约简结果数据集;
10、计算特定决策类在约简结果数据集下的邻域条件熵;
11、判断特定决策类在约简结果数据集下的邻域条件熵和在条件属性数据集下的邻域条件熵是否相等;若相等,则输出当前约简结果数据集;若不相等,则计算条件属性数据集与当前约简结果数据集的差集中每个条件属性的外部重要度,所述外部重要度代表将该条件属性添加到当前约简结果数据集时的重要性,其中,根据该条件属性添加至当前约简结果数据集前后领域条件熵的变化确定外部重要度;
12、将外部重要度最大的条件属性并入约简结果数据集中,重新计算特定决策类在约简结果数据集下的邻域条件熵;直至特定决策类在约简结果数据集下的邻域条件熵和在条件属性数据集下的邻域条件熵相等;
13、输出当前约简结果数据集作为最终的约简结果。
14、根据本专利技术上述技术方案的基于邻域条件熵的特定类属性约简方法,还可以具有以下附加技术特征:
15、在上述技术方案中,计算特定决策类在任一数据集下的邻域条件熵的方法如下:
16、
17、其中,hδ(dj|a)为特定决策类dj在数据集a下的邻域条件熵,数据集a为条件属性数据集c或约简结果数据集r,n为所有对象的数据集u中的对象总数,为第i个对象xi的邻域类,p为概率计算函数,δ为邻域半径。
18、在上述技术方案中,特定决策类在条件属性数据集下的邻域条件熵越大,在特定决策类下条件属性数据集的所有邻域类的不确定性越大;特定决策类在条件属性数据集下的邻域条件熵越小,在特定决策类下条件属性数据集的所有邻域类的不确定性越小。
19、在上述技术方案中,概率计算函数的计算方法为:
20、
21、
22、其中,|·|表示一个集合的势。
23、在上述技术方案中,第i个对象xi的邻域类的计算方法为:
24、nδa(xi)={y∈u|δa(xi,y)≤δ}
25、其中,δa(xi,y)是在属性a下对象xi和对象y的距离。
26、在上述技术方案中,每个条件属性的内部重要度的计算方法为:
27、siginter(a,a,dj)=hδ(dj|a-{a})-hδ(dj|a)
28、其中,siginter(a,a,dj)表示条件属性a在数据集a中的内部重要度,a∈r,内部重要度的数值越大,条件属性a在数据集a中的重要性越大。
29、在上述技术方案中,条件属性数据集与当前约简结果数据集的差集中每个条件属性的外部重要度的计算方法为:
30、sigexter(a,a,dj)=hδ(dj|a)-hδ(dj|a∪{a})
31、其中,sigexter(a,a,dj)表示条件属性a对于数据集a的外部重要度,a∈c-r,外部重要度的数值越大表示将条件属性a添加至数据集a中时,邻域条件熵发生变化的可能越大。
32、在上述技术方案中,在输出当前约简结果数据集前,还包括循环检查当前约简结果数据集中是否存在冗余属性,剔除当前约简结果数据集中内部重要度不满足设定阈值要求的条件属性。
33、本专利技术还提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如上述技术方案中任一项所述的基于邻域条件熵的特定类属性约简方法。
34、本专利技术又提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如上述技术方案中任一项所述的基于邻域条件熵的特定类属性约简方法。
35、综上所述,由于采用了上述技术特征,本专利技术的有益效果是:
36、本专利技术就数值型的特定类提出新的属性约简方法。其中结合了邻域粗糙集和信息熵,结合后可以达到处理数值型数据,以及解决不确定性的问题的目的。能够实现对特定类别的数值数据集的更精确属性约简结果。通过识别在每个类内有效减少不确定性的最具信息的属性,它提高了各个类别的分类准确性。
37、本专利技术的附加方面和优点将在下面的描述部分中变得明显,或通过本专利技术的实践了解到。
本文档来自技高网...【技术保护点】
1.一种基于邻域条件熵的特定类属性约简方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于邻域条件熵的特定类属性约简方法,其特征在于,计算特定决策类在任一数据集下的邻域条件熵的方法如下:
3.根据权利要求2所述的基于邻域条件熵的特定类属性约简方法,其特征在于,特定决策类在条件属性数据集下的邻域条件熵越大,在特定决策类下条件属性数据集的所有邻域类的不确定性越大;特定决策类在条件属性数据集下的邻域条件熵越小,在特定决策类下条件属性数据集的所有邻域类的不确定性越小。
4.根据权利要求2所述的基于邻域条件熵的特定类属性约简方法,其特征在于,概率计算函数的计算方法为:
5.根据权利要求2所述的基于邻域条件熵的特定类属性约简方法,其特征在于,第i个对象xi的邻域类的计算方法为:
6.根据权利要求2所述的基于邻域条件熵的特定类属性约简方法,其特征在于,每个条件属性的内部重要度的计算方法为:
7.根据权利要求2所述的基于邻域条件熵的特定类属性约简方法,其特征在于,条件属性数据集与当前约简结果数据集的差集中每个条件属
8.根据权利要求1所述的基于邻域条件熵的特定类属性约简方法,其特征在于,在输出当前约简结果数据集前,还包括循环检查当前约简结果数据集中是否存在冗余属性,剔除当前约简结果数据集中内部重要度不满足设定阈值要求的条件属性。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至8中任一项所述的基于邻域条件熵的特定类属性约简方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至8中任一项所述的基于邻域条件熵的特定类属性约简方法。
...【技术特征摘要】
1.一种基于邻域条件熵的特定类属性约简方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于邻域条件熵的特定类属性约简方法,其特征在于,计算特定决策类在任一数据集下的邻域条件熵的方法如下:
3.根据权利要求2所述的基于邻域条件熵的特定类属性约简方法,其特征在于,特定决策类在条件属性数据集下的邻域条件熵越大,在特定决策类下条件属性数据集的所有邻域类的不确定性越大;特定决策类在条件属性数据集下的邻域条件熵越小,在特定决策类下条件属性数据集的所有邻域类的不确定性越小。
4.根据权利要求2所述的基于邻域条件熵的特定类属性约简方法,其特征在于,概率计算函数的计算方法为:
5.根据权利要求2所述的基于邻域条件熵的特定类属性约简方法,其特征在于,第i个对象xi的邻域类的计算方法为:
6.根据权利要求2所述的基于邻域条件熵的特定类属性约简方法,其特征在于,每个条件属性的...
【专利技术属性】
技术研发人员:吴迭,罗莲慧,杨霁琳,陈玮,卢苹,罗浩文,吴祎婕,赵建宏,
申请(专利权)人:成都航天通信设备有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。