The invention discloses a fast data reduction algorithm combining attributes and attributes, which involves the technical field of data reduction algorithm, including: Firstly, fast U/P algorithm: equivalence_classes (U, P), obtaining the equivalence class family of U/P, and storing the results in the form of a chain table; (2) one reduction algorithm: invoking the algorithm of B to find the equivalence class family of U/C'to obtain the core of the decision table. Value table. The present invention proposes a data reduction algorithm combining attribute and attribute values with linear time complexity, which reduces the time complexity of attribute and attribute value reduction algorithm to O (| C).|
【技术实现步骤摘要】
一种快速的属性与属性值合一数据约简算法
本专利技术涉及数据约简算法
,特别涉及一种快速的属性与属性值合一数据约简算法。
技术介绍
Rough集理论是由20世纪80年代波兰人Z.Pawlak提出的一种新的数学工具,它通过严格的数学公式来处理不精确性、不确定的问题,具有演绎、归纳和常识推理等能力。因此,Rough集理论很快就在机器学习、知识获取、决策分析、数据库知识发现、专家系统和模式识别等方面得到了广泛的应用。当今Rough集理论已经从粒及其粒计算角度发展到多粒度,三支决策等研究领域,在人工智能、大数据与知识表示与推理等研究领域得到广泛的应用。Rough集理论数据约简分为两部分:属性约简与属性值约简,属性约简是为了删除冗余的属性,这是个NP难问题;属性值约简是为了消除冗余的属性值,其约简过程更是复杂,需要对每一条决策规则中每个属性进行判断。当今大多数研究者主要是对决策表进行属性约简,主要是为了提高约简效率,降低其复杂度。刘少辉等人的“Rough集高效算法的研究”提出了一种基于正区域的属性约简算法,并设计了一个启发函数,通过快速排序的方法将属性约简算法的时间复杂度降为O(|C|2|U|log|U|);徐章艳等人的“一个复杂度为max(O(|C||U|),O(|C|2|U/C|))的快速属性约简算法”设计了一个量度属性重要性的计算公式,并以此作为属性约简的启发函数,提出了一个时间复杂度为max(O(|C||U|),O(|C|2|U/C|);胡峰等人的“二维表快速排序的复杂度分析”对二维表快速排序的复杂度进行了详细分析与探讨,利用快速排序方法进行细分;邓少波 ...
【技术保护点】
1.一种快速的属性与属性值合一数据约简算法,其特征在于,包括:步骤S1、采用快速U/P算法:equivalence_classes(U,P),求得U/P的等价类族,其结果以链表形式存储;输入:决策表S=(U,C,D,V,f),
【技术特征摘要】
1.一种快速的属性与属性值合一数据约简算法,其特征在于,包括:步骤S1、采用快速U/P算法:equivalence_classes(U,P),求得U/P的等价类族,其结果以链表形式存储;输入:决策表S=(U,C,D,V,f),U={u1,u2,…,un},n=|U|,P={c1,c2,…,cm},m=|P|,其中,n为个体数目,m为P属性集合元素的个数,U是个体集合,C是非空条件属性集合,D是非空决策属性的集合,A是决策表的属性,且C∪D=A;V=∪Va,Va是属性a的值域;f:U×A→V,f是一个信息函数,它表示任意个体的每一个属性都有对应的属性值;输出:U/P的等价类族,其结果以链表形式存储;步骤S2、合一约简算法:reduce(U,C,D),调用所述步骤S1的算法求U/C’等价类族,求得决策表的核值表;输入:决策表S=(U,C,D,V,f),z=|C|,r=|D|,z为条件属性个数,r为决策属性个数;输出:核值表。2.如权利要求1所述的算法,其特征在于,所述步骤S1中的具体步骤包括:步骤S11、根据输入数据,求每一个属性ci的最大属性值与最小属性值,i=1,2,…,m,采用数组C_max[i]、C_min[i]分别存储ci属性的最大属性值与最小属性值;步骤S12、根据步骤S11得到的ci属性的最大属性值与最小属性值,令c1∈P,且令C’={c1},求属性c1的等价类族U/C’,从而得到新的链表U’;步骤S13、根据步骤S12得到的链表U’,令P’={c2,c3,…,cm},C’=C’∪{ck},求U/C’等价类族,从而得到最终链表U’;其中k=2,…,m,ui表示U’链表中第i个节点的数据域,i=1,2,…,|U|;链表middle用于保存对当前的等价类细分后得到的等价类族,链表U_middle用于保存对每个等价类细分后得到的所有等价类族;步骤S14、根据步骤S13得到的最终链表U’,设链表U’中当前节点的数据域设为:u’,则有如果u’!=0,那么个体u属于某一等价类中;否则个体u’属于下一个等价类,类似可以判断下一个节点的数据域。3.如权利要求2所述的算法,其特征在于,所述步骤S12的具体步骤包括:步骤S121、对于所有个体uj∈U,根据个体uj的属性值来决定该个体属于哪个等价类;即是根据f(uj,c1)的值来确定个体uj属于哪一个等价类,而一个等价类对应一个链表,同一等价类中的个体存储在同一链表中,其中j=1,2,…,n;步骤S122、对(C_max[1]-C_min[1]+1)个链表进行首尾连接操作,即是把上一个链表的尾指针指向下一个链表的头指针,这样得到新的链表U’。4.如权利要求2所述的算法,其特征在于,所述步骤S13的具体步骤包括:...
【专利技术属性】
技术研发人员:邓少波,关素洁,黎敏,王磊,付雪峰,
申请(专利权)人:南昌工程学院,
类型:发明
国别省市:江西,36
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。