本发明专利技术公开了一种属性处理方法及服务器,其中方法包括:获取到针对至少两个样本数据的N个属性,N为大于等于2的整数;计算得到所述N个属性中任意两个属性之间的相关系数;基于所述N个属性中任意两个属性之间的相关系数,确定由N个属性组成的有向网络;基于所述有向网络,计算得到所述N个属性的重要度;基于所述N个属性的重要度,从所述N个属性中选取M个属性组成属性集合,其中,M为大于等于1且小于等于N的整数。
【技术实现步骤摘要】
一种属性处理方法及服务器
本专利技术涉及通信领域中的数据处理技术,尤其涉及一种属性处理方法及服务器。
技术介绍
随着信息技术的不断进步,尤其是社交网络、移动互联网、云计算、物联网等互联网技术的广泛应用,人们的各种社会活动、沟通设备、传感器正在生成海量数据。面对海量数据的迅猛增长,如何更有效的分析长期积累、持续增长的海量数据,从中挖掘出价值,用于支撑决策和业务发展是当今众多拥有大规模数据的企业所面临的严峻挑战。数据挖掘中属性约简是数据挖掘中非常重要的数据预处理步骤,目的在于删除不相关、弱相关或者冗余的属性,精确地揭示属性与属性、属性与类别之间的相关性。目前较为常用的属性约简方法主要包括基于粗糙集理论的属性约简方法和主成分分析法。基于粗糙集理论的属性约简方法,是指在保持分类能力不变的条件下,删除其中不相关或者不重要的属性,目标是要从条件属性集合中发现部分必要的条件属性,使得根据这部分条件属性形成的相对于决策属性的分类和所有条件属性所形成的相对于决策属性的分类一致,即和所有条件属性相对于决策属性有相同的分类能力。主成分分析方法的基本思想是借助一个正交变换,将分量相关的原随机变量转换为分量不相关的新的变量,降低数据集的维数,同时保持数据集中对方差贡献最大的特征属性。但是,上述提供的解决方案,无法再不包含决策属性情况下进行降维处理。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种属性处理方法及服务器,能至少解决现有技术中存在的上述问题。为达到上述目的,本专利技术的技术方案是这样实现的:本专利技术实施例提供了一种属性处理方法,其特征在于,所述方法包括:获取到针对至少两个样本数据的N个属性,N为大于等于2的整数;计算得到所述N个属性中任意两个属性之间的相关系数;基于所述N个属性中任意两个属性之间的相关系数,确定由N个属性组成的有向网络;基于所述有向网络,计算得到所述N个属性的重要度;基于所述N个属性的重要度,从所述N个属性中选取M个属性组成属性集合,其中,M为大于等于1且小于等于N的整数。一种服务器,其特征在于,所述服务器包括:属性分析单元,用于获取到针对至少两个样本数据的N个属性,N为大于等于2的整数;计算得到所述N个属性中任意两个属性之间的相关系数;属性处理单元,用于基于所述N个属性中任意两个属性之间的相关系数,确定由N个属性组成的有向网络;基于所述有向网络,计算得到所述N个属性的重要度;选取单元,用于基于所述N个属性的重要度,从所述N个属性中选取M个属性组成属性集合,其中,M为大于等于1且小于等于N的整数。本专利技术实施例提供了属性处理方法及服务器,根据样本数据的属性信息及其两两之间的相关系数,基于属性以及相关系数组成有向网络,再基于有向网络分别计算得到每一个属性对应的重要度,进而基于每一个属性的重要度选取出一定数量的属性作为约简属性。如此,本专利技术借鉴复杂网络理论中节点重要性衡量方法,完全适用于从不包含决策属性的数据集中选取出普适情况下重要的属性,实现聚类问题中的属性约简,降低数据维度,提高算法精度。附图说明图1为本专利技术实施例属性处理方法流程示意图;图2为本专利技术实施例有向网络组成示意图;图3为本专利技术实施例服务器组成结构示意图。具体实施方式下面结合附图及具体实施例对本专利技术再作进一步详细的说明。实施例一、本专利技术实施例提供了一种属性处理方法,如图1所示,包括:步骤101:获取到针对至少两个样本数据的N个属性,N为大于等于2的整数;步骤102:计算得到所述N个属性中任意两个属性之间的相关系数;步骤103:基于所述N个属性中任意两个属性之间的相关系数,确定由N个属性组成的有向网络;步骤104:基于所述有向网络,计算得到所述N个属性的重要度;步骤105:基于所述N个属性的重要度,从所述N个属性中选取M个属性组成属性集合,其中,M为大于等于1且小于等于N的整数。这里,本专利技术实施例可以为应用于网络侧的服务器中,或者为服务器集群中。其中,所述至少两个样本数据可以表征网络侧采集到的多个数据。在步骤101和步骤102中,计算相关系数,可以为使用Pearson相关系数,具体可以为:首先分析所述至少两个样本,分别确定所述至少两个样本数据中的每一个样本数据对应的至少一个属性;然后基于任意两个属性所包含的样本数据的个数,计算得到两个属性之间的相关系数。比如,相关系数是用以反映变量之间相关关系密切程度的统计变量,假设条件属性集为A={a1,a2,…,an},样本数据量为m,第i个样本中包含有n个属性,可以用Xi={xi1,xi2,…,xin}表示,i=1,2,…m;属性ai和aj之间的Pearson相关系数具体采用如下公式进行计算:所述基于所述N个属性中任意两个属性之间的相关系数,确定由N个属性组成的有向网络,可以包括:将所述N个属性分别作为N个节点;将所述N个属性中任意两个属性之间的相关系数作为所述任意两个属性对应的节点之间的边;基于所述N个节点以及任意两个属性对应的节点之间的边构成所述有向网络。将属性看作网络中的“节点”,属性之间的相关系数看作网络中的“边”,构建属性之间的网络拓扑图G={V,E},其中V为节点集,E为边集,V={a1,a2,…,an},E={r11,r12,…,rnn};可以如图2所示,假设当前有6个属性,其之间的相关系数可以如图中的连接两个属性的边上的数值所表示。进一步地,基于上述建立的有向网络,可以进一步进行重要度的计算,具体如下:所述计算得到所述N个属性的重要度,包括:基于有向网络,逐个选取N个节点中的一个节点对应的属性作为第一属性;基于所述有向网络中的边,选取与所述第一属性相关的属性集合;基于所述第一属性的第一重要度、以及所述属性集合中的属性数量以及所述第一属性与所述属性集合中每一个属性之间的相关系数,计算得到所述第一属性的第二重要度;直至计算完成所述有向网络中N个节点对应的属性的第二重要度。相应的,所述计算完成所述有向网络中N个节点对应的属性的第二重要度之后,所述方法还包括:计算N个节点对应的属性的第二重要度与第一重要度之间的差值,得到N个节点对应的属性的差值的和;判断所述差值之和是否小于预设的门限值,若所述差值的和小于预设的门限值,则确定所述N个节点对应的属性的重要度等于其对应的第二重要度;否则,将所述第二重要度设置为第一重要度,继续进行N个节点对应的属性的第二重要度。需要说明的是,在首次执行重要度计算的时候,可以首先将第一重要度赋值为初始值,比如,可以将首次执行时,全部的属性对应的第一重要度均设置为相同的初始值,本实施例中假设每个属性的初始AR值均设置为1,ARi0=1,i=a1,a2,...,an。每一次执行第二重要度的计算时,可以采用以下公式:将本次计算设置为第t次,上一次计算为t-1次;也就是说,本次计算时,使用t-1次得到的第二重要度作为第一重要度,所要计算得到的为第t次计算的第二重要度:其中,d为阻尼系数,可以设置d=0.85;aj是与属性ai相关的属性,F(i)为与属性ai相关的属性集合;Nj为与属性aj相关的属性数量;rij为属性ai与属性aj之间的相关系数。其中,属性ai在第t步的AR值:ARit作为第t+1步的第一重要度;重复步骤计算得到第二重要度的计算,直到两次迭代之间每个属性的AR值之差本文档来自技高网...

【技术保护点】
一种属性处理方法,其特征在于,所述方法包括:获取到针对至少两个样本数据的N个属性,N为大于等于2的整数;计算得到所述N个属性中任意两个属性之间的相关系数;基于所述N个属性中任意两个属性之间的相关系数,确定由N个属性组成的有向网络;基于所述有向网络,计算得到所述N个属性的重要度;基于所述N个属性的重要度,从所述N个属性中选取M个属性组成属性集合,其中,M为大于等于1且小于等于N的整数。
【技术特征摘要】
1.一种属性处理方法,其特征在于,所述方法包括:获取到针对至少两个样本数据的N个属性,N为大于等于2的整数;计算得到所述N个属性中任意两个属性之间的相关系数;基于所述N个属性中任意两个属性之间的相关系数,确定由N个属性组成的有向网络;基于所述有向网络,计算得到所述N个属性的重要度;基于所述N个属性的重要度,从所述N个属性中选取M个属性组成属性集合,其中,M为大于等于1且小于等于N的整数。2.根据权利要求1所述的方法,其特征在于,所述基于所述N个属性中任意两个属性之间的相关系数,确定由N个属性组成的有向网络,包括:将所述N个属性分别作为N个节点;将所述N个属性中任意两个属性之间的相关系数作为所述任意两个属性对应的节点之间的边;基于所述N个节点以及任意两个属性对应的节点之间的边构成所述有向网络。3.根据权利要求2所述的方法,其特征在于,所述计算得到所述N个属性的重要度,包括:基于有向网络,逐个选取N个节点中的一个节点对应的属性作为第一属性;基于所述有向网络中的边,选取与所述第一属性相关的属性集合;基于所述第一属性的第一重要度、以及所述属性集合中的属性数量以及所述第一属性与所述属性集合中每一个属性之间的相关系数,计算得到所述第一属性的第二重要度;直至计算完成所述有向网络中N个节点对应的属性的第二重要度。4.根据权利要求3所述的方法,其特征在于,所述计算完成所述有向网络中N个节点对应的属性的第二重要度之后,所述方法还包括:计算N个节点对应的属性的第二重要度与第一重要度之间的差值,得到N个节点对应的属性的差值的和;判断所述差值之和是否小于预设的门限值,若所述差值的和小于预设的门限值,则确定所述N个节点对应的属性的重要度等于其对应的第二重要度;否则,将所述第二重要度设置为第一重要度,继续进行N个节点对应的属性的第二重要度。5.根据权利要求1-4任一项所述的方法,其特征在于,所述基于所述N个属性的重要度,从所述N个属性中选取M个属性组成属性集合,包括:对所述N个属性的重要度按照从大到小的顺序进行...
【专利技术属性】
技术研发人员:鲍媛媛,
申请(专利权)人:中国移动通信集团公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。