当前位置: 首页 > 专利查询>山西大学专利>正文

一种处理现实生活中分类型数据的有效方法技术

技术编号:24170974 阅读:41 留言:0更新日期:2020-05-16 02:56
本发明专利技术公开了一种处理现实生活中分类型数据的有效方法,包含以下步骤:步骤1,随机从含有n个样本的数据集X中选取k个初始点,k为数据集X的分类数目;步骤2,计算每个对象到k个初始点的距离,将对象分配到与其距离最小的初始点类中,得到k个簇;步骤3,计算每个对象到k个中心的隶属度,并用启发式更新算法更新k个簇的类中心,类中心表示为w

【技术实现步骤摘要】
一种处理现实生活中分类型数据的有效方法
本专利技术涉及先进计算与数据处理领域,尤其涉及一种处理现实生活中分类型数据的有效方法。
技术介绍
在数据挖掘中,算法的输入在大多数情况下是数据集X,也称为表或矩阵。在许多实际应用中,数据库通常包含多个表,这些表之间存在一对一、一对多以及多对多的关系。例如,顾客在购物时可能同时购买多个产品,由多个特征向量描述的对象称为矩阵对象,由矩阵对象构成的数据集称为矩阵对象数据集。表1中描述了来自http://www.taobao.com的真实数据集。表1有两部分,左半部分描述用户的基本信息,右边的则记录每个用户在不同时间点访问不同品牌的信息,其中属性“访问时间”代表用户在同一天访问一个品牌的时间。我们将左边的部分称为主表,右边的部分称为数据库中的明细表,表中两个部分存在一种典型的一对多关系。表1中的数据具有以下特点:(1)相关性,主表和明细表中的数据可能有一定的相关性,不同性别或年龄的用户可能有不同的偏好。例如,24岁女性用户访问了大多数女性用户通常使用的商品,如JOSINY和WETHERM;然而,4本文档来自技高网...

【技术保护点】
1.一种处理现实生活中分类型数据的有效方法,其特征在于,包含以下步骤:/n步骤1,随机从含有n个样本的数据集X中选取k个初始点,k为数据集X的分类数目;/n步骤2,计算每个对象到k个初始点的距离,将对象分配到与其距离最小的初始点类中,得到k个簇;/n步骤3,计算每个对象到k个中心的隶属度,并用启发式更新算法更新k个簇的类中心,类中心表示为w

【技术特征摘要】
1.一种处理现实生活中分类型数据的有效方法,其特征在于,包含以下步骤:
步骤1,随机从含有n个样本的数据集X中选取k个初始点,k为数据集X的分类数目;
步骤2,计算每个对象到k个初始点的距离,将对象分配到与其距离最小的初始点类中,得到k个簇;
步骤3,计算每个对象到k个中心的隶属度,并用启发式更新算法更新k个簇的类中心,类中心表示为wk;
步骤4,重复步骤2、步骤3,直到类中心wk不变为止。


2.根据权利要求1所述的一种处理现实生活中分类型数据的有效方法,其特征在于:所述步骤2中的计算每个对象到k个初始点的距离d(Xi,Xj),具体为:



其中



式(2)中表示矩阵对象Xi在属性As上的所有属性值,即值域.1/2是标准化因子,因为0≤δ(Xis,Xjs)≤2,当时,δ(Xis,Xjs)=0;当时,δ(Xis,Xjs)=2。


3.根据权利要求1所述的一种处理现实生活中分类型数据的有效方法,其特征在于:所述步骤3中计算每个对象到k个中心的隶属度,并用启发式更新算法更新k个簇的类中心wk,具体为:





4.根据权利要求1所述的一种处理现实生活中分类型数据的有效方法,其特征在于:所述步骤3中的启发式更新算法的具体步骤为:
步骤3.1,对式5进行分析,如果Ql能使式5达到最小,则Ql是X的类中心,

<...

【专利技术属性】
技术研发人员:李顺勇张苗苗张钰嘉
申请(专利权)人:山西大学
类型:发明
国别省市:山西;14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1