一种基于本体的聚类服务方法技术

技术编号:12571882 阅读:129 留言:0更新日期:2015-12-23 13:25
本发明专利技术公开了一种基于本体的聚类服务方法,该方法首先构建一个顶层本体,基于顶层本体标注用户的聚类任务、聚类数据与已有聚类算法,对已标注本体进行属性选择,并作正二进制转换,得到任务事务、任务-数据和任务-聚类三个二进制向量,通过计算用户任务事务与历史任务事务数据库中的任务事务相似度,任务-数据与任务-聚类相似度,选择第一候选聚类算法与第二候选聚类算法,并实施聚类算法,最后使用Dunn聚类算法评价指标,评价聚类结果,将符合要求的结果返回给用户,是结合历史聚类任务,基于本体进行任务相似度计算,以选择合适的聚类算法,运行聚类算法并应用评价指标评价聚类算法,最终向用户提供最优聚类算法的聚类服务方法。

【技术实现步骤摘要】

本专利技术属于数据挖掘技术与聚类算法领域,具体设及一种根据用户目标,采用本 体服务框架实现自动匹配,执行聚类算法并评价聚类算法结果的方法。
技术介绍
聚类算法是数据挖掘领域的经典方法。大数据时代,通过聚类算法分析海量数据, 从中得到更有价值的信息,从而获得更好的决策能力。目前随着对聚类算法研究的不断深 入,研究人员提出了越来越多不同的聚类算法,包括基于划分的聚类、基于网格的聚类、基 于密度的聚类W及基于层次的聚类,运些算法针对不同维度、规模,类型的数据集提出,针 对相同的数据集,使用两个不同的聚类算法,得到的结果可能会有很大差异。用户由于缺乏 对具体聚类算法的了解,无法把握数据特征,从而选择了错误的聚类算法,导致聚类结果不 理想。根据此问题,利用已有的领域知识,实现聚类算法的自动匹配与执行,W及评估聚类 算法的结果,是一种理想的解决方案。目前已有的聚类服务方案,主要分为两类:一是指定固定的聚类算法,实施聚类算 法并返回结果,该类服务方案不需要处理种类繁多的聚类算法,但是有限的选择也导致最 终聚类结果不理想;另一类是针对特定的应用领域,提供聚类算法选择方案,该类服务方案 的优点是,针对特定应用领域,可W更细致地划分聚类任务与聚类目标,从而更精确地匹配 聚类算法,最终聚类结果也更符合用户目标,该类服务方案的缺点是应用范围单一。
技术实现思路
为了克服现有技术中聚类服务所存在的不足,本专利技术提供了一种结合历史聚类任 务,基于本体进行任务相似度计算,能够为用户提供最优的聚类算法的聚类服务方法。 本专利技术实现上述目的所采用的技术方案是由W下步骤组成: (1)构建顶层本体,该顶层本体包含数据类、任务类W及聚类算法类; 其中数据类的属性包括数据量大小、数据维度、数据类型和数据主题;任务类的属 性包括任务动作、任务对象、任务聚类结果和任务预期聚类簇数;所述聚类算法类的属性包 括聚类算法名、聚类数据类型、聚类数据量大小、聚类数据维度、相似度衡量方法、噪音点敏 感、聚类结果、是否设定簇数; 上述的数据量大小、数据维度、聚类数据量大小、聚类数据维度、任务预期聚类簇 数、噪音点敏感W及是否设定簇数属性均为布尔类型属性; 设定数据中,若数据量大于20万条,则数据量大小属性取值为1;否则取值为0; 若数据维度大于16,则数据维度属性取值为1;否则取值为0; 设定聚类算法中,若聚类算法时间复杂度T> 0(t2),t为数据量的规模,则聚类数 据量大小属性取值为1 ;否则为0 ; 若聚类算法适合处理多于16个维度的数据集,则聚类数据维度取值为1 ;否则,取 值为0 ; 若聚类算法对噪音点不敏感,则噪音点敏感属性取值为1 ;否则,取值为0 ; 若聚类算法需要用户提供聚类簇数作为参数,则是否设定簇数属性取值为1 ;否 则,取值为0 ; 上述的数据类型、任务动作、任务对象、任务聚类结果、聚类数据类型、相似度衡量 方法W及聚类形状均为枚举型属性; 上述的任务预期聚类簇数为数值型属性; 数据类型和聚类数据类型的值域均为数值型、二进制型和字符型;任务动作的值 域为匹配、分割和查找;任务对象的值域为数据中的所有维度;任务聚类结果和聚类结果 的值域为凸形和其它形状;相似度衡量方法值域为距离、密度、网格分割和混合模型; (2)根据所构建的顶层本体对聚类算法库中的每一个聚类算法进行标注,得到聚 类算法实例; (3)用户输入待聚类数据集,使用顶层本体对该待聚类数据集进行标注,得到数据 实例; (4)构建用户任务选择菜单,引导用户将聚类目标分解为聚类任务,并使用顶层本 体进行标注,得到任务实例; 用户任务选择菜单包括四项一级菜单,对应任务类的4个属性,每个一级菜单附 属一个二级菜单,二级菜单项为对应属性的值域,用户将菜单选择完毕后,即确定四个属性 的取值,将属性值写入RDF规则文件,生成一个任务实例; (5)根据步骤(3)与步骤(4)所得的数据实例与任务实例,选取其中所包含的除任 务对象W外的布尔型、枚举型和数值型的属性,经正二进制转换得到本任务事务,同时从历 史任务事务库中获取历史任务事务,用余弦相似度法计算历史任务事务与本任务事务的相 似度; (6)根据步骤(5)所得相似度,确定与本任务事务相似度最大的历史任务事务,选 取该历史任务事务所对应的聚类算法作为第一候选聚类算法; (7)根据步骤(3)与步骤(4)所得的数据实例与任务实例,选取任务实例中的任 务聚类结果、任务预期聚类簇数和数据类中的数据量大小、数据维度W及数据类型,经正二 进制转换,得到任务-数据实例;同理,根据步骤(2)中的聚类算法实例选取聚类结果、是 否设定簇数、聚类数据量大小、聚类数据维度W及聚类数据类型,经正二进制转换,得到任 务-聚类实例;用余弦相似度法计算任务-数据实例与任务-聚类实例之间的相似度,并根 据所得相似度,确定与任务-数据实例相似度最大的任务-聚类实例,选取该任务-聚类实 例对应的聚类算法作为第二候选聚类算法; (8)根据步骤(6)和步骤(7),执行第一候选聚类算法与第二候选聚类算法并得到 聚类结果,利用Dunn聚类算法评价指标分别对其聚类结果进行评价,选取Dunn指标值较大 的聚类结果,呈现给用户;(9)用户判断是否对所呈现的聚类结果满意,若用户对聚类结果满意,将执行本次 任务生成的任务事务存入历史任务事务数据库,并关联此次任务选取的聚类算法,结束本 次任务;否则,执行步骤(10);[002引 (10)重复执行(4)到巧)。上述步骤(2)中的聚类算法的标注方法具体是:针对每个聚类算法,人工审查聚 类算法的实现代码,依据代码内容,确定聚类算法类中各个属性的取值,将所有的属性值写 入RDF规则文件,生成聚类算法实例。 上述步骤(3)中的聚类数据集的标注方法具体是:系统根据用户上传的数据集, 自动执行查询程序,查询数据特征,确定数据类中数据维度,数据量大小W及数据类型=个 属性的取值,数据主题属性值由人工根据数据集所表示的专业领域确定;确定各属性值后, 将所有属性值写入RDF规则文件,生成数据实例。 上述正二进制转换的具体方法是:依次处理每个属性,对于布尔型属性,若值为 真,则对应二进制位为1,否则为0 ;对于枚举型属性,每个枚举值对应一个二进制位,对每 个枚举值,若属性取该枚举值,对应二进制位为1,否则为0 ;对于数值型属性,若值为0,则 对应二进制位为0,否则为1。 上述步骤妨中所述余弦相似度法的计算方法为:[003引其中,J与云表示两个向量,|间|与I同I分别表示2与i的模,Ai与Bi分别表示向 量2与5的第i个分量,使用cos( 0 )衡量两个向量的相似性,其值域为-1到1,-1表示两 个向量正好截然相反,1表示两个向量完全相同,0通常表示它们之间是独立的,位于-1与 1之间的值则表示两个向量的相似性。 上述步骤(8)的Dunn指标的计算公式如下:[003引其中,Cp表示簇P,聚类结果中共有m个簇,d(cP,Cq)是簇Cp与Cq之间的不一致性 度量,表示两个簇中差异最小的两个点之间的距离,diam(Ck)是簇Ck的直径,用于度量簇内 的离散程度,它的定义如下: X,y表示簇Ck中的点,dist(x,y)为点X,y的距离,该式表明,簇Ck的直本文档来自技高网...

【技术保护点】
一种基于本体的聚类服务方法,其特征在于由以下步骤组成:(1)构建顶层本体,该顶层本体包含数据类、任务类以及聚类算法类;其中数据类的属性包括数据量大小、数据维度、数据类型和数据主题;任务类的属性包括任务动作、任务对象、任务聚类结果和任务预期聚类簇数;所述聚类算法类的属性包括聚类算法名、聚类数据类型、聚类数据量大小、聚类数据维度、相似度衡量方法、噪音点敏感、聚类结果、是否设定簇数;上述的数据量大小、数据维度、聚类数据量大小、聚类数据维度、任务预期聚类簇数、噪音点敏感以及是否设定簇数属性均为布尔类型属性;设定数据中,若数据量大于20万条,则数据量大小属性取值为1;否则取值为0;若数据维度大于16,则数据维度属性取值为1;否则取值为0;设定聚类算法中,若聚类算法时间复杂度T≥O(t2),t为数据量的规模,则聚类数据量大小属性取值为1;否则为0;若聚类算法适合处理多于16个维度的数据集,则聚类数据维度取值为1;否则,取值为0;若聚类算法对噪音点不敏感,则噪音点敏感属性取值为1;否则,取值为0;若聚类算法需要用户提供聚类簇数作为参数,则是否设定簇数属性取值为1;否则,取值为0;上述的数据类型、任务动作、任务对象、任务聚类结果、聚类数据类型、相似度衡量方法以及聚类形状均为枚举型属性;上述的任务预期聚类簇数为数值型属性;数据类型和聚类数据类型的值域均为数值型、二进制型和字符型;任务动作的值域为匹配、分割和查找;任务对象的值域为数据中的所有维度;任务聚类结果和聚类结果的值域为凸形和其它形状;相似度衡量方法值域为距离、密度、网格分割和混合模型;(2)根据所构建的顶层本体对聚类算法库中的每一个聚类算法进行标注,得到聚类算法实例;(3)用户输入待聚类数据集,使用顶层本体对该待聚类数据集进行标注,得到数据实例;(4)构建用户任务选择菜单,引导用户将聚类目标分解为聚类任务,并使用顶层本体进行标注,得到任务实例;用户任务选择菜单包括四项一级菜单,对应任务类的4个属性,每个一级菜单附属一个二级菜单,二级菜单项为对应属性的值域,用户将菜单选择完毕后,即确定四个属性的取值,将属性值写入RDF规则文件,生成一个任务实例;(5)根据步骤(3)与步骤(4)所得的数据实例与任务实例,选取其中所包含的除任务对象以外的布尔型、枚举型和数值型的属性,经正二进制转换得到本任务事务,同时从历史任务事务库中获取历史任务事务,用余弦相似度法计算历史任务事务与本任务事务的相似度;(6)根据步骤(5)所得相似度,确定与本任务事务相似度最大的历史任务事务,选取该历史任务事务所对应的聚类算法作为第一候选聚类算法;(7)根据步骤(3)与步骤(4)所得的数据实例与任务实例,选取任务实例中的任务聚类结果、任务预期聚类簇数和数据类中的数据量大小、数据维度以及数据类型,经正二进制转换,得到任务‑数据实例;同理,根据步骤(2)中的聚类算法实例选取聚类结果、是否设定簇数、聚类数据量大小、聚类数据维度以及聚类数据类型,经正二进制转换,得到任务‑聚类实例;用余弦相似度法计算任务‑数据实例与任务‑聚类实例之间的相似度,并根据所得相似度,确定与任务‑数据实例相似度最大的任务‑聚类实例,选取该任务‑聚类实例对应的聚类算法作为第二候选聚类算法;(8)根据步骤(6)和步骤(7),执行第一候选聚类算法与第二候选聚类算法并得到聚类结果,利用Dunn聚类算法评价指标分别对其聚类结果进行评价,选取Dunn指标值较大的聚类结果,呈现给用户;(9)用户判断是否对所呈现的聚类结果满意,若用户对聚类结果满意,将执行本次任务生成的任务事务存入历史任务事务数据库,并关联此次任务选取的聚类算法,结束本次任务;否则,执行步骤(10);(10)重复执行(4)到(9)。...

【技术特征摘要】

【专利技术属性】
技术研发人员:曹菡王振璇郭延辉
申请(专利权)人:陕西师范大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1