基于聚类的分类方法、装置、存储介质和电子设备制造方法及图纸

技术编号:20589745 阅读:23 留言:0更新日期:2019-03-16 07:25
本公开涉及一种基于聚类的分类方法、装置、存储介质和电子设备,涉及信息技术领域,该方法包括:获取待分类的多个对象对应的多个样本数据和多种特征,每个样本数据中包括多种特征中的部分或全部特征对应的数据,根据多个样本数据,获取多种特征中的每两种特征的关联度,根据每两种特征的关联度,确定多种特征中每种特征的权值,根据每种特征的权值,对多个对象进行聚类,以确定多个对象的分类结果。能够在没有先验知识的条件下,结合特征的关联度和特征对聚类影响的大小,来对待分类对象进行分类,提高了分类的准确度。

【技术实现步骤摘要】
基于聚类的分类方法、装置、存储介质和电子设备
本公开涉及信息
,具体地,涉及一种基于聚类的分类方法、装置、存储介质和电子设备。
技术介绍
随着互联网、云计算和物联网等信息技术的迅猛发展,相应带来的数据量也是呈现爆发式的增长,在对于某一种对象进行分类时,需要通过分析该种对象的多个特征、和多个特征对应的大量数据,得到该种对象中每个对象的指标,以实现分类。但每个特征对该种对象在分类时的影响不同,通常需要借助有监督的学习环境(例如:能够预先获取人为经验或先验知识)对多种特征进行分类标识,因此在无监督的学习环境下进行对象分类,会降低分类的准确度。例如,在对医疗卫生机构按照收费标准进行分类时,每个医疗卫生机构包括了多种特征:手术费用、治疗费用、药物费用、医保比例、药物标准等,由于收费标准涉及多个部门多方面的资金,缺少相关研究和先验知识,所以很难对医疗卫生机构进行准确分类。
技术实现思路
本公开的目的是提供一种基于聚类的分类方法、装置、存储介质和电子设备,用以解决现有技术中缺少先验知识时,分类准确度低的问题。为了实现上述目的,根据本公开实施例的第一方面,提供一种基于聚类的分类方法,所述方法包括:获取待分类的多个对象对应的多个样本数据和多种特征,每个所述样本数据中包括所述多种特征中的部分或全部特征对应的数据;根据所述多个样本数据,获取所述多种特征中的每两种特征的关联度;根据所述每两种特征的关联度,确定所述多种特征中每种特征的权值;根据所述每种特征的权值,对所述多个对象进行聚类,以确定所述多个对象的分类结果。可选地,所述根据所述多个样本数据,获取所述多种特征中的每两种特征的关联度,包括:根据第一特征和第二特征在每个所述样本数据中对应的数据,和所述第一特征和所述第二特征在全部所述样本数据中对应的数据的平均值,利用预设的第一计算公式获取所述第一特征和所述第二特征的关联度,所述第一特征和所述第二特征为所述多种特征中的任意两种特征。可选的,所述第一计算公式包括:其中,wAB表示所述第一特征和所述第二特征的关联度,A表示第一特征,B表示第二特征,Ai表示A在N个所述样本数据中的第i个样本数据中对应的数据,Bi表示B在N个所述样本数据中所述第i个样本数据中对应的数据,表示A在N个所述样本数据中对应的数据的平均值,表示B在N个所述样本数据中对应的数据的平均值。可选的,根据所述每两种特征的关联度,确定所述多种特征中每种特征的权值,包括:根据所述每两种特征的关联度,和所述多种特征中除第三特征之外的所有特征在上一次迭代的影响度,利用预设的第二计算公式确定所述第三特征在本次迭代的影响度,所述第三特征为所述多种特征中的任一种特征;其中,所述多种特征中每种特征在第一次迭代的影响度是预先设置的;重复执行所述根据所述每两种特征的关联度,和所述多种特征中除第三特征之外的所有特征在上一次迭代的影响度,利用预设的第二计算公式确定所述第三特征在本次迭代的影响度,直至所述第三特征在本次迭代的影响度满足预设影响度条件时,将所述第三特征在本次迭代的影响度作为所述第三特征的权值。可选的,所述第二计算公式包括:其中,S表示本次迭代的迭代次数,S-1表示上一次迭代的迭代次数,A表示所述第三特征,Qs(A)表示A在本次迭代的影响度,B表示所述多种特征中除A之外的所有特征中的任一特征,Qs-1(B)表示B在上一次迭代的影响度,K表示所述多种特征中的任一特征,wAB表示A和B的关联度,wKB表示K和B的关联度;所述预设影响度条件包括:Qs(A)与Qs-1(A)的差值的绝对值小于预设的影响阈值;和/或,S等于预设数值。可选的,所述根据所述每种特征的权值,对所述多个对象进行聚类,以确定所述多个对象的分类结果,包括:根据所述每种特征的权值,确定所述每种特征在所述多种特征中的顺序;根据所述顺序对所述多个对象进行聚类,以确定所述多个对象的分类结果。根据本公开实施例的第二方面,提供一种基于聚类的分类装置,所述装置包括:数据获取模块,用于获取待分类的多个对象对应的多个样本数据和多种特征,每个所述样本数据中包括所述多种特征中的部分或全部特征对应的数据;关联度获取模块,用于根据所述多个样本数据,获取所述多种特征中的每两种特征的关联度;确定模块,用于根据所述每两种特征的关联度,确定所述多种特征中每种特征的权值;聚类模块,用于根据所述每种特征的权值,对所述多个对象进行聚类,以确定所述多个对象的分类结果。可选的,所述关联度获取模块用于:根据第一特征和第二特征在每个所述样本数据中对应的数据,和所述第一特征和所述第二特征在全部所述样本数据中对应的数据的平均值,利用预设的第一计算公式获取所述第一特征和所述第二特征的关联度,所述第一特征和所述第二特征为所述多种特征中的任意两种特征。可选的,所述第一计算公式包括:其中,wAB表示所述第一特征和所述第二特征的关联度,A表示第一特征,B表示第二特征,Ai表示A在N个所述样本数据中的第i个样本数据中对应的数据,Bi表示B在N个所述样本数据中所述第i个样本数据中对应的数据,表示A在N个所述样本数据中对应的数据的平均值,表示B在N个所述样本数据中对应的数据的平均值。可选的,所述确定模块包括:影响度确定子模块,用于根据所述每两种特征的关联度,和所述多种特征中除第三特征之外的所有特征在上一次迭代的影响度,利用预设的第二计算公式确定所述第三特征在本次迭代的影响度,所述第三特征为所述多种特征中的任一种特征;其中,所述多种特征中每种特征在第一次迭代的影响度是预先设置的;迭代子模块,用于重复执行所述根据所述每两种特征的关联度,和所述多种特征中除第三特征之外的所有特征在上一次迭代的影响度,利用预设的第二计算公式确定所述第三特征在本次迭代的影响度,直至所述第三特征在本次迭代的影响度满足预设影响度条件时,将所述第三特征在本次迭代的影响度作为所述第三特征的权值。可选的,所述第二计算公式包括:其中,S表示本次迭代的迭代次数,S-1表示上一次迭代的迭代次数,A表示所述第三特征,Qs(A)表示A在本次迭代的影响度,B表示所述多种特征中除A之外的所有特征中的任一特征,Qs-1(B)表示B在上一次迭代的影响度,K表示所述多种特征中的任一特征,wAB表示A和B的关联度,wKB表示K和B的关联度;所述预设影响度条件包括:Qs(A)与Qs-1(A)的差值的绝对值小于预设的影响阈值;和/或,S等于预设数值。可选的,所述聚类模块包括:排序子模块,用于根据所述每种特征的权值,确定所述每种特征在所述多种特征中的顺序;聚类子模块,用于根据所述顺序对所述多个对象进行聚类,以确定所述多个对象的分类结果。根据本公开实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现第一方面提供的基于聚类的分类方法的步骤。根据本公开实施例的第四方面,提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现第一方面提供的基于聚类的分类方法的步骤。通过上述技术方案,本公开首先获取待分类的多个对象对应的多个样本数据和多种特征,其中,每个样本数据中都包括多种特征中的部分或全部特征对应的数据,再根据全部样本数据中每两种特征对应的数据,确本文档来自技高网...

【技术保护点】
1.一种基于聚类的分类方法,其特征在于,所述方法包括:获取待分类的多个对象对应的多个样本数据和多种特征,每个所述样本数据中包括所述多种特征中的部分或全部特征对应的数据;根据所述多个样本数据,获取所述多种特征中的每两种特征的关联度;根据所述每两种特征的关联度,确定所述多种特征中每种特征的权值;根据所述每种特征的权值,对所述多个对象进行聚类,以确定所述多个对象的分类结果。

【技术特征摘要】
1.一种基于聚类的分类方法,其特征在于,所述方法包括:获取待分类的多个对象对应的多个样本数据和多种特征,每个所述样本数据中包括所述多种特征中的部分或全部特征对应的数据;根据所述多个样本数据,获取所述多种特征中的每两种特征的关联度;根据所述每两种特征的关联度,确定所述多种特征中每种特征的权值;根据所述每种特征的权值,对所述多个对象进行聚类,以确定所述多个对象的分类结果。2.根据权利要求1所述的方法,其特征在于,所述根据所述多个样本数据,获取所述多种特征中的每两种特征的关联度,包括:根据第一特征和第二特征在每个所述样本数据中对应的数据,和所述第一特征和所述第二特征在全部所述样本数据中对应的数据的平均值,利用预设的第一计算公式获取所述第一特征和所述第二特征的关联度,所述第一特征和所述第二特征为所述多种特征中的任意两种特征。3.根据权利要求2所述的方法,其特征在于,所述第一计算公式包括:其中,wAB表示所述第一特征和所述第二特征的关联度,A表示第一特征,B表示第二特征,Ai表示A在N个所述样本数据中的第i个样本数据中对应的数据,Bi表示B在N个所述样本数据中所述第i个样本数据中对应的数据,表示A在N个所述样本数据中对应的数据的平均值,表示B在N个所述样本数据中对应的数据的平均值。4.根据权利要求1所述的方法,其特征在于,根据所述每两种特征的关联度,确定所述多种特征中每种特征的权值,包括:根据所述每两种特征的关联度,和所述多种特征中除第三特征之外的所有特征在上一次迭代的影响度,利用预设的第二计算公式确定所述第三特征在本次迭代的影响度,所述第三特征为所述多种特征中的任一种特征;其中,所述多种特征中每种特征在第一次迭代的影响度是预先设置的;重复执行所述根据所述每两种特征的关联度,和所述多种特征中除第三特征之外的所有特征在上一次迭代的影响度,利用预设的第二计算公式确定所述第三特征在本次迭代的影响度,直至所述第三特征在本次迭代的影响度满足预设影响度条件时,将所述第三特征在本次迭代的影响度作为所述第三特征的权值。5.根据权利要求4所述...

【专利技术属性】
技术研发人员:王阳赵立军张霞
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1