【技术实现步骤摘要】
数据挖掘方法、装置、终端设备和可读存储介质
本专利技术涉及数据挖掘领域,尤其涉及一种数据挖掘方法、装置、终端设备和可读存储介质。
技术介绍
随着网络技术的发展和应用,信息资源爆炸式增长,文本挖掘、信息过滤和信息搜索的研究出现了前所未有的前景。因此,聚类技术正成为文本信息挖掘技术的核心。文本聚类是文本挖掘中用来发现数据分布及其隐含数据模式的一项重要技术。目前,在数据挖掘领域,一些简单的聚类算法由于原理简单,易于实现,收敛速度快等优点而得到广泛应用,然而这种算法对不同的初始值会导致不同的聚类结果,容易陷入局部最小值,使得聚类结果并不理想,不利于对大量的数据信息进行有效准确的信息挖掘和客观分析。
技术实现思路
鉴于上述问题,本专利技术提出一种数据挖掘方法、装置、终端设备和可读存储介质。本专利技术的一个实施例提出一种数据挖掘方法,该方法包括:对待分析数据进行处理以获取标准数据集;当以所述标准数据集作为待分类的目标集时,在目标集中选取一个数据样本作为聚类中心;以目标集的聚类中心和距离 ...
【技术保护点】
1.一种数据挖掘方法,其特征在于,该方法包括:/n对待分析数据进行处理以获取标准数据集;/n当以所述标准数据集作为待分类的目标集时,在目标集中选取一个数据样本作为聚类中心;/n以目标集的聚类中心和距离所述目标集的聚类中心最远的数据样本为中心执行分类操作;/n根据预设的误差平方和公式分别计算各个类别的紧凑度;/n以紧凑度最小的类别作为新的目标集,重复执行所述分类操作,直至分类数目达到预设数目。/n
【技术特征摘要】
1.一种数据挖掘方法,其特征在于,该方法包括:
对待分析数据进行处理以获取标准数据集;
当以所述标准数据集作为待分类的目标集时,在目标集中选取一个数据样本作为聚类中心;
以目标集的聚类中心和距离所述目标集的聚类中心最远的数据样本为中心执行分类操作;
根据预设的误差平方和公式分别计算各个类别的紧凑度;
以紧凑度最小的类别作为新的目标集,重复执行所述分类操作,直至分类数目达到预设数目。
2.根据权利要求1所述的数据挖掘方法,其特征在于,以目标集的聚类中心和距离所述目标集的聚类中心最远的数据样本为中心执行分类操作,包括:
根据距离度量公式计算所述目标集中各个数据样本与所述目标集的聚类中心之间的第一距离,以及所述目标集中各个数据样本与所述距离所述目标集的聚类中心最远的数据样本之间的第二距离;
将所述第一距离小于所述第二距离的数据样本作为一类;
将所述第一距离大于等于所述第二距离的数据样本作为另一类。
3.根据权利要求1所述的数据挖掘方法,其特征在于,通过以下方式确定距离所述目标集的聚类中心最远的数据样本:
通过距离度量公式计算所述目标集中各个数据样本与所述目标集的聚类中心之间的距离;
选取距离最大的数据样本作为距离所述目标集的聚类中心最远的数据样本。
4.根据权利要求2或3所述的数据挖掘方法,其特征在于,所述距离度量公式如下:
dis代表两个数据样本之间的距离,Ai代表一个数据样本的权值向量的第i个坐标点,Bi代表另一个数据样本的权值向量的第i个坐标点,n代表权值向量中坐标点数目。
5.根据权利要求1所述的数据挖掘方法,其特征在于,所述误差平方和公式如下:
ASSE代表所述误差平方和,用于反映以cl作为聚类中心的类别的紧凑度,ck代表另一个聚类中...
【专利技术属性】
技术研发人员:衣杨,佘滢,宋嘉伦,赵福利,林倩青,周晓聪,
申请(专利权)人:中山大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。