【技术实现步骤摘要】
一种K-means算法中获取目标类别数的方法和系统
本申请属于算法领域,尤其涉及一种K-means算法中获取目标类别数的方法和系统。
技术介绍
K-means算法是一种经典的聚类算法,可以有效地对大规模数据进行聚类,但是传统的K-means算法需要预先设定聚类的目标类别数,而这个值的设定多数时候是基于经验的,且经过现有技术的K-means算法训练的数据集会产生大量数据冗余,因此很难将目标类别数的数值取得合适恰当。
技术实现思路
本专利技术实施例的主要目的在于提供一种K-means算法中获取目标类别数的方法和系统,通过本专利技术实施例的方案,使得训练集被分为多个小训练集,去除了老训练集中的冗余数据,提升了训练集的训练效率和训练精度。第一方面,提供了一种K-means算法中获取目标类别数的方法,包括:获取数据集中第一聚类中心与其他样本的距离;将所述第一距离小于预设的距离阈值的第一样本确定为第一目标类别;将所述距离大于所述距离阈值的样本确定为第二聚类中心;获取与所述第二聚 ...
【技术保护点】
1.一种K-means算法中获取目标类别数的方法,其特征在于,包括:/n获取数据集中第一聚类中心与其他样本的距离;/n将所述第一距离小于预设的距离阈值的第一样本确定为第一目标类别;/n将所述距离大于所述距离阈值的样本确定为第二聚类中心;/n获取与所述第二聚类中心的距离小于所述距离阈值且不属于所述第一目标类别的第二样本,并将所述第二样本确定为第二目标类别。/n
【技术特征摘要】
1.一种K-means算法中获取目标类别数的方法,其特征在于,包括:
获取数据集中第一聚类中心与其他样本的距离;
将所述第一距离小于预设的距离阈值的第一样本确定为第一目标类别;
将所述距离大于所述距离阈值的样本确定为第二聚类中心;
获取与所述第二聚类中心的距离小于所述距离阈值且不属于所述第一目标类别的第二样本,并将所述第二样本确定为第二目标类别。
2.如权利要求1所述的方法,其特征在于,所述第一聚类中心点为指定选择。
3.如权利要求1所述的方法,其特征在于,所述第一聚类中心点为从训练集中随机选择。
4.如权利要求1所述的方法,其特征在于,所述距离阈值为0.5。
5.一种K-means算法中获取目标...
【专利技术属性】
技术研发人员:李健,郑为民,王帅,罗羿,
申请(专利权)人:福建工程学院,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。