BIRCH算法的优化方法、装置、设备及存储介质制造方法及图纸

技术编号:26971811 阅读:32 留言:0更新日期:2021-01-06 00:03
本发明专利技术实施例公开了一种BIRCH算法的优化方法、装置、设备及存储介质。其中方法包括:确定待聚类数据与目标叶子节点中的聚类特征间的相似度,其中所述目标叶子节点是从预设的聚类特征树中确定的;若待聚类数据与目标叶子节点中的聚类特征间的相似度不符合预设条件,则确定待聚类数据与其他叶子节点中聚类特征间的相似度;根据待聚类数据与其他叶子节点中聚类特征间的相似度,对待聚类数据进行聚类。本发明专利技术实施例实现了在待聚类数据无法融入目标叶子节点中的聚类特征时,通过确定待聚类数据与其他叶子节点中聚类特征间的相似度,以对待聚类数据进行聚类,从而能够提高数据聚类的准确度,提升用户体验。

【技术实现步骤摘要】
BIRCH算法的优化方法、装置、设备及存储介质
本专利技术实施例涉及计算机
,尤其涉及一种BIRCH算法的优化方法、装置、设备及存储介质。
技术介绍
随着互联网技术及计算机技术的发展,越来越多的数据被存储,以用于对存储的数据进行挖掘再利用。例如,对人脸图片数据进行聚类分析,识别人脸图片中人物身份等。在实际应用过程中,可利用层次方法的平衡迭代规约和聚类(BalancedIterativeReducingandClusteringUsingHierarchies,缩写:BIRCH)算法,对存储的数据进行聚类,实现数据的挖掘和利用。其中BIRCH算法属于机器学习领域的一种无监督式的学习算法,可以将具有相似特征的数据划为一类。然而,利用传统的BIRCH算法对少量数据进行聚类时,尚能达到较高的效率和准确度,但是当数据量大时,由于聚类结果与数据插入聚类特征树的顺序有关,例如刚开始聚类时,数据较少,这时某一类别的特征信息可能与能够代表该类别的真实特征信息偏离度较大,这就可能导致后面的数据与此时的特征信息进行比对时,得到的相似度低于相似度本文档来自技高网...

【技术保护点】
1.一种BIRCH算法的优化方法,其特征在于,所述方法包括:/n确定待聚类数据与目标叶子节点中的聚类特征间的相似度,其中所述目标叶子节点是从预设的聚类特征树中确定的;/n若所述待聚类数据与所述目标叶子节点中的聚类特征间的相似度不符合预设条件,则确定所述待聚类数据与其他叶子节点中聚类特征间的相似度;/n根据所述待聚类数据与其他叶子节点中聚类特征间的相似度,对所述待聚类数据进行聚类。/n

【技术特征摘要】
1.一种BIRCH算法的优化方法,其特征在于,所述方法包括:
确定待聚类数据与目标叶子节点中的聚类特征间的相似度,其中所述目标叶子节点是从预设的聚类特征树中确定的;
若所述待聚类数据与所述目标叶子节点中的聚类特征间的相似度不符合预设条件,则确定所述待聚类数据与其他叶子节点中聚类特征间的相似度;
根据所述待聚类数据与其他叶子节点中聚类特征间的相似度,对所述待聚类数据进行聚类。


2.根据权利要求1所述的方法,其特征在于,所述根据所述待聚类数据与其他叶子节点中聚类特征间的相似度,对所述待聚类数据进行聚类,包括:
若所述待聚类数据与任一其他叶子节点中任一聚类特征的相似度大于相似度阈值,则将所述待聚类数据融入所述其他叶子节点的聚类特征中;
若所述待聚类数据与所述其他叶子节点中聚类特征间的相似度均小于或者等于所述相似度阈值,则在所述目标叶子节点中新建一个聚类特征,以将所述待聚类数据融入所述新建的聚类特征中。


3.根据权利要求1所述的方法,其特征在于,所述对所述待聚类数据进行聚类之后,还包括:
利用所述预设的聚类特征树中节点与指向所述节点的聚类特征间的双向指针,根据所述待聚类数据的特征信息,更新节点中聚类特征的特征信息,其中节点包括:根节点、非叶子节点及叶子节点。


4.根据权利要求3所述的方法,其特征在于,所述根据所述预设的聚类特征树中节点与指向所述节点的聚类特征间的双向指针,更新节点中聚类特征的特征信息,包括:
根据待聚类数据的特征信息,更新叶子节点中所述待聚类数据所属的聚类特征的特征信息;
根据双向指针确定所述叶子节点的聚类特征所属的非叶子节点的聚类特征,并根据所述叶子节点的聚类特征的特征信息,对所述非叶子节点的聚类特征的特征信息进行更新;
根据...

【专利技术属性】
技术研发人员:江绪宇
申请(专利权)人:浙江宇视科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1