【技术实现步骤摘要】
【国外来华专利技术】用于对输入数据进行聚类的设备和方法
本专利技术涉及机器学习和聚类领域,即在大型数据集中发现相似结构的过程。更具体地,本专利技术涉及一种用于对输入数据进行聚类的设备及对应的方法,其中,所述设备包括自动编码单元和聚类单元。
技术介绍
聚类是目前最基本的无监督机器学习问题之一。它的主要目标是将输入数据的数据集分成包括相似数据点的集群。例如,聚类可以用于根据用户行为对用户进行聚类,例如出于网络安全目的、针对IT运维的事件聚类、针对医疗保健应用或工业监控应用的聚类和异常检测。除了这些应用之外,聚类还有益于其它多种基本任务。例如,聚类可以用于监督学习的自动数据标记,也可以作为数据可视化和分析的预处理步骤。在现有技术中,维度降低和特征提取与聚类一起使用,以将输入数据映射到特征空间中。在特征空间中,考虑到当前问题的背景,分离到集群中更容易实现。使用深度神经网络(deepneuralnetwork,DNN)可以学习非线性映射,从而可以将输入数据转换为更易于聚类的表示。在现有技术中,维度降低/特征选择和聚类分别在两阶段过程中处理,如图7 ...
【技术保护点】
1.一种用于对输入数据(101)进行聚类的设备(100),其特征在于,所述输入数据(101)为包括数据点的数据集,所述设备(100)包括:/n-自动编码单元(102),用于在所述设备(100)的第一操作阶段中,降低所述输入数据(101)的维度,以及/或者从所述输入数据(101)中提取与聚类相关的特征,从而产生低维数据(103);/n-聚类单元(104),用于在所述设备(100)的第二操作阶段中,根据所述低维数据(103)获得至少一个集群(105),以及将所述低维数据(103)中的每个数据点与所述至少一个集群(105)的一个集群关联,/n其中,所述自动编码单元(102)优化所 ...
【技术特征摘要】
【国外来华专利技术】1.一种用于对输入数据(101)进行聚类的设备(100),其特征在于,所述输入数据(101)为包括数据点的数据集,所述设备(100)包括:
-自动编码单元(102),用于在所述设备(100)的第一操作阶段中,降低所述输入数据(101)的维度,以及/或者从所述输入数据(101)中提取与聚类相关的特征,从而产生低维数据(103);
-聚类单元(104),用于在所述设备(100)的第二操作阶段中,根据所述低维数据(103)获得至少一个集群(105),以及将所述低维数据(103)中的每个数据点与所述至少一个集群(105)的一个集群关联,
其中,所述自动编码单元(102)优化所述低维数据(103),以对所述低维数据(103)进行无损重建。
2.根据权利要求1所述的设备(100),其特征在于,所述低维数据(103)包括线性独立代码行,从而最小化重建损失。
3.根据上述权利要求中任一项所述的设备(100),其特征在于,所述输入数据(101)的维度降低包括将第一函数应用于所述输入数据(101),其中,所述第一函数用于最小化所述输入数据(101)中的数据点的成对相似度,以提供所述低维数据(103)。
4.根据权利要求3所述的设备(100),其特征在于,所述第一函数将相似度度量应用于所述输入数据(101)中的数据点。
5.根据权利要求4所述的设备(100),其特征在于,所述第一函数应用的相似度度量为余弦相似度。
6.根据上述权利要求中任一项所述的设备(100),其特征在于,所述设备(100)还包括解码器(201),用于对所述低维数据(103)进行解码,以及将所述低维数据(103)与所述输入数据(101)进行比较,以测量重建损失并调整所述自动编码单元(102)的操作参数,从而最小化重建损失。
7.根据上述权利要求中任一项所述的设备(100),其特征在于,所述聚类单元(104)还用于获得每个集群(105)的质心参数。
8.根据权利要求7所述的设备(100),其特征在于,所述聚类单元(104)还用于根据集群的质心参数确定数据点分配...
【专利技术属性】
技术研发人员:埃拉德·佐里夫,奥尔加·科根,尤尼·乔克伦,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。