用于对输入数据进行聚类的设备和方法技术

技术编号：26896409 阅读：43 留言：0更新日期：2020-12-29 16:24

本发明专利技术提供一种用于对输入数据(101)进行聚类的设备(100)。所述输入数据为包括数据点的数据集。所述设备(100)包括：自动编码单元(102)，用于在所述设备(100)的第一操作阶段中，降低所述输入数据(101)的维度，以及/或者从所述输入数据(101)中提取与聚类相关的特征，从而产生低维数据(103)；聚类单元(104)，用于在所述设备(100)的第二操作阶段中，根据所述低维数据(103)获得至少一个集群(105)，以及将所述低维数据(103)中的每个数据点与所述至少一个集群(105)中的一个集群关联，其中，所述自动编码单元(102)优化所述低维数据(103)，以对所述低维数据103进行无损重建。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于对输入数据进行聚类的设备和方法
本专利技术涉及机器学习和聚类领域，即在大型数据集中发现相似结构的过程。更具体地，本专利技术涉及一种用于对输入数据进行聚类的设备及对应的方法，其中，所述设备包括自动编码单元和聚类单元。
技术介绍
聚类是目前最基本的无监督机器学习问题之一。它的主要目标是将输入数据的数据集分成包括相似数据点的集群。例如，聚类可以用于根据用户行为对用户进行聚类，例如出于网络安全目的、针对IT运维的事件聚类、针对医疗保健应用或工业监控应用的聚类和异常检测。除了这些应用之外，聚类还有益于其它多种基本任务。例如，聚类可以用于监督学习的自动数据标记，也可以作为数据可视化和分析的预处理步骤。在现有技术中，维度降低和特征提取与聚类一起使用，以将输入数据映射到特征空间中。在特征空间中，考虑到当前问题的背景，分离到集群中更容易实现。使用深度神经网络(deepneuralnetwork，DNN)可以学习非线性映射，从而可以将输入数据转换为更易于聚类的表示。在现有技术中，维度降低/特征选择和聚类分别在两阶段过程中处理，如图7...

【技术保护点】
1.一种用于对输入数据(101)进行聚类的设备(100)，其特征在于，所述输入数据(101)为包括数据点的数据集，所述设备(100)包括：/n-自动编码单元(102)，用于在所述设备(100)的第一操作阶段中，降低所述输入数据(101)的维度，以及/或者从所述输入数据(101)中提取与聚类相关的特征，从而产生低维数据(103)；/n-聚类单元(104)，用于在所述设备(100)的第二操作阶段中，根据所述低维数据(103)获得至少一个集群(105)，以及将所述低维数据(103)中的每个数据点与所述至少一个集群(105)的一个集群关联，/n其中，所述自动编码单元(102)优化所述低维数据(103)...

【技术特征摘要】
【国外来华专利技术】1.一种用于对输入数据(101)进行聚类的设备(100)，其特征在于，所述输入数据(101)为包括数据点的数据集，所述设备(100)包括：
-自动编码单元(102)，用于在所述设备(100)的第一操作阶段中，降低所述输入数据(101)的维度，以及/或者从所述输入数据(101)中提取与聚类相关的特征，从而产生低维数据(103)；
-聚类单元(104)，用于在所述设备(100)的第二操作阶段中，根据所述低维数据(103)获得至少一个集群(105)，以及将所述低维数据(103)中的每个数据点与所述至少一个集群(105)的一个集群关联，
其中，所述自动编码单元(102)优化所述低维数据(103)，以对所述低维数据(103)进行无损重建。

2.根据权利要求1所述的设备(100)，其特征在于，所述低维数据(103)包括线性独立代码行，从而最小化重建损失。

3.根据上述权利要求中任一项所述的设备(100)，其特征在于，所述输入数据(101)的维度降低包括将第一函数应用于所述输入数据(101)，其中，所述第一函数用于最小化所述输入数据(101)中的数据点的成对相似度，以提供所述低维数据(103)。

4.根据权利要求3所述的设备(100)，其特征在于，所述第一函数将相似度度量应用于所述输入数据(101)中的数据点。

5.根据权利要求4所述的设备(100)，其特征在于，所述第一函数应用的相似度度量为余弦相似度。

6.根据上述权利要求中任一项所述的设备(100)，其特征在于，所述设备(100)还包括解码器(201)，用于对所述低维数据(103)进行解码，以及将所述低维数据(103)与所述输入数据(101)进行比较，以测量重建损失并调整所述自动编码单元(102)的操作参数，从而最小化重建损失。

7.根据上述权利要求中任一项所述的设备(100)，其特征在于，所述聚类单元(104)还用于获得每个集群(105)的质心参数。

8.根据权利要求7所述的设备(100)，其特征在于，所述聚类单元(104)还用于根据集群的质心参数确定数据点分配...

【专利技术属性】
技术研发人员：埃拉德·佐里夫，奥尔加·科根，尤尼·乔克伦，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人