用于对输入数据进行聚类的设备和方法技术

技术编号:26896409 阅读:32 留言:0更新日期:2020-12-29 16:24
本发明专利技术提供一种用于对输入数据(101)进行聚类的设备(100)。所述输入数据为包括数据点的数据集。所述设备(100)包括:自动编码单元(102),用于在所述设备(100)的第一操作阶段中,降低所述输入数据(101)的维度,以及/或者从所述输入数据(101)中提取与聚类相关的特征,从而产生低维数据(103);聚类单元(104),用于在所述设备(100)的第二操作阶段中,根据所述低维数据(103)获得至少一个集群(105),以及将所述低维数据(103)中的每个数据点与所述至少一个集群(105)中的一个集群关联,其中,所述自动编码单元(102)优化所述低维数据(103),以对所述低维数据103进行无损重建。

【技术实现步骤摘要】
【国外来华专利技术】用于对输入数据进行聚类的设备和方法
本专利技术涉及机器学习和聚类领域,即在大型数据集中发现相似结构的过程。更具体地,本专利技术涉及一种用于对输入数据进行聚类的设备及对应的方法,其中,所述设备包括自动编码单元和聚类单元。
技术介绍
聚类是目前最基本的无监督机器学习问题之一。它的主要目标是将输入数据的数据集分成包括相似数据点的集群。例如,聚类可以用于根据用户行为对用户进行聚类,例如出于网络安全目的、针对IT运维的事件聚类、针对医疗保健应用或工业监控应用的聚类和异常检测。除了这些应用之外,聚类还有益于其它多种基本任务。例如,聚类可以用于监督学习的自动数据标记,也可以作为数据可视化和分析的预处理步骤。在现有技术中,维度降低和特征提取与聚类一起使用,以将输入数据映射到特征空间中。在特征空间中,考虑到当前问题的背景,分离到集群中更容易实现。使用深度神经网络(deepneuralnetwork,DNN)可以学习非线性映射,从而可以将输入数据转换为更易于聚类的表示。在现有技术中,维度降低/特征选择和聚类分别在两阶段过程中处理,如图7所示。首先,通过自动编码器降低输入数据的维度并提取信息性特征。其次,对这些特征进行聚类。但是,自动编码器组件和聚类组件之间本身存在冲突:自动编码器选择输入数据的所有变化中能够被优化进行无损重建的特征,而聚类需要能够将所有数据变化降低到单个模板(即单个类别或单个聚类)的特征。在许多情况下,自动编码器输出(在第一阶段获得的)会丢失对聚类(在第二阶段进行)重要的特征。一旦丢失这种信息,整体聚类的准确性变差。例如,如参照图8所述,当对改进的美国国家标准与技术研究院(ModifiedNationalInstituteofStandardsandTechnology,MNIST)数据库(即数据集)运行自动编码器时,丢失了重要的特征,这些特征对(例如)区分“9”和“4”(如图8A所示)很关键。MNIST数据库是一个大型的手写数字数据库,通常用于训练各种图像处理系统。因此,对传统自动编码器产生的数据运行聚类时的质心重建(参考图8B)显示:“9”存在两个质心,而“4”没有质心。T-分布随机近邻嵌入(T-DistributedStochasticNeighborEmbedding,t-SNE)可视化也证明存在这个错误。也就是说,现有技术需要准确性更高的聚类方案。
技术实现思路
鉴于上述问题和缺点,本专利技术旨在改进传统的聚类设备。本专利技术的目的是提供一种用于对输入数据进行聚类的设备。所述设备包括自动编码单元和聚类单元。所述自动编码单元采用自动编码算法。该算法甚至在所述聚类单元的聚类步骤中处理数据之前优化该数据,实现了数据的高可分离性。为此,所述自动编码单元接收输入数据(可以认为是包括数据点的数据集),并向所述聚类单元提供优化后的输出数据,即低维输出数据。自动编码器具体旨在实现由重建损失正则化的子空间维度最大化。换句话说,根据所述输入数据的重建损失参数,降低所述输入数据的维度。所述维度只降低到使得简化数据的重建损失最小化,并使得所述自动编码单元转发到所述聚类单元的低维数据得到优化,以获得高的聚类准确性。在后续所述聚类单元中执行的聚类步骤中,使用编码器输出,根据所述低维数据获得至少一个集群,并将所述低维数据中的每个数据点与所述至少一个集群中的一个集群关联。具体而言,在第二阶段中,在聚类参数和编码器参数(即所述聚类单元和所述自动编码单元的操作参数)的两步交替最大化中,相比于现有技术方案得到的结果,可以获得更高的准确性。在第一可选步骤中,通过子空间维度最大化,即通过进一步最大化所述自动编码单元输出的所述低维数据的维度,实现数据点的相似度最大化。该步骤具体由所述聚类单元在聚类阶段中执行。在第二可选步骤中,实现由集群间相似度最小化和集群内相似度最大化正则化的相似度最大化。换句话说,最小化与不同集群相关联的数据点的相似度,最大化与同一个集群相关联的数据点的相似度。本专利技术的目的通过所附独立权利要求中提供的技术方案来实现。从属权利要求中进一步定义了本专利技术的有利实现方式。本专利技术的第一方面提供一种用于对输入数据进行聚类的设备。所述输入数据为包括数据点的数据集。所述设备包括:自动编码单元,用于在所述设备的第一工作阶段中,降低所述输入数据的维度,以及/或者从所述输入数据中提取与聚类相关的特征,从而产生低维数据;聚类单元,用于在所述设备的第二操作阶段中,根据所述低维数据获得至少一个集群,以及将所述低维数据中的每个数据点与所述至少一个集群中的一个集群关联,其中,所述自动编码单元优化所述低维数据,以对所述低维数据以进行无损重建。这是有益的,因为高准确性的无监督深度学习可以用于不同类型的数据(不一定是视觉数据)以解决聚类和异常检测问题,例如针对网络安全的用户行为分析、针对IT运维的事件相关性、针对医疗保健应用或工业监控应用的异常检测。此外,能够实现自动编码器算法(已经经历了若干时期(epoch))的快速收敛。另外,自动编码器代码比现有技术更短,因此推理所需的内存更少。在所述第一方面的一种实现形式中,所述低维数据包括线性独立代码行,从而最小化重建损失。所述自动编码器输出的低维数据中的线性独立代码行确保能够最小化从所述低维数据重建所述输入数据时产生的重建损失。这样也有助于提高所述聚类单元的聚类准确性。在所述第一方面的一种实现形式中,所述输入数据的维度降低包括将第一函数应用于所述输入数据,其中,所述第一函数用于最小化所述输入数据中的数据点的成对相似度,以提供所述低维数据。在自动编码步骤中最小化数据点的成对相似度有助于提高所述聚类单元的聚类准确性以及整体聚类准确性。在所述第一方面的一种实现形式中,所述第一函数将相似度度量应用于所述输入数据中的数据点。所述第一函数使用相似度度量确保能够根据所述相似度度量精确控制对成对相似度进行最小化。在所述第一方面的一种实现形式中,所述第一函数应用的相似度度量为余弦相似度。所述第一函数使用余弦相似度度量确保能够使用有效度量来最小化成对相似度。在所述第一方面的一种实现形式中,所述设备还包括解码器,用于对所述低维数据进行解码,以及将所述低维数据与所述输入数据进行比较,以测量重建损失并调整所述自动编码单元的操作参数,从而最小化重建损失。将所述解码器的解码结果与所述输入数据进行比较可以判断是否有效地最小化重建损失,并相应地调整操作参数。在所述第一方面的一种实现形式中,所述聚类单元还用于获得每个集群的质心参数。获取每个集群的质心参数确保能够提高处理效率,因为在所述设备的操作期间只需要评估质心参数,而不需要评估与集群关联的所有数据点的属性。在所述第一方面的一种实现形式中,所述聚类单元还用于根据所述集群的质心参数确定数据点分配到的集群。这样确保能够进一步提高所述聚类单元的聚类效率。在所述第一方面的一种实现形式中,所述聚类单元还用于应用第二函数,以最小化数据点的成对相似度并提高所述数据点的可分离性。...

【技术保护点】
1.一种用于对输入数据(101)进行聚类的设备(100),其特征在于,所述输入数据(101)为包括数据点的数据集,所述设备(100)包括:/n-自动编码单元(102),用于在所述设备(100)的第一操作阶段中,降低所述输入数据(101)的维度,以及/或者从所述输入数据(101)中提取与聚类相关的特征,从而产生低维数据(103);/n-聚类单元(104),用于在所述设备(100)的第二操作阶段中,根据所述低维数据(103)获得至少一个集群(105),以及将所述低维数据(103)中的每个数据点与所述至少一个集群(105)的一个集群关联,/n其中,所述自动编码单元(102)优化所述低维数据(103),以对所述低维数据(103)进行无损重建。/n

【技术特征摘要】
【国外来华专利技术】1.一种用于对输入数据(101)进行聚类的设备(100),其特征在于,所述输入数据(101)为包括数据点的数据集,所述设备(100)包括:
-自动编码单元(102),用于在所述设备(100)的第一操作阶段中,降低所述输入数据(101)的维度,以及/或者从所述输入数据(101)中提取与聚类相关的特征,从而产生低维数据(103);
-聚类单元(104),用于在所述设备(100)的第二操作阶段中,根据所述低维数据(103)获得至少一个集群(105),以及将所述低维数据(103)中的每个数据点与所述至少一个集群(105)的一个集群关联,
其中,所述自动编码单元(102)优化所述低维数据(103),以对所述低维数据(103)进行无损重建。


2.根据权利要求1所述的设备(100),其特征在于,所述低维数据(103)包括线性独立代码行,从而最小化重建损失。


3.根据上述权利要求中任一项所述的设备(100),其特征在于,所述输入数据(101)的维度降低包括将第一函数应用于所述输入数据(101),其中,所述第一函数用于最小化所述输入数据(101)中的数据点的成对相似度,以提供所述低维数据(103)。


4.根据权利要求3所述的设备(100),其特征在于,所述第一函数将相似度度量应用于所述输入数据(101)中的数据点。


5.根据权利要求4所述的设备(100),其特征在于,所述第一函数应用的相似度度量为余弦相似度。


6.根据上述权利要求中任一项所述的设备(100),其特征在于,所述设备(100)还包括解码器(201),用于对所述低维数据(103)进行解码,以及将所述低维数据(103)与所述输入数据(101)进行比较,以测量重建损失并调整所述自动编码单元(102)的操作参数,从而最小化重建损失。


7.根据上述权利要求中任一项所述的设备(100),其特征在于,所述聚类单元(104)还用于获得每个集群(105)的质心参数。


8.根据权利要求7所述的设备(100),其特征在于,所述聚类单元(104)还用于根据集群的质心参数确定数据点分配...

【专利技术属性】
技术研发人员:埃拉德·佐里夫奥尔加·科根尤尼·乔克伦
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1