【技术实现步骤摘要】
数据分类方法及装置、存储介质及电子设备
本专利技术涉及数据挖掘
,特别是涉及一种数据分类方法及装置、存储介质及电子设备。
技术介绍
随着信息技术的发展,在信息技术的各个应用领域,数据挖掘技术已成为了数据分析的常用手段之一。数据挖掘指是从大量的数据中通过算法推断隐藏于其中信息的过程。聚类分析是数据挖掘技术中重要的统计分析方法之一,它指的是依据各个数据的特征,将各个数据归并到若干个类别,即对数据进行分类。在聚类分析过程中,通常需获取所有数据信息,依据所有数据的特征,对每个数据进行分类。在实际的工程应用中,聚类分析常常需应用于分布式网络,对分布式网络中的数据进行分类。而分布式网络中的数据独立分布在该网络的各个节点上,在对各个节点中的本地数据进行分类时,则需要各个节点将本地数据传输给预先指定的中心节点,由中心节点对所有数据统一进行分类。故在分布式网络的数据分类过程中,需要耗费通信资源将各个节点的本地数据传输至中心节点,在数据量较大时,通信资源消耗较大。其次,中心节点需对整个网络的数据进行分类,负载较高,稳定性较 ...
【技术保护点】
1.一种数据分类方法,其特征在于,所述方法应用于分布式网络,所述分布式网络中包括多个工作节点,每个所述工作节点中记录有至少一个待分类数据,所述方法包括:/n当接收到数据分类请求时,获取每个预设类别对应的初始高斯分布特征;/n基于每个所述预设类别对应的初始高斯分布特征,以及所有所述工作节点中的所有待分类数据,获得每个所述预设类别对应的目标高斯分布特征;/n触发每个所述工作节点基于各个所述预设类别对应的目标高斯分布特征,利用预设的混合高斯分布的分类策略对该工作节点中的每个待分类数据进行分类;/n所述基于每个所述预设类别对应的初始高斯分布特征,以及所有所述工作节点中的所有待分类数 ...
【技术特征摘要】
1.一种数据分类方法,其特征在于,所述方法应用于分布式网络,所述分布式网络中包括多个工作节点,每个所述工作节点中记录有至少一个待分类数据,所述方法包括:
当接收到数据分类请求时,获取每个预设类别对应的初始高斯分布特征;
基于每个所述预设类别对应的初始高斯分布特征,以及所有所述工作节点中的所有待分类数据,获得每个所述预设类别对应的目标高斯分布特征;
触发每个所述工作节点基于各个所述预设类别对应的目标高斯分布特征,利用预设的混合高斯分布的分类策略对该工作节点中的每个待分类数据进行分类;
所述基于每个所述预设类别对应的初始高斯分布特征,以及所有所述工作节点中的所有待分类数据,获得每个所述预设类别对应的目标高斯分布特征,包括:
循环遍历各个所述工作节点,在当前循环周期中依次触发每个所述工作节点基于其所记录的各个待分类数据以及当前输入该工作节点的输入数据,进行高斯分布的特征估计,并将估计结果作为该工作节点的输出数据;每个所述工作节点的输出数据是其下一个工作节点的输入数据,所述当前循环周期中最后访问的工作节点的输出数据为该循环周期的输出结果;
判断所述当前循环周期的输出结果是否符合预设的收敛条件,若所述当前循环周期的输出结果不符合所述收敛条件,则进入下一个循环周期,若所述当前循环周期的输出结果符合所述收敛条件,则结束所述遍历过程,并将所述当前循环周期的输出结果中包含的每个所述预设类别对应的预估高斯分布特征,作为每个所述预设类别对应的目标高斯分布特征;
其中,每个所述预设类别对应的初始高斯分布特征为首个循环周期中首个访问的工作节点的输入数据,每个循环周期的输出结果为该循环周期的下一个循环周期中首个访问的工作节点的输入数据。
2.根据权利要求1所述的方法,其特征在于,所述工作节点基于各个所述预设类别对应的目标高斯分布特征,利用预设的混合高斯分布的分类策略对该工作节点中的每个待分类数据进行分类,包括:
确定每个所述预设类别对应的目标混合概率;
基于各个所述预设类别对应的所述目标混合概率及所述目标高斯分布特征,利用预设的混合高斯模型,计算所述工作节点中的每个待分类数据对应的各个目标概率,每个所述待分类数据对应的各个目标概率与各个所述预设类别一一对应;
针对所述工作节点中的每个所述待分类数据,将其对应的各个所述目标概率进行比较,并将其中最大的目标概率所对应的预设类别,确定为该待分类数据对应的类别。
3.根据权利要求1所述的方法,其特征在于,所述工作节点基于其所记录的各个待分类数据以及当前输入该工作节点的输入数据,进行高斯分布的特征估计,包括:
基于当前输入该工作节点的输入数据,确定每个所述预设类别对应的第一预估高斯分布特征;
确定每个所述预设类别当前的预估混合概率;
基于各个所述预设类别当前的预估混合概率及所述第一预估高斯分布特征,利用预设的混合高斯模型,计算所述工作节点中每个待分类数据对应的各个期望概率,每个所述待分类数据对应的各个期望概率与各个所述预设类别一一对应;
针对每个所述预设类别,依据所述工作节点中的各个待分类数据和每个所述待分类数据对应的各个所述期望概率,确定该预设类别对应的各个当前的节点参数;
确定每个所述预设类别对应的各个当前的全局参数,并依据每个所述预设类别对应的各个所述当前的全局参数和各个所述当前的节点参数,对每个所述预设类别对应的各个所述当前的全局参数进行更新;
依据每个所述预设类别对应的各个更新后的全局参数,确定每个所述预设类别对应的第二预估高斯分布特征。
4.根据权利要求3所述的方法,其特征在于,所述依据所述工作节点中的各个待分类数据和每个所述待分类数据对应的各个所述期望概率,确定该预设类别对应的各个当前的节点参数,包括:
将该预设类别作为目标预设类别,并在各个所述待分类数据对应的各个所述期望概率中,确定所述目标预设类别对应的各个期望概率;
将所述目标预设类别对应的各个所述期望概率进行求和运算,并将运算结果作为所述目标预设类别对应的当前的第一节点参数;
针对所述目标预设类别对应的每个所述期望概率,计算该期望概率与其对应的待分类数据的乘积,并将所有所述期望概率与其对应的待分类数据的乘积进行求和运算,将运算结果作为所述目标预设类别对应的当前的第二节点参数;
确定每个所述待分类数据对应的转置;
确定所述目标预设类别对应的每个所述期望概率对应的目标乘积,每个所述期望概率对应的目标乘积为所述期望概率、所述期望概率对应的待分类数据及其对应的所述待分类数据的转置的乘积;
将所有所述期望概率对应的所述目标乘积进行求和运算,并将运算结果作为所述目标预设类别对应的当前的第三节点参数;
将所述目标预设类别对应的所述当前的第一节点参数、当前的第二节点参数和所述当前的第三节点参数,作为所述目标预设类别对应的各个当前的节点参数。
5.根据权利要求4所述...
【专利技术属性】
技术研发人员:秦家虎,叶百家,付维明,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。