【技术实现步骤摘要】
基于胶囊长短时记忆神经网络的数据分类方法及相关设备
[0001]本公开涉及大数据处理
,尤其涉及一种基于胶囊长短时记忆神经网络的数据分类方法及相关设备。
技术介绍
[0002]伴随电信行业的迅猛发展,其用户数量呈现指数级增加,关键性能指标(Key Performance Indicator,KPI)评估类别愈加丰富,这进一步加大电信互联网技术(Internet Technology,IT)系统的运维维护的难度,如何从庞大的数据量中提取有用的业务流量数据是处理数据的高效方法。因此,运用聚类分析的数据挖掘技术解决传统电信运维故障预警的分析,增加电信行业数据分类及预测能力对于电信业蓬勃发展是必要的。
[0003]现有技术中,聚类方法通常采用k均值聚类算法(K
‑
Means Clustering Algorithm,K
‑
Means)算法,其对初始聚类中心点的位置具有敏感性,每次迭代不同的初始聚类中心点往往会导致不同的聚类质量,尤其是当数据集情况复杂,类别较多时,聚类质量的好坏往往是
【技术保护点】
【技术特征摘要】
1.一种基于胶囊长短时记忆神经网络的数据分类方法,其特征在于,包括:获取目标文本特征数据;根据预设算法,确定所述目标文本特征数据的多个聚类结果,其中,所述预设算法包括词频
‑
逆文本频率指数TF
‑
IDF与K均值聚类算法K
‑
Means;根据邓恩指数,确定所述多个聚类结果的目标聚类结果;将所述目标聚类结果输入预先构建的胶囊长短时记忆神经网络,输出目标数据分类结果。2.根据权利要求1所述的基于胶囊长短时记忆神经网络的数据分类方法,其特征在于,所述根据预设算法,确定文本特征数据的多个聚类结果包括:根据TF
‑
IDF对所述目标文本特征数据计算,确定特征向量空间;根据余弦相似度对所述特征向量空间计算,确定向量距离,其中,所述向量距离包括类内距离与类间距离;根据密度峰值和类内距离与类间距离,确定初始聚类中心位置;根据K
‑
Means对所述初始聚类中心位置进行迭代,确定多个聚类结果。3.根据权利要求2所述的基于胶囊长短时记忆神经网络的数据分类方法,其特征在于,根据密度峰值和类内距离与类间距离,确定初始聚类中心位置包括:根据最大密度峰值,确定第一初始聚类中心;根据与所述第一初始聚类中心的距离之和,确定第二初始聚类中心。4.根据权利要求3所述的基于胶囊长短时记忆神经网络的数据分类方法,其特征在于,所述根据最大密度峰值,确定第一初始聚类中心包括:根据最大密度峰值,选取目标文本特征数据中距离最远的两个点,确定第一初始聚类中心。5.根据权利要求3所述的基于胶囊长短时记忆神经网络的数据分类方法,其特征在于,所述根据与所述第一初始聚类中心的距离之和,确定第二初始聚类中心包括:根据与所述第一初始聚类...
【专利技术属性】
技术研发人员:段含婷,吕田田,张乐,吴艳芹,郭蓉蓉,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。