一种电信网格数据处理方法及系统技术方案

技术编号:18711544 阅读:85 留言:0更新日期:2018-08-21 22:46
本发明专利技术涉及一种数据处理方法及系统,属于电信数据处理技术领域,具体是涉及一种电信网格数据处理方法及系统。本发明专利技术以数据挖掘为核心,提供运营决策和预测的分析,为管理提供智能,为运营实现“扁平化”管理方式解决管理时效性问题,可满足网格聚类、网格标的签订参考值、网格标杆管理、网格营销时序管理等功能,达成目标完成情况的展现和跟踪的目的。

A data processing method and system for telecommunication grid

The invention relates to a data processing method and system, belonging to the technical field of telecommunication data processing, in particular to a telecommunication grid data processing method and system. The invention takes data mining as the core, provides the analysis of operation decision and prediction, provides intelligence for management, solves the problem of management timeliness for the realization of \flat\ management mode for operation, and satisfies the functions of grid clustering, grid target signing reference value, grid benchmarking management, grid marketing timing management, etc., and achieves the goal. The presentation of situation and the purpose of tracking.

【技术实现步骤摘要】
一种电信网格数据处理方法及系统
本专利技术涉及一种数据处理方法及系统,属于电信数据处理
,具体是涉及一种电信网格数据处理方法及系统。
技术介绍
随着电信营销系统逐渐完善,基本营销单元的管理单元已细化至网格大小。同时,化小承包经营方式的逐步成熟,化小承包对经营效率的提升逐步体现,承包人员数量日益增加,对承包人员的管理方式亦发生变化。精细化运营和管理变动给业务经营带来了三个主要问题。1.网格未按照业务及属性进行分类,历史数据沉睡在数据库中,经营数据缺乏深层次分析;2.网格或小CEO收入目标制定缺乏科学依据。常规的收入及业务基本按照本地网颗粒度进行预测,无法适应网格化颗粒的管理需求。小CEO普遍反映制定任务目标时没有考虑各区域实际情况,采取“一刀切”的预测方式;3.决策链过长,无法支撑一线快速发展业务。小CEO的资源配置、任务下达需要经过乡/镇—县/区—市三级管理层级逐级上报审批,决策流程过长,延误业务发展先机。
技术实现思路
本专利技术主要是解决现有技术所存在的上述的技术问题,提供了一种电信网格数据处理方法及系统。本专利技术的上述技术问题主要是通过下述技术方案得以解决的:一种电信网格数据处理方法,包括:网格聚类步骤,使用聚类算法,对网格进行聚类,聚类因素包括常用的业务场景和主要业务的收入规模,聚类的结果应能有效反应网格的业务场景特征,同时也便于管理;特征提取步骤,针对不同的聚类类别分析其规模特征分布,提取总结特征经验,为后续分析和决策提供依据;目标管理步骤,依据不同类别的特征进行分析和预测,为目标制定和管理提供依据。一种电信网格数据处理系统,包括:网格聚类模块,使用聚类算法,对网格进行聚类,聚类因素包括常用的业务场景和主要业务的收入规模,聚类的结果应能有效反应网格的业务场景特征,同时也便于管理;特征提取模块,针对不同的聚类类别分析其规模特征分布,提取总结特征经验,为后续分析和决策提供依据;目标管理模块,依据不同类别的特征进行分析和预测,为目标制定和管理提供依据。因此,本专利技术具有如下优点:以数据挖掘为核心提供运营决策和预测的分析,为管理提供智能,为运营实现“扁平化”管理方式解决管理时效性问题,可满足网格聚类、网格标的签订参考值、网格标杆管理、网格营销时序管理等功能,达成目标完成情况的展现和跟踪的目的。附图说明附图1(a)-(f)是本专利技术的聚类过程示意图;附图2是宽带用户数和宽带用户增长率的散点图;具体实施方式下面通过实施例,并结合附图,对本专利技术的技术方案作进一步具体的说明。实施例:1.思路首先,使用数据挖掘算法中“聚类”算法,对全省11万个网格进行聚类,聚类因素主要选择常用的业务场景和主要业务的收入规模。聚类的结果应能有效反应网格的业务场景特征,同时也便于管理。其次,针对不同的聚类类别分析其规模特征分布,提取总结特征经验,为后续分析和决策提供依据。最后,依据不同类别的特征进行分析和预测,为目标制定和管理提供依据。2.流程项目的分析流程主要分为8个步骤:(1)数据搜集:搜集分析所需要的数据。(2)数据清洗:完成数据的初步清洗,主要是清理和补充不完善的数据。(3)数据预处理:统一整理数据格式,整理成分析所需要的特定格式。(4)选择聚类算法:根据分析目的和数据质量、数据分布选择合适的聚类算法。(5)确定聚类数量:初步聚类,调整聚类数量,根据聚类的结果选择适合的聚类数量。(6)聚类结果的输出:聚类计算并输出聚类结果。(7)类别业务解读:解读不同的类特征是否符合业务场景。(8)规律总结及应用:针对不同的类别进行分析,主要包括内部的数值分布规律。3.数据整理数据整理主要包括数据搜集、数据清洗、数据预处理三个主要步骤。(1)数据搜集:数据源来源于湖北电信网格经营系统,提取包括网格编号、网格名称、承包人、地域属性、所属支局、所属分公司、网格属性、宽带用户数(出账)、语音用户数(出账)、ITV用户数(出账)、移动用户数(出账)、宽带收入、语音收入、ITV收入、移动收入合计15个维度的数据。提取数据时间为2015年12月底、2016年5月底、2016年7月底三个时间节点,共提取每个时间节点10.9万个营销网格。(2)数据清洗:数据清洗目的为清除整理数据不完善的网格,主要步骤:统一网格属性及网格类型的定义,保证逻辑的一致性;清理无效网格,部分网格进行变更,数据已迁移至其他网格,但系统中未清理该部分无效网格,在数据输入阶段清理这部分网格;清理无数据网格,部分网格数据未填写,在数据输入阶段清理这部分网格。完成以上清理步骤后,共保存有效网格9.5万个。(3)数据预处理:本项目选择的聚类算法需要对多个维度的数据进行统筹计算,数据维度之间的量刚会对结果产生很大影响,需要对数据源进行归一化处理,消除数据维度的量刚。归一化方式选择最大—最小归一化方式,将每个维度的数据转化为0—1之间的数值。4.聚类实现聚类实现主要包括聚类算法的选择,聚类原理的理解,以及过程的实现。这里聚类使用的工具为R。(1)选择聚类算法最常用的聚类算法是层次聚类(hierarchicalagglomerateclustering)和划分聚类(partitioningclustering)。层次聚类中,每个样本自成一类,这些类两两合并,直到所有的类被聚成一类为止。常用的层次聚类算法有单联动(singlelinkage),全联动(completelinkage),平均联动(averagelinkage),质心(centroid)和Ward方法。划分聚类中,首先指定类的个数K,然后样本被随机分成K类,再重新形成聚合的类。常用方法的有K均值(K-means)和围绕中心点的划分(PAM)。考虑到层次聚类对于小样本来说很实用(如150个样本或者更少),而划分聚类能处理更大的数据量。这里我们采用划分聚类中的经典算法K均值。(2)聚类算法原理1.选择K个中心点(随机选择K行);2.把每个数据点分配到离它最近的中心点;3.重新计算每类中的点到该类中心点距离的平均值;4.分配每个数据到它最近的中心点;5.重复步骤3和步骤4直到所有的观测值不再被分配或是达到最大的迭代次数。以划分某一数据集为2类的情况为例,K-means的过程如图1(a)-(b)所示。(3)聚类步骤1)确定类的数目。绘制类间距离平方和/总体平方和(类间距离平方和+组内距离平方和)的折线图,如图2所示。曲线没有明显的下拐折线,直观观察聚类数目在6-10之间。计算分10类的结果:各类距离间隙平方和/(各类距离间隙平方和+各类组内距离平方和)=85.8%,数值超过85%。计算分12类时该值为87%,上升幅度较小,因此可取分类数量为10个类别;2)获得最终的聚类解决方案。确定了类的个数后,提取出子群,形成最终的聚类方案。5.业务解读根据聚类结果找出每一类的中心点并进行解读,分析概括同一类中的数据呈现出的特性和不同的类别间的区别。对9.5万个营销网格进行聚类,结果将数据分为10类。以每一类网格的中心点来表示这一类的特征,根据10类网格的网格数以及各项特征值,可以对这一类网格的特征有一个大致的了解。从第一类网格来看。这一类数据的地域大多为农村。类型包括了政企、家庭、基站。属性有行业客户、校园、农村。包含的分公司有武汉、黄冈、宜昌、襄阳本文档来自技高网...

【技术保护点】
1.一种电信网格数据处理方法,其特征在于,包括:网格聚类步骤,使用聚类算法,对网格进行聚类,聚类因素包括常用的业务场景和主要业务的收入规模,聚类的结果应能有效反应网格的业务场景特征,同时也便于管理;特征提取步骤,针对不同的聚类类别分析其规模特征分布,提取总结特征经验,为后续分析和决策提供依据;目标管理步骤,依据不同类别的特征进行分析和预测,为目标制定和管理提供依据;其中,所述网格聚类步骤包括:数据收集子步骤,用于搜集分析所需要的数据,提取维度包括网格编号、网格名称、承包人、地域属性、所属支局、所属分公司、网格属性、宽带用户数、语音用户数、ITV用户数、移动用户数、宽带收入、语音收入、ITV收入、移动收入,提取数据时间节点为三个以上;据清洗子步骤,用于清除整理数据不完善的网格,具体包括:统一网格属性及网格类型的定义,保证逻辑的一致性;清理无效网格,所述无效网格是部分网格进行变更,数据已迁移至其他网格,但系统中未清理该部分的网格,在数据输入阶段清理这部分网格;清理无数据网格,部分网格数据未填写,在数据输入阶段清理这部分网格。数据预处理子步骤,选择最大—最小归一化方式,将每个维度的数据转化为0—1之间的数值;算法选择子步骤,根据分析目的和数据质量、数据分布选择合适的聚类算法;所选择的聚类算法包括层次聚类和划分聚类;层次聚类中,每个样本自成一类,这些类两两合并,直到所有的类被聚成一类为止;划分聚类中,首先指定类的个数K,然后样本被随机分成K类,再重新形成聚合的类;聚类数量确定子步骤:初步聚类,调整聚类数量,根据聚类的结果选择适合的聚类数量;聚类结果输出步骤,用于聚类计算并输出聚类结果;其中,所述特征提取步骤中,根据聚类结果找出每一类的中心点并进行解读,分析概括同一类中的数据呈现出的特性和不同的类别间的区别,将数据分为10类。以每一类网格的中心点来表示这一类的特征;其中,所述网格具体包括以下种类:第一类网格,数据的地域大多为农村,类型包括了政企、家庭、基站;属性有行业客户、校园、农村,其用户规模偏低,增长率高,收入规模偏低,增长率高;第二类网格,地域基本为农村,根据宽带用户数,宽带收入,移动收入,移动用户数,ITV用户数,ITV收入6个属性的规模和增长率,其用户规模偏低,其中宽带、ITV用户最低,增长率异常高,而收入规模偏低,其中宽带、ITV收入最低,增长率异常高;第三类网格,地域为城市,类型有政企、基站、厅店,属性为中小企业及聚类、非聚类、厅店,其用户规模及增长率均偏低,但移动用户增长率高。移动收入中等、宽带、ITV收入规模偏低,增长率低;第四类网格,地域基本为农村,类型属于政企、家庭,属性有行业客户、校园、农村,其宽带、ITV用户规模平均,移动用户偏低,宽带、ITV用户增长率平均,移动用户增长率偏高,收入规模偏低,ITV、移动收入增长率高;第五类网格,地域基本为农村,类型为家庭、政企,属性有社区、中小企业及聚类、非聚类;宽带用户规模平均,移动、ITV用户偏高,ITV用户增长率偏低,宽带、移动用户增长率平均。宽带收入规模平均,移动、ITV收入偏高,ITV、移动收入增长率平均,宽带收入增长率偏高;第六类网格,地域为城市,类型有家庭、政企,属性为行业客户、校园、农村,其移动、ITV用户偏低,增长率偏低。收入、增长率偏低;第七类网格,地域基本为农村,类型为家庭、政企,属性为社区、中小企业及聚类、非聚类,其宽带、ITV用户规模平均,移动用户偏低,增长率偏低。收入规模偏低,ITV、移动收入增长率偏低,宽带收入、移动收入增长率偏高;第8类网格,地域为城市,类型为家庭、政企,属性是行业客户、校园,用户规模偏低,宽带、ITV用户增长率中等,移动用户增长率偏高;第9类网格,地域为城市,类型为家庭、政企。属性是社区、非聚类,移动用户规模平均,宽带、ITV用户偏高,移动用户增长率偏低,宽带、ITV用户增长率平均。移动收入规模平均,宽带、ITV收入偏高,ITV、移动收入增长率偏低,宽带收入增长率平均。第10类网格,地域为城市,类型为家庭、政企。属性是社区、中小企业及聚类、非聚类,宽带、ITV用户规模平均,移动偏低,增长率偏高。收入规模偏低、宽带收入增长率偏高。...

【技术特征摘要】
1.一种电信网格数据处理方法,其特征在于,包括:网格聚类步骤,使用聚类算法,对网格进行聚类,聚类因素包括常用的业务场景和主要业务的收入规模,聚类的结果应能有效反应网格的业务场景特征,同时也便于管理;特征提取步骤,针对不同的聚类类别分析其规模特征分布,提取总结特征经验,为后续分析和决策提供依据;目标管理步骤,依据不同类别的特征进行分析和预测,为目标制定和管理提供依据;其中,所述网格聚类步骤包括:数据收集子步骤,用于搜集分析所需要的数据,提取维度包括网格编号、网格名称、承包人、地域属性、所属支局、所属分公司、网格属性、宽带用户数、语音用户数、ITV用户数、移动用户数、宽带收入、语音收入、ITV收入、移动收入,提取数据时间节点为三个以上;据清洗子步骤,用于清除整理数据不完善的网格,具体包括:统一网格属性及网格类型的定义,保证逻辑的一致性;清理无效网格,所述无效网格是部分网格进行变更,数据已迁移至其他网格,但系统中未清理该部分的网格,在数据输入阶段清理这部分网格;清理无数据网格,部分网格数据未填写,在数据输入阶段清理这部分网格。数据预处理子步骤,选择最大—最小归一化方式,将每个维度的数据转化为0—1之间的数值;算法选择子步骤,根据分析目的和数据质量、数据分布选择合适的聚类算法;所选择的聚类算法包括层次聚类和划分聚类;层次聚类中,每个样本自成一类,这些类两两合并,直到所有的类被聚成一类为止;划分聚类中,首先指定类的个数K,然后样本被随机分成K类,再重新形成聚合的类;聚类数量确定子步骤:初步聚类,调整聚类数量,根据聚类的结果选择适合的聚类数量;聚类结果输出步骤,用于聚类计算并输出聚类结果;其中,所述特征提取步骤中,根据聚类结果找出每一类的中心点并进行解读,分析概括同一类中的数据呈现出的特性和不同的类别间的区别,将数据分为10类。以每一类网格的中心点来表示这一类的特征;其中,所述网格具体包括以下种类:第一类网格,数据的地域大多为农村,类型包括了政企、家庭、基站;属性有行业客户、校园、农村,其用户规模偏低,增长率高,收入规模偏低,增长率高;第二类网格,地域基本为农村,根据宽带用户数,宽带收入,移动收入,移动用户数,ITV用户数,ITV收入6个属性的规模和增长率,其用户规模偏低,其中宽带、ITV用户最低,增长率异常高,而收入规模偏低,其中宽带、ITV收入最低,增长率异常高;第三类网格,地域为城市,类型有政企、基站、厅店,属性为中小企业及聚类、非聚类、厅店,其用户规模及增长率均偏低,但移动用户增长率高。移动收入中等、宽带、ITV收入规模偏低,增长率低;第四类网格,地域基本为农村,类型属于政...

【专利技术属性】
技术研发人员:庞奥李思涛
申请(专利权)人:湖北邮电规划设计有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1