一种基于场景的KPI及多维度网络数据清洗方法技术

技术编号:19009243 阅读:66 留言:0更新日期:2018-09-22 09:06
本发明专利技术公开了一种基于场景的KPI及多维度网络数据清洗方法,首先将采集的数据导入数据结构中;对导入的数据格式进行规范化,将资源数据按场景划分,同一个场景的资源数据合并得到资源子数据,对数据值产生的冲突进行检测和处理;对多个数据源或文件的数据进行关联,对数据的冗余和模式不匹配的情况进行判断和处理;对不能直接进行数据挖掘的数据进行处理;查看各属性的缺失率,根据缺失率决定处理方式,包括丢弃和采用K‑NN回归方法填补;在数据存储模块中对原始数据进行备份并存储清洗后的数据;本发明专利技术实现了数据的有效清洗,解决数据的复杂程度高导致的无法对数据进行深入挖掘的技术问题。

A scenario based KPI and multi-dimensional network data cleaning method

The invention discloses a scene-based KPI and multi-dimensional network data cleaning method. First, the collected data is imported into the data structure, the imported data format is normalized, the resource data is divided according to the scene, and the resource data of the same scene is merged to obtain the resource sub-data, and the conflict of the data values is carried out. Detection and processing; data association of multiple data sources or files, judgment and processing of data redundancy and pattern mismatch; processing of data that can not be directly data mining; checking the missing rate of each attribute, according to the missing rate to determine the processing methods, including discarding and using K_NN regression method In the data storage module, the original data is backed up and the cleaned data is stored. The invention realizes the effective cleaning of the data and solves the technical problem that the data can not be deeply excavated due to the high complexity of the data.

【技术实现步骤摘要】
一种基于场景的KPI及多维度网络数据清洗方法
本专利技术属于数据清洗领域,具体涉及一种基于场景的KPI及多维度网络数据清洗方法。
技术介绍
移动通信网络运营管理中需要关注一些关键绩效指标(KeyPerformanceIndicators,简称KPI),如掉话率、呼损等等,除了日常维护之外,运营商希望掌握影响KPI的因素,获得KPI和网络之间的关联,便于后期网优任务分配及保障。对KPI和网络之间的关联程度进行深入的分析挖掘之前,需要对数据进行有效的清洗,降低数据的复杂程度。
技术实现思路
本专利技术的目的在于优化网络数据,提出一种基于场景的KPI及多维度网络数据清洗方法,实现数据的有效清洗,解决数据的复杂程度高导致的无法对数据进行深入挖掘的技术问题。本专利技术采用如下技术方案,一种基于场景的KPI及多维度网络数据清洗方法,具体步骤如下:1)将采集到的原始数据分为小区基本维度数据和问题小区清单,其中,小区基本维度数据为直接采集得到的小区数据,即没有经过KPI指标门限判别的数据;问题小区清单为某一项KPI出现明显劣化的小区数据,即经过KPI指标门限判别的数据;利用数据导入模块将数据导入Pandas包中的DataFrame的数据结构中;2)在数据处理模块中对导入的数据格式进行规范化,将小区基本维度数据中的资源数据按场景划分,同一个场景的资源数据调用concat函数合并,得到资源子数据,对合并过程中数据值产生的冲突进行检测和处理;3)在数据清洗模块中对多个数据源或文件的数据进行关联,即选择关联的主关键字,将按场景划分后的资源子数据与其它小区基本维度数据根据主关键字合并,并在合并中统一数据模式;合并的过程中对数据的冗余和模式不匹配的情况进行判断,删除冗余属性,统一属性模式的表述方式;对不能直接进行数据挖掘的数据只保留数值或者用数值替代;4)在缺失处理模块中查看各属性的缺失率,初步填充缺失值,然后根据缺失率决定处理方式,对缺失率大于50%的属性、冗余属性或与分析主题无关的属性丢弃处理,对其他属性的缺失值采用K-NN回归方法填补;5)在数据存储模块中对原始数据进行备份并存储清洗后的数据。优选地,所述步骤1)中小区基本维度数据包括:资源数据、性能数据、工参数据、邻区数据和测量数据;问题小区清单包括:长期演进LTE(LongTermEvolution)高负荷小区、第四代移动通信技术4G零流量小区、长期演进LTE(LongTermEvolution)高流量问题严重小区、高清语音volte(VoiceoverLTE)高掉话小区、低测量报告MR(MeasurementReport)覆盖率小区和高清语音volte(VoiceoverLTE)高丢包率小区。优选地,所述步骤1)中调用Python的Pandas包将数据存入的DataFrame的数据结构。优选地,所述步骤2)中对导入的数据格式进行规范化具体为对数据中存在的中英文和特殊字符修改格式,统一改为小写及半角格式以及去除空格。优选地,所述步骤2)中对合并过程中数据值产生的冲突进行检测和处理,数据值产生的冲突包括来自不同数据源的同一小区数据出现不同的值或者数据类型,出现不同的值时,保留缺失率少的数据;数据类型不同时,用数值型数据代替字符型数据。优选地,所述步骤3)中选择cgi作为主关键字,若cgi缺失,则利用公共陆地移动网络PLMN和小区标识eCI进行合成,否则选择小区中文名称作为关键字;将按场景划分后的资源子数据与其它小区基本维度数据依据资源子数据中的关键字调用merge函数采用内连接inner方式进行合并,形成分场景下的小区基本维度子数据。优选地,所述步骤3)中判断数据的冗余具体为:若属性可以由其他多个属性推演得出,则用于推演的其他多个属性为冗余属性,删除冗余属性,将推演出的属性作为结果属性保留。优选地,所述步骤4)中采用k近邻(k-nearestneighbor,K-NN)回归方法填补,找出缺失属性的样本的k个相似样本,用相似样本的平均值代替样本属性的缺失值。优选地,缺失属性的样本的k个相似样本为与缺失属性的样本的距离最小的k个样本,使用欧几里德距离来测量两个样本之间的距离:两个样本点X=(x1,x2,…xn)和Y=(y1,y2,…yn)之间的欧几里德距离为:其中,样本指小区,样本中的xi、yi、x1、x2、xn、y1、y2和yn指两个小区相同属性分别对应的值,m是两个样本中不包括属性缺失值的分布数,n是两个样本的属性个数;如果xi等于yi,则(xi-yi)设置为0,如果xi不等于yi,则为(xi-yi)设置为1。优选地,还包括将基本维度数据与问题小区清单数据合并,即检测基本维度数据中小区的cgi是否存在于问题小区清单数据中小区的cgi列表中,若存在,则构造新属性,同时存在于基本维度数据和问题小区清单数据中的小区该属性置1,其余小区该属性置0。专利技术所达到的有益效果:本专利技术是一种基于场景的KPI及多维度网络数据清洗方法,实现数据的有效清洗,解决数据的复杂程度高导致的无法对数据进行深入挖掘的技术问题;本专利技术对收集到的KPI和多维度网络数据进行清洗,使数据规范、统一,便于后期的相关性分析。附图说明图1是本专利技术基于场景的KPI及多维度网络数据清洗方法的流程图;图2是本专利技术的数据处理模块流程图;图3是本专利技术的数据清洗模块流程图;图4是本专利技术的缺失处理模块流程图。具体实施方式下面根据附图并结合实施例对本专利技术的技术方案作进一步阐述。本专利技术采用如下技术方案,一种基于场景的KPI及多维度网络数据清洗方法,实验数据来自某运营商某些地区的部分数据,数据均以表格Excel的方式给出,本专利技术利用Python实现,图1是基于场景的KPI及多维度网络数据清洗方法的流程图,具体步骤如下:1)将采集到的原始数据分为小区基本维度数据和问题小区清单,其中,小区基本维度数据为直接采集得到的小区数据,即没有经过KPI指标门限判别的数据;问题小区清单为某一项KPI出现明显劣化的小区数据,即经过KPI指标门限判别的数据;利用数据导入模块将数据导入Pandas包中的DataFrame的数据结构中。关键性能指标KPI有各自的指标要求,即为门限。比如RRC(无线资源控制协议)连接的成功建立意味着用户设备与网络建立了信令连接,在RRC连接成功率>95%时,认为是符合要求的,如果低于95%认为出现了劣化。同理无线掉线率<3%,无线接通率>95%等均为门限判别依据。小区基本维度数据包括:资源数据、性能数据、工参数据、邻区数据和测量数据;问题小区清单包括:问题小区清单包括:长期演进LTE高负荷小区、4G零流量小区、长期演进LTE高流量问题严重小区、高清语音volte高掉话小区、低测量报告MR覆盖率小区和高清语音volte高丢包率小区。利用数据导入模块调用Python的Pandas包将采集的数据导入DataFrame的数据结构中。Pandas是python的一个数据分析包,DataFrame是Pandas包中最常用的数据结构,它是一种二维的表格型数据结构,类似于数据库中的表,对表格型数据的处理非常具有优势。2)图2是本专利技术的数据处理模块流程图,在数据处理模块中对导入的数据格式进行规范化,具体为对数本文档来自技高网...
一种基于场景的KPI及多维度网络数据清洗方法

【技术保护点】
1.一种基于场景的KPI及多维度网络数据清洗方法,其特征在于,包括以下步骤:1)将采集到的原始数据分为小区基本维度数据和问题小区清单,其中,小区基本维度数据为直接采集得到的小区数据,即没有经过KPI指标门限判别的数据;问题小区清单为某一项KPI出现明显劣化的小区数据,即经过KPI指标门限判别的数据;利用数据导入模块将数据导入Pandas包中的DataFrame的数据结构中;2)在数据处理模块中对导入的数据格式进行规范化,将小区基本维度数据中的资源数据按场景划分,同一个场景的资源数据调用concat函数合并,得到资源子数据,对合并过程中数据值产生的冲突进行检测和处理;3)在数据清洗模块中对多个数据源或文件的数据进行关联,即选择关联的主关键字,将按场景划分后的资源子数据与其它小区基本维度数据根据主关键字合并,并在合并中统一数据模式;合并的过程中对数据的冗余和模式不匹配的情况进行判断,删除冗余属性,统一属性模式的表述方式;对不能直接进行数据挖掘的数据只保留数值或者用数值替代;4)在缺失处理模块中查看各属性的缺失率,初步填充缺失值,然后根据缺失率决定处理方式,对缺失率大于50%的属性、冗余属性或与分析主题无关的属性丢弃处理,对其他属性的缺失值采用K‑NN回归方法填补;5)在数据存储模块中对原始数据进行备份并存储清洗后的数据。...

【技术特征摘要】
1.一种基于场景的KPI及多维度网络数据清洗方法,其特征在于,包括以下步骤:1)将采集到的原始数据分为小区基本维度数据和问题小区清单,其中,小区基本维度数据为直接采集得到的小区数据,即没有经过KPI指标门限判别的数据;问题小区清单为某一项KPI出现明显劣化的小区数据,即经过KPI指标门限判别的数据;利用数据导入模块将数据导入Pandas包中的DataFrame的数据结构中;2)在数据处理模块中对导入的数据格式进行规范化,将小区基本维度数据中的资源数据按场景划分,同一个场景的资源数据调用concat函数合并,得到资源子数据,对合并过程中数据值产生的冲突进行检测和处理;3)在数据清洗模块中对多个数据源或文件的数据进行关联,即选择关联的主关键字,将按场景划分后的资源子数据与其它小区基本维度数据根据主关键字合并,并在合并中统一数据模式;合并的过程中对数据的冗余和模式不匹配的情况进行判断,删除冗余属性,统一属性模式的表述方式;对不能直接进行数据挖掘的数据只保留数值或者用数值替代;4)在缺失处理模块中查看各属性的缺失率,初步填充缺失值,然后根据缺失率决定处理方式,对缺失率大于50%的属性、冗余属性或与分析主题无关的属性丢弃处理,对其他属性的缺失值采用K-NN回归方法填补;5)在数据存储模块中对原始数据进行备份并存储清洗后的数据。2.根据权利要求1所述的一种基于场景的KPI及多维度网络数据清洗方法,其特征在于,所述步骤1)中小区基本维度数据包括:资源数据、性能数据、工参数据、邻区数据和测量数据;问题小区清单包括:长期演进LTE高负荷小区、4G零流量小区、长期演进LTE高流量问题严重小区、高清语音volte高掉话小区、低测量报告MR覆盖率小区和高清语音volte高丢包率小区。3.根据权利要求1所述的一种基于场景的KPI及多维度网络数据清洗方法,其特征在于,所述步骤1)中调用Python的Pandas包将数据存入的DataFrame的数据结构。4.根据权利要求1所述的一种基于场景的KPI及多维度网络数据清洗方法,其特征在于,所述步骤2)中对导入的数据格式进行规范化具体为对数据中存在的中英文和特殊字符修改格式,统一改为小写及半角格式以及去除空格。5.根据权利要求1所述的一种基于场景的KPI及...

【专利技术属性】
技术研发人员:程崇虎陆怡琪朱颖田梦倩范山岗杨洁熊健桂冠
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1