The invention discloses a scene-based KPI and multi-dimensional network data cleaning method. First, the collected data is imported into the data structure, the imported data format is normalized, the resource data is divided according to the scene, and the resource data of the same scene is merged to obtain the resource sub-data, and the conflict of the data values is carried out. Detection and processing; data association of multiple data sources or files, judgment and processing of data redundancy and pattern mismatch; processing of data that can not be directly data mining; checking the missing rate of each attribute, according to the missing rate to determine the processing methods, including discarding and using K_NN regression method In the data storage module, the original data is backed up and the cleaned data is stored. The invention realizes the effective cleaning of the data and solves the technical problem that the data can not be deeply excavated due to the high complexity of the data.
【技术实现步骤摘要】
一种基于场景的KPI及多维度网络数据清洗方法
本专利技术属于数据清洗领域,具体涉及一种基于场景的KPI及多维度网络数据清洗方法。
技术介绍
移动通信网络运营管理中需要关注一些关键绩效指标(KeyPerformanceIndicators,简称KPI),如掉话率、呼损等等,除了日常维护之外,运营商希望掌握影响KPI的因素,获得KPI和网络之间的关联,便于后期网优任务分配及保障。对KPI和网络之间的关联程度进行深入的分析挖掘之前,需要对数据进行有效的清洗,降低数据的复杂程度。
技术实现思路
本专利技术的目的在于优化网络数据,提出一种基于场景的KPI及多维度网络数据清洗方法,实现数据的有效清洗,解决数据的复杂程度高导致的无法对数据进行深入挖掘的技术问题。本专利技术采用如下技术方案,一种基于场景的KPI及多维度网络数据清洗方法,具体步骤如下:1)将采集到的原始数据分为小区基本维度数据和问题小区清单,其中,小区基本维度数据为直接采集得到的小区数据,即没有经过KPI指标门限判别的数据;问题小区清单为某一项KPI出现明显劣化的小区数据,即经过KPI指标门限判别的数据;利用数据导入模块将数据导入Pandas包中的DataFrame的数据结构中;2)在数据处理模块中对导入的数据格式进行规范化,将小区基本维度数据中的资源数据按场景划分,同一个场景的资源数据调用concat函数合并,得到资源子数据,对合并过程中数据值产生的冲突进行检测和处理;3)在数据清洗模块中对多个数据源或文件的数据进行关联,即选择关联的主关键字,将按场景划分后的资源子数据与其它小区基本维度数据根据主关键字合并, ...
【技术保护点】
1.一种基于场景的KPI及多维度网络数据清洗方法,其特征在于,包括以下步骤:1)将采集到的原始数据分为小区基本维度数据和问题小区清单,其中,小区基本维度数据为直接采集得到的小区数据,即没有经过KPI指标门限判别的数据;问题小区清单为某一项KPI出现明显劣化的小区数据,即经过KPI指标门限判别的数据;利用数据导入模块将数据导入Pandas包中的DataFrame的数据结构中;2)在数据处理模块中对导入的数据格式进行规范化,将小区基本维度数据中的资源数据按场景划分,同一个场景的资源数据调用concat函数合并,得到资源子数据,对合并过程中数据值产生的冲突进行检测和处理;3)在数据清洗模块中对多个数据源或文件的数据进行关联,即选择关联的主关键字,将按场景划分后的资源子数据与其它小区基本维度数据根据主关键字合并,并在合并中统一数据模式;合并的过程中对数据的冗余和模式不匹配的情况进行判断,删除冗余属性,统一属性模式的表述方式;对不能直接进行数据挖掘的数据只保留数值或者用数值替代;4)在缺失处理模块中查看各属性的缺失率,初步填充缺失值,然后根据缺失率决定处理方式,对缺失率大于50%的属性、冗余属性 ...
【技术特征摘要】
1.一种基于场景的KPI及多维度网络数据清洗方法,其特征在于,包括以下步骤:1)将采集到的原始数据分为小区基本维度数据和问题小区清单,其中,小区基本维度数据为直接采集得到的小区数据,即没有经过KPI指标门限判别的数据;问题小区清单为某一项KPI出现明显劣化的小区数据,即经过KPI指标门限判别的数据;利用数据导入模块将数据导入Pandas包中的DataFrame的数据结构中;2)在数据处理模块中对导入的数据格式进行规范化,将小区基本维度数据中的资源数据按场景划分,同一个场景的资源数据调用concat函数合并,得到资源子数据,对合并过程中数据值产生的冲突进行检测和处理;3)在数据清洗模块中对多个数据源或文件的数据进行关联,即选择关联的主关键字,将按场景划分后的资源子数据与其它小区基本维度数据根据主关键字合并,并在合并中统一数据模式;合并的过程中对数据的冗余和模式不匹配的情况进行判断,删除冗余属性,统一属性模式的表述方式;对不能直接进行数据挖掘的数据只保留数值或者用数值替代;4)在缺失处理模块中查看各属性的缺失率,初步填充缺失值,然后根据缺失率决定处理方式,对缺失率大于50%的属性、冗余属性或与分析主题无关的属性丢弃处理,对其他属性的缺失值采用K-NN回归方法填补;5)在数据存储模块中对原始数据进行备份并存储清洗后的数据。2.根据权利要求1所述的一种基于场景的KPI及多维度网络数据清洗方法,其特征在于,所述步骤1)中小区基本维度数据包括:资源数据、性能数据、工参数据、邻区数据和测量数据;问题小区清单包括:长期演进LTE高负荷小区、4G零流量小区、长期演进LTE高流量问题严重小区、高清语音volte高掉话小区、低测量报告MR覆盖率小区和高清语音volte高丢包率小区。3.根据权利要求1所述的一种基于场景的KPI及多维度网络数据清洗方法,其特征在于,所述步骤1)中调用Python的Pandas包将数据存入的DataFrame的数据结构。4.根据权利要求1所述的一种基于场景的KPI及多维度网络数据清洗方法,其特征在于,所述步骤2)中对导入的数据格式进行规范化具体为对数据中存在的中英文和特殊字符修改格式,统一改为小写及半角格式以及去除空格。5.根据权利要求1所述的一种基于场景的KPI及...
【专利技术属性】
技术研发人员:程崇虎,陆怡琪,朱颖,田梦倩,范山岗,杨洁,熊健,桂冠,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。