话单数据采集方法技术

技术编号:7024886 阅读:236 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种话单数据采集方法,包括以下步骤:S1:采用N个分析进程根据用户关注的指标字段分析原始话单文件,提取包含所述指标字段的数据,并将该数据存入数据库,N≥1;S2:从所述数据库中提取所述指标字段的数据,并进行汇聚,将汇聚后的结果存入数据库。本发明专利技术能够灵活地根据用户的需求,定制采集粒度和采集指标。

【技术实现步骤摘要】

本专利技术涉及数据采集
,特别涉及一种。
技术介绍
一般业务数据采集的形式,都是由综合网管和业务厂家制定采集接口,由业务厂家提供数据库或者文件形式,将汇总后的数据提供给综合网管系统。这样做的话,综合网管系统只能采集到提前约定好的相关指标,如果指标发生增减,或者采集粒度发生变化,综合网管系统将受限于业务厂家所提供的数据,这样就不利于按用户的特定需求采集和展示所需要的指标数据。
技术实现思路
(一)要解决的技术问题本专利技术要解决的技术问题是如何在繁杂的业务数据中,采集用户关注的信息。( 二 )技术方案为解决上述技术问题,本专利技术提供了一种,包括以下步骤Sl 采用N个分析进程根据用户关注的指标字段分析原始话单文件,提取包含所述指标字段的数据,并将该数据存入数据库,N^l;S2:从所述数据库中提取所述指标字段的数据,并进行汇聚,将汇聚后的结果存入数据库。其中,所述步骤Sl具体包括Si. 1 每个分析进程定时读取原始话单文件,调用解析脚本对话单进行解析,所述解析脚本中指定了所述用户关注的指标字段;Si. 2 将解析后得到的所述指标字段的数据存入数据库。其中,所述步骤Si. 1中解析的方式具体包括解析所述用户关注的指标字段,或截取所述指标字段中的一部分数值,或根据指标字段含义进行符合数据库存储的数据类型转换,或根据指标字段值进行数制换算。其中,所述步骤Si. 2中采用数据库文本导入的方式将解析后得到的所述指标字段的数据存入数据库。其中,所述步骤S2中以时间粒度为汇聚条件对N个分析结果进行汇聚,得到所述指标字段在开始时间和结束时间内的汇聚结果,并对所述汇聚结果做求和、平均值、最大值或最小值中的一种或多种聚合函数的计算,得出该指标字段在不同聚合函数下的时间粒度的汇聚值。其中,进行一次汇聚之后还包括采用与前一次不同的时间粒度对前一次的汇聚结果进行汇聚。其中,所述时间粒度包括小时粒度、天粒度、周粒度、月粒度、季粒度、年粒度。所述步骤S2中以业务类型为汇聚条件对所述指标字段的数据进行汇聚,得到不同业务类型中的指标字段的汇聚结果。其中,所述步骤Sl之前还包括登录远程话单服务器,下载原始话单文件,并将所述原始话单文件分成N个分析目录。(三)有益效果本专利技术能够灵活地根据用户的需求,定制采集粒度和采集指标,使得用户能够采集自己关注的信息。附图说明图1是本专利技术实施例的一种流程图;图2是图1中步骤SlOl的具体流程图;图3是图1中步骤S102的具体流程图;图4是图1中步骤S103的具体流程图。具体实施例方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。如图1所示,本专利技术的包括步骤SlOl,登录远程话单服务器,到指定的目录下载原始话单文件,并将原始话单文件分成N个分析目录,1。具体流程如图2所示,如果下载发生错误,则舍弃该文件并报异常。话单下载完毕后,进程进入休眠状态,等待下次任务执行。若当前已存在原始话单文件,则不用下载,直接执行步骤S102。步骤S102,采用N个分析进程分析原始话单文件,对用户关注的指标字段进行分析提取,将提取后的包含所述指标字段的数据存入数据库。具体流程如图3所示,分析话单进程启动后,定时读取话单文件,调用解析脚本对话单进行解析,可以根据用户关注的指标进行自定义解析脚本,如只解析用户关注的某几个指标,其他字段不解析,或者某个字段只截取其中有用的一部分数值。也可以根据指标含义进行适当的数据类型转换,为下一步数据存入数据库以及最终的数据查询做好准备。如某个字段为枚举类型的字符串型数据, 则可以将该字段转换为整型字典表数据,因为整型数据比字符串型数据查询的效率要高, 所以这样解析有利于最终的数据查询。还可以根据指标值进行必要的数据换算,如将十六进制数据转换为十进制数据,或将日期型数据转换为长整型时间数据等。如果解析不成功会生成异常文件。分析后再调用数据入库脚本将数据存入中间表,如果数据入库不成功也会生成异常文件。然后将分析完的文件进行备份。所有话单文件分析完毕后,进程进入休眠状态,等待下次任务执行。分析话单进程可以根据话单量的多少,自定义进程的数量,以最大限度的实现负载均衡。其中将解析后得到的所述指标字段的数据存入数据库,是使用了数据库文本导入的方式,这样做的优点是只占用系统内存,不占用进程的内存,处理效率相当高。步骤S103 从所述数据库中提取步骤S102解析出的指标字段的数据进行汇聚,并将汇聚后的结果存入数据库。具体流程如图4所示,汇聚话单进程启动后,定时进行数据的提取和汇聚,再将汇聚后的数据存入数据库中。汇聚任务执行完毕后,进程进入休眠状态, 等待下次任务执行。汇聚的粒度和算法,以及汇聚后需要提取的指标,都可以根据用户的需要适时地调整,以最大限度地实现用户的个性化需求。如用户需要小时粒度的数据,那么汇聚后会得到用户所关注指标字段在开始时间和结束时间相差1小时(一般是整点时间)内的数据,并且对该数据做求和、平均、最大、最小等一种或多种聚合函数的计算,得出的结果将是用户所关注指标字段在不同汇聚函数下的小时粒度的汇聚值。还可以针对不同的时间粒度需求,进行多次汇聚,如将原始数据汇聚成小时、天、周、月、季、年等不同的数据粒度,以支持报表的多种日期和时间维度的查询和翻转。如果该汇聚过程较为简单,则可以用SQL语句来实现。如果汇聚过程较为复杂,如需要针对多个指标进行多次计算,也可以用存储过程来实现。下面以WAP网关业务为例,针对以上汇聚粒度和算法作具体说明如下WAP网关有 PULL、PUSH、RADIUS、SOCKET等几类话单,用户将与网关实时性分业务统计的相关指标建立了一个指标组,这些指标的数据都来源于PULL话单,指标的编码、含义及算法定义见表1 :表1 WAP网关业务中指标字段的信息权利要求1.一种,其特征在于,包括以下步骤Sl 采用N个分析进程根据用户关注的指标字段分析原始话单文件,提取包含所述指标字段的数据,并将该数据存入数据库,N^l;S2:从所述数据库中提取所述指标字段的数据,并进行汇聚,将汇聚后的结果存入数据库。2.如权利要求1所述的,其特征在于,所述步骤Sl具体包括Si. 1 每个分析进程定时读取原始话单文件,调用解析脚本对话单进行解析,所述解析脚本中指定了所述用户关注的指标字段;Si. 2 将解析后得到的所述指标字段的数据存入数据库。3.如权利要求2所述的,其特征在于,所述步骤Si.1中解析的方式具体包括解析所述用户关注的指标字段,或截取所述指标字段中的一部分数值,或根据指标字段含义进行符合数据库存储的数据类型转换,或根据指标字段值进行数制换算。4.如权利要求3所述的,其特征在于,所述步骤Si.2中采用数据库文本导入的方式将解析后得到的所述指标字段的数据存入数据库。5.如权利要求1所述的,其特征在于,所述步骤S2中以时间粒度为汇聚条件对所述指标字段的数据进行汇聚,得到所述指标字段在开始时间和结束时间内的汇聚结果,并对所述汇聚结果做求和、平均值、最大值或最小值中的一种或多种聚合函数的计算,得出该指标字段在不同聚合函数下的时间粒度的汇聚值。6.如权利要求5所述的,其特征在于,进行一次汇聚之后还包括采用与前一次不同的时间粒度对前一次本文档来自技高网...

【技术保护点】
1.一种话单数据采集方法,其特征在于,包括以下步骤:S1:采用N个分析进程根据用户关注的指标字段分析原始话单文件,提取包含所述指标字段的数据,并将该数据存入数据库,N≥1;S2:从所述数据库中提取所述指标字段的数据,并进行汇聚,将汇聚后的结果存入数据库。

【技术特征摘要】

【专利技术属性】
技术研发人员:李云
申请(专利权)人:北京神州泰岳软件股份有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1