一种通用的文本数据处理方法技术

技术编号:15541890 阅读:71 留言:0更新日期:2017-06-05 11:05
本发明专利技术公开了一种通用的文本数据处理方法,其实现过程为:将采集的文本进行对象化解析,采用统一的配置文件描述来定义文本解析的内容;对文件采集和处理过程进行监控,及时发现文本异常,当文件出现异常时发出告警。该通用的文本数据处理方法与现有技术相比,具有通用性,通过对采集文件的对象化,使得对文本解析处理过程,对新增和调整文件只需对配置文件进行添加或者修改就可以完成,极大的降低了对维护人员的技术要求,以及维护成本和出错的概率,实用性强,适用范围广泛,易于推广。

A general method of text data processing

The invention discloses a general processing method of text data, the realization process is as follows: the acquisition of the text object of analysis, using a unified configuration file to define the content of text description; to monitor the file collection and processing process, timely detection of abnormal text, when the file appears abnormal alarm. The general text data processing method compared with the existing technology, has the versatility, through the object of acquisition documents, the text parsing process to add and adjust the file only to add or modify the configuration file can be completed, greatly reducing the need for maintenance personnel technical requirements, and the maintenance cost of probability and error, strong practicability, wide application range, easy popularization.

【技术实现步骤摘要】
一种通用的文本数据处理方法
本专利技术涉及计算机
,具体地说是一种实用性强、通用的文本数据处理方法。
技术介绍
传统的文本数据接口,因为字段调整或者增加,以及分割符的不同,部分字段需解析过程进行转换处理,所以需经常对代码经常改动,维护比较复杂,并且会因为不恰当的调整影响其他文本文件入库。在以往文本处理接口,经常因为文件提供方问题,导致数据文件内容缺失,或者文件没有送达,导致相关应用出问题。此外,现有技术还存在以下缺陷:代码经常调整,容易互相干扰,维护成本高:因为字段的添加和对字段的特殊处理,需要频繁代码改动,容易因为测试不全而导致其他文件处理出现问题。无法对异常情况进行告警,或者有告警不全面:因为没有对采集文件进行监控,导致文件内容和数量出现问题无法及时发现。通过邮寄附件的方式,可以更直观的查看所有接口运行情况。基于此,现提供一种通用的文本数据处理方法,可有效解决上述缺陷。
技术实现思路
本专利技术的技术任务是针对以上不足之处,提供一种实用性强、通用的文本数据处理方法。一种通用的文本数据处理方法,其实现过程为:将采集的文本进行对象化解析,采用统一的配置文件描述来定义文本解析的内容;对文件采集和处理过程进行监控,及时发现文本异常,当文件出现异常时发出告警。将采集的文本进行对象化解析的过程为:一、首先读取配置文件,组织定义配置文件的信息:确定文件标题名称、分隔符以及输出和处理方式;二、获取一行数据,查看是否有备份,如果有则拼接备份,然后进入下一步,没有则直接进入下一步;三、按分隔符拆分,查看分割数组和定义是否相同,相同则根据定义的输出进行数据处理,自动生成入库控制文件。在组织定义配置文件的信息中,根据文件标题名称获取相应的配置文件,然后对配置文件用xml包解析,获取我们需要的文件标题、分隔符、输出字段排序、以及每个字段来源和相应的处理函数。所述配置文件,包含文本自身字段和后期处理字段,并且包含文件的ftp来源信息,其中后期处理字段为处理、拆分或者合并的字段,即根据文件类型的字段个数来处理数据换行问题,非文件来源的按里面填写的函数和参数来处理。步骤三的具体过程为:A、打开配置文件开始解析,每读一行line,根据分隔符拆分,判断分割数组长度是否和文件标题一致并且包含结尾符;B、如果拆分长度不一致或者没有发现结尾符,转到A;C、拆分长度一致并包含结尾符,加载输出排序列表,根据字段对应的函数进行后期处理,然后根据文件记录数约束写入入库数据文件和入库控制文件。对文件采集和处理过程进行监控时,按文件采集粒度对文件进行监控,按粒度来进行数据和文件大小比对,及时发现采集文件异常。对文件采集和处理过程进行监控的具体过程为:遍历接口列表,根据时间粒度对前后文件的数量和记录数进行比对,对有偏差的数据写入告警文件;当接口列表遍历结束,生成所有采集接口报告,判断告警文件大小,如果不为空,则根据配置对相应人员进行告警提醒。有偏差的数据获取并告警过程为:首先获取一个接口信息,根据接口编号读取当前粒度文件日志;检查文件记录数,等于0则写入告警文件;把当前粒度与上一粒度记录进行比对,偏差过大则写入告警文件;统计当前粒度文件类型数与上一文件数,如果不相等则写入告警文件。所述粒度偏差是指采集数据文件大小偏差超过0.05~5%时,写入告警文件。遍历接口列表的过程为:根据接口ID,获得当前的文件数,上一次采集时间和采集总数;根据当前时间和上次采集时间对文件两次同一类型文件采集的数量进行对比和计算;如果当前采集总文件数为0,写入告警文件;循环判断每个类型文件大小异常情况,如果偏差大于0.05%,将相关信息写入告警文件。本专利技术的一种通用的文本数据处理方法,具有以下优点:本专利技术的一种通用的文本数据处理方法,具有通用性,通过对采集文件的对象化,使得对文本解析处理过程,对新增和调整文件只需对配置文件进行添加或者修改就可以完成,极大的降低了对维护人员的技术要求,以及维护成本和出错的概率;具有可扩展性,灵活的配置采集文件类型和采集粒度,从而达到相应的采集需求和监控粒度,具有时效性,根据时间粒度对文件进行补充采集和相关告警的邮件提醒,提前发现采集异常情况,从而能最快解决,实用性强,适用范围广泛,易于推广。附图说明附图1为本专利技术采集文件对象化解析实现示意图。附图2为本专利技术对采集文件的粒度进行监控过程示意图。附图3为本专利技术配置文件示意图。具体实施方式下面结合具体实施例对本专利技术作进一步说明。本专利技术的一种通用的文本数据处理方法,其实现过程包括以下两个步骤:一、将采集文件对象化解析。二、按文件采集粒度对文件进行监控,按粒度来进行数据和文件大小比对,及时发现采集文件异常。如附图3所示,在配置文件里对文件要入库的表名,文件分隔符,来源和本地存放位置进行定义。在字段说明里,字段可以比采集文件多,但是前面的字段一定和数据文件一样。后面多的字段可以是经常处理,拆分或者合并的字段。根据file类型的字段个数来处理数据换行问题。非file来源的按里面填写的函数和参数来处理。所述的对象模型配置文件,包含文本自身字段和后期处理字段,并且包含文件的ftp来源信息。首先根据文件名称获取相应的配置文件,对配置文件用xml包解析,获取我们需要的文件标题、分隔符、输出字段排序、以及每个字段来源和相应的处理函数。其中,如附图1所示,将采集的文本进行对象化解析的过程为:1、首先读取配置文件,组织定义配置文件的信息:确定文件标题名称、分隔符以及输出和处理方式;2、获取一行数据,查看是否有备份,如果有则拼接备份,然后进入下一步,没有则直接进入下一步;3、按分隔符拆分,查看分割数组和定义是否相同,相同则根据定义的输出进行数据处理,自动生成入库控制文件。步骤3的具体过程为:A.打开文件开始解析,每读一行line,根据分隔符拆分,判断分割数组长度是否和文件标题一致并且包含结尾符。B.如果拆分长度不一致或者没有发现结尾符,判断line_bak是否为空,line_bak为空,line_bak=line,转到A,否则line_bak=line.line_bak,转到A.C.拆分长度一致并包含结尾符,加载输出排序列表,根据字段对应的函数进行后期处理,然后根据文件记录数约束写入入库数据文件和入库控制文件。我们通过正则解析来解决乱码中断问题,通过对每行的数据检查来保证数据的完整性,通过单一文件最大记录数拆分文件,从而保证数据能快速的加载入库。通过一个配置文件来描述解析的文件,保证了主体代码的稳定性,使得维护简单。如附图2所示,提供定时任务对采集文件的粒度进行监控具体为:首先对所有采集到的文件数据数量和采集状态进行记录。根据采集标志对采集数量为-1的进行补充采集。根据时间粒度对前后文件的数量和记录数进行比对。对有偏差的数据进行邮件通知。对文件采集和处理过程进行监控的具体过程为:遍历接口列表,根据时间粒度对前后文件的数量和记录数进行比对,对有偏差的数据写入告警文件;当接口列表遍历结束,生成所有采集接口报告,判断告警文件大小,如果不为空,则根据配置对相应人员进行告警提醒。有偏差的数据获取并告警过程为:首先获取一个接口信息,根据接口编号读取当前粒度文件日志;检查文件记录数,等于0则写入告警文件;把当前粒度与上一粒度记录进行比本文档来自技高网...
一种通用的文本数据处理方法

【技术保护点】
一种通用的文本数据处理方法,其特征在于,其实现过程为:将采集的文本进行对象化解析,采用统一的配置文件描述来定义文本解析的内容;对文件采集和处理过程进行监控,及时发现文本异常,当文件出现异常时发出告警。

【技术特征摘要】
1.一种通用的文本数据处理方法,其特征在于,其实现过程为:将采集的文本进行对象化解析,采用统一的配置文件描述来定义文本解析的内容;对文件采集和处理过程进行监控,及时发现文本异常,当文件出现异常时发出告警。2.根据权利要求1所述的一种通用的文本数据处理方法,其特征在于,将采集的文本进行对象化解析的过程为:一、首先读取配置文件,组织定义配置文件的信息:确定文件标题名称、分隔符以及输出和处理方式;二、获取一行数据,查看是否有备份,如果有则拼接备份,然后进入下一步,没有则直接进入下一步;三、按分隔符拆分,查看分割数组和定义是否相同,相同则根据定义的输出进行数据处理,自动生成入库控制文件。3.根据权利要求2所述的一种通用的文本数据处理方法,其特征在于,在组织定义配置文件的信息中,根据文件标题名称获取相应的配置文件,然后对配置文件用xml包解析,获取我们需要的文件标题、分隔符、输出字段排序、以及每个字段来源和相应的处理函数。4.根据权利要求2所述的一种通用的文本数据处理方法,其特征在于,所述配置文件,包含文本自身字段和后期处理字段,并且包含文件的ftp来源信息,其中后期处理字段为处理、拆分或者合并的字段,即根据文件类型的字段个数来处理数据换行问题,非文件来源的按里面填写的函数和参数来处理。5.根据权利要求2所述的一种通用的文本数据处理方法,其特征在于,步骤三的具体过程为:A、打开配置文件开始解析,每读一行line,根据分隔符拆分,判断分割数组长度是否和文件标题一致并且包含结尾符;B、如果拆分长度不一致或者没有发现结尾符,转到A;C、拆分长度一致并包含结尾符,...

【专利技术属性】
技术研发人员:邱建波
申请(专利权)人:浪潮通信信息系统有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1