The invention discloses a general processing method of text data, the realization process is as follows: the acquisition of the text object of analysis, using a unified configuration file to define the content of text description; to monitor the file collection and processing process, timely detection of abnormal text, when the file appears abnormal alarm. The general text data processing method compared with the existing technology, has the versatility, through the object of acquisition documents, the text parsing process to add and adjust the file only to add or modify the configuration file can be completed, greatly reducing the need for maintenance personnel technical requirements, and the maintenance cost of probability and error, strong practicability, wide application range, easy popularization.
【技术实现步骤摘要】
一种通用的文本数据处理方法
本专利技术涉及计算机
,具体地说是一种实用性强、通用的文本数据处理方法。
技术介绍
传统的文本数据接口,因为字段调整或者增加,以及分割符的不同,部分字段需解析过程进行转换处理,所以需经常对代码经常改动,维护比较复杂,并且会因为不恰当的调整影响其他文本文件入库。在以往文本处理接口,经常因为文件提供方问题,导致数据文件内容缺失,或者文件没有送达,导致相关应用出问题。此外,现有技术还存在以下缺陷:代码经常调整,容易互相干扰,维护成本高:因为字段的添加和对字段的特殊处理,需要频繁代码改动,容易因为测试不全而导致其他文件处理出现问题。无法对异常情况进行告警,或者有告警不全面:因为没有对采集文件进行监控,导致文件内容和数量出现问题无法及时发现。通过邮寄附件的方式,可以更直观的查看所有接口运行情况。基于此,现提供一种通用的文本数据处理方法,可有效解决上述缺陷。
技术实现思路
本专利技术的技术任务是针对以上不足之处,提供一种实用性强、通用的文本数据处理方法。一种通用的文本数据处理方法,其实现过程为:将采集的文本进行对象化解析,采用统一的配置文件描述来定义文本解析的内容;对文件采集和处理过程进行监控,及时发现文本异常,当文件出现异常时发出告警。将采集的文本进行对象化解析的过程为:一、首先读取配置文件,组织定义配置文件的信息:确定文件标题名称、分隔符以及输出和处理方式;二、获取一行数据,查看是否有备份,如果有则拼接备份,然后进入下一步,没有则直接进入下一步;三、按分隔符拆分,查看分割数组和定义是否相同,相同则根据定义的输出进行数据处理,自动生成入 ...
【技术保护点】
一种通用的文本数据处理方法,其特征在于,其实现过程为:将采集的文本进行对象化解析,采用统一的配置文件描述来定义文本解析的内容;对文件采集和处理过程进行监控,及时发现文本异常,当文件出现异常时发出告警。
【技术特征摘要】
1.一种通用的文本数据处理方法,其特征在于,其实现过程为:将采集的文本进行对象化解析,采用统一的配置文件描述来定义文本解析的内容;对文件采集和处理过程进行监控,及时发现文本异常,当文件出现异常时发出告警。2.根据权利要求1所述的一种通用的文本数据处理方法,其特征在于,将采集的文本进行对象化解析的过程为:一、首先读取配置文件,组织定义配置文件的信息:确定文件标题名称、分隔符以及输出和处理方式;二、获取一行数据,查看是否有备份,如果有则拼接备份,然后进入下一步,没有则直接进入下一步;三、按分隔符拆分,查看分割数组和定义是否相同,相同则根据定义的输出进行数据处理,自动生成入库控制文件。3.根据权利要求2所述的一种通用的文本数据处理方法,其特征在于,在组织定义配置文件的信息中,根据文件标题名称获取相应的配置文件,然后对配置文件用xml包解析,获取我们需要的文件标题、分隔符、输出字段排序、以及每个字段来源和相应的处理函数。4.根据权利要求2所述的一种通用的文本数据处理方法,其特征在于,所述配置文件,包含文本自身字段和后期处理字段,并且包含文件的ftp来源信息,其中后期处理字段为处理、拆分或者合并的字段,即根据文件类型的字段个数来处理数据换行问题,非文件来源的按里面填写的函数和参数来处理。5.根据权利要求2所述的一种通用的文本数据处理方法,其特征在于,步骤三的具体过程为:A、打开配置文件开始解析,每读一行line,根据分隔符拆分,判断分割数组长度是否和文件标题一致并且包含结尾符;B、如果拆分长度不一致或者没有发现结尾符,转到A;C、拆分长度一致并包含结尾符,...
【专利技术属性】
技术研发人员:邱建波,
申请(专利权)人:浪潮通信信息系统有限公司,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。