文本数据标准化处理方法及装置制造方法及图纸

技术编号:24092829 阅读:32 留言:0更新日期:2020-05-09 08:51
本发明专利技术提供一种文本数据标准化处理方法及装置,该方法包括:在XML文件中配置文本数据的标准化处理规则,生成XML格式的配置文件脚本;接收待处理的文本数据;根据XML格式的配置文件脚本中的文本数据的标准化处理规则,对所述待处理的文本数据进行标准化处理,获得标准化文本数据。该方案使得使用者只需在XML文件里灵活配置文本数据的标准化处理规则,即可自动实现文本数据的标准化处理,不需要额外任何工作量。

Method and device of text data standardization

【技术实现步骤摘要】
文本数据标准化处理方法及装置
本专利技术涉及数据标准化处理
,特别涉及一种文本数据标准化处理方法及装置。
技术介绍
目前很多IT公司在程序开发中,由于业务场景比较复杂,系统间的批量文本下传、交互也越来越多,涉及的下发文本数据也越来越多,每个文本数据量也越来越大,并且很多文本数据下发的频率都是每天一次,每天占用的存储量就比较大,还有很多系统传送的文本的数据格式也不统一,很难统一化、标准化的使用这些数据。随着业务场景的增加,以及业务的变更也越来越频繁,接入的系统越来越多,则对应系统文本增加的也越来越多。如此,存储量也越来越大,未进行标准化的数据使用也越来越不方便。这样后续对数据使用上的处理逻辑既不够灵活,通用性比较差,开发的功能复用率比较低(因为业务变更场景不一样,难以复用)、开发效率比较低下和占用存储空间上也比较高等。以上方式均有弊端,不仅针对不同业务场景增加开发不必要的工作量同时增加很大的存储空间,而且后续对数据的使用也不方便。
技术实现思路
本专利技术实施例提供了一种文本数据标准化处理方法及装置,解决了现有技术中没有很好的方式对数据进行标准化处理,导致数据使用不方便的技术问题。本专利技术实施例提供了一种文本数据标准化处理方法,该方法包括:在XML文件中配置文本数据的标准化处理规则,生成XML格式的配置文件脚本;接收待处理的文本数据;根据XML格式的配置文件脚本中的文本数据的标准化处理规则,对所述待处理的文本数据进行标准化处理,获得标准化文本数据。本专利技术实施例还提供了一种文本数据标准化处理装置,该装置包括:配置模块,用于在XML文件中配置文本数据的标准化处理规则,生成XML格式的配置文件脚本;接收模块,用于接收待处理的文本数据;标准化处理模块,用于根据XML格式的配置文件脚本中的文本数据的标准化处理规则,对所述待处理的文本数据进行标准化处理,获得标准化文本数据。本专利技术实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述所述方法。本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述所述方法的计算机程序。在本专利技术实施例中,在XML文件中配置文本数据的标准化处理规则,生成XML格式的配置文件脚本,利用这个XML格式的配置文件脚本对不标准的文本数据进行标准化处理,可以很容易的获得标准化的文本数据,使得后续对数据的使用方便,同时不用针对每一业务场景就进行一次数据标准化程序开发,减少了不必要的开发工作量。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种文本数据标准化处理方法流程图一;图2是本专利技术实施例提供的一种文本数据标准化处理方法流程图二;图3是本专利技术实施例提供的一种文本数据标准化处理装置结构框图一;图4是本专利技术实施例提供的一种文本数据标准化处理装置结构框图二。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。技术术语解释:XML文件:由可扩展标记语言,标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。XML是互联网数据传输的重要工具,它可以跨越互联网任何的平台,不受编程语言和操作系统的限制,可以说它是一个拥有互联网最高级别通行证的数据携带者。XML是当前处理结构化文档信息中相当给力的技术,XML有助于在服务器之间穿梭结构化数据,这使得开发人员更加得心应手的控制数据的存储和传输。XML用于标记电子文件使其具有结构性的标记语言,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。XML是标准通用标记语言(SGML,StandardGeneralizedMarkupLanguage)的子集,非常适合Web传输。XML提供统一的方法来描述和交换独立于应用程序或供应商的结构化数据。jar:即JavaArchive,Java的包,Java编译好之后生成class文件,但如果直接发布这些class文件的话会很不方便,所以就把许多的class文件打包成一个jar,jar中除了class文件还可以包括一些资源和配置文件,通常一个jar包就是一个java程序或者一个java库。在本专利技术实施例中,提供了一种文本数据标准化处理方法,如图1所示,该方法包括:步骤102:在XML文件中配置文本数据的标准化处理规则,生成XML格式的配置文件脚本;步骤104:接收待处理的文本数据;步骤106:根据XML格式的配置文件脚本中的文本数据的标准化处理规则,对所述待处理的文本数据进行标准化处理,获得标准化文本数据。在本专利技术实施例中,所述文本数据的标准化处理规则中可以包括文件名称、字段分隔符、字段列数(列数核对)、生成目标文件格式(比如,orc、txt、cvs)。另外,文本数据的标准化处理规则中还包括字段名称、字段属性(比如,字符串,日期,金额等)、格式化处理(比如,前后去空格,YYYYMMDD,Y9999.9999)、字段转码格式(比如,GBK,UTF8等)其中之一或多个。说明:列数核对,是指XML文件中配置的字段列数,必须和字段名称能对应上,有多少个列就要有多少个字段名称,字段属性,格式化处理。如果有的属性不需要格式化处理,就可以多个逗号来处理,逗号和逗号之间为空(比如:,,,trim,YYYYMMDD)。并且字段的列数,必须和文件中字段分割符后的列数一样。每个字段是否需要格式化,需要格式化成什么样,都可以进行灵活配置;如果字段也不需要转码,哪么配置属性为空。在本专利技术实施例中,如图2所示,还包括:步骤108:在配置完成后,对XML格式的配置文件脚本进行正确性验证。在本专利技术实施例中,所述XML格式的配置文件脚本的执行程序打包在Jar包里。具体的,XML格式的配置文件脚本的配置内容如下说明如下:以下是格式说明也有校验,具体格式见上。必须以:<config>开头;然后是<beanid="”……..>;每一个bean对应的一个文件处理内容;多个文件对应多个<beanid=“….”>配置。Bean中的class=对应的具体程序执行内容。程序的执行内容在jar包内。必须以:<c本文档来自技高网...

【技术保护点】
1.一种文本数据标准化处理方法,其特征在于,包括:/n在XML文件中配置文本数据的标准化处理规则,生成XML格式的配置文件脚本;/n接收待处理的文本数据;/n根据XML格式的配置文件脚本中的文本数据的标准化处理规则,对所述待处理的文本数据进行标准化处理,获得标准化文本数据。/n

【技术特征摘要】
1.一种文本数据标准化处理方法,其特征在于,包括:
在XML文件中配置文本数据的标准化处理规则,生成XML格式的配置文件脚本;
接收待处理的文本数据;
根据XML格式的配置文件脚本中的文本数据的标准化处理规则,对所述待处理的文本数据进行标准化处理,获得标准化文本数据。


2.如权利要求1所述的文本数据标准化处理方法,其特征在于,所述文本数据的标准化处理规则中包括文件名称、字段分隔符、字段列数、生成目标文件格式。


3.如权利要求2所述的文本数据标准化处理方法,其特征在于,所述文本数据的标准化处理规则中还包括字段名称、字段属性、格式化处理、字段转码格式其中之一或多个。


4.如权利要求1所述的文本数据标准化处理方法,其特征在于,还包括:
在配置完成后,对XML格式的配置文件脚本进行正确性验证。


5.如权利要求1所述的文本数据标准化处理方法,其特征在于,所述XML格式的配置文件脚本的执行程序打包在Jar包里。


6.一种文本数据标准化处理装置,其特征在于,包括:
配置模块,用于在XML文件中配置文本数据的标准化处理规则,生成XML格式的配置文件脚本;
接收模块,用于接收待处理的...

【专利技术属性】
技术研发人员:陈国杰刘頔
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1