一种基于大数据技术的智能解析数据的方法技术

技术编号:29757460 阅读:34 留言:0更新日期:2021-08-20 21:10
本发明专利技术涉及大数据技术领域,具体公开了一种基于大数据技术的智能解析数据的方法,包括,识别所选数据内容的结构,将数据分段分析;为分段数据匹配相应的数据解析工具进行解析;将解析获得的数据写入数据表,并依据解析数据时所生成的主键和外键字段,自动关联存储数据表间的关系。本发明专利技术方案可以从智能解析数据系统选择匹配数据解析工具对数据进行解析处理,极大地降低用户的技术门槛,同时也减少了数据解析处理的时间和成本。

【技术实现步骤摘要】
一种基于大数据技术的智能解析数据的方法
本专利技术涉及大数据
,具体涉及一种基于大数据技术的智能解析数据的方法。
技术介绍
当今属于信息时代,数据的应用已经渗透到各行各业,大数据技术应然而生。大数据技术能对海量、不同类型的数据进行处理分析,挖掘获取深藏其中的、有价值的信息。许多接口数据均会采用一定格式来进行存储,比如JSON数据格式,一是便于存储传输,二是便于调取。当应用平台获取到这些接口数据后,需要对接口数据进行解析处理才能获取其中的具体信息。对于这些数据格式下的接口数据,目前已经有一些解析函数用于解析这些数据了,但是现有的解析函数,都只是只能针对性地解析一部分数据,比如说某个字段的数据或者某一层的数据;而对于复杂的各类接口数据,目前还没有一种有效可行的方法可以快速便捷地进行全部解析。
技术实现思路
为了解决现有技术中存在的难题,本专利技术的目的在于提供一种有效可行的基于大数据技术的智能解析数据的方法。为实现上述目的,本专利技术采用如下方案。一种基于大数据技术的智能解析数据的方法,包括:识别所选数据内容的结构,将数据分段分析;为分段数据匹配相应的数据解析工具进行解析;将解析获得的数据写入数据表,并依据解析数据时所生成的主键和外键字段,自动关联存储数据表间的关系。作为优选实施例,还包括,将解析数据的逻辑和流程自动生成SQL脚本,并对应生成数据文件包或数据表,存储到对应的文件夹或数据库。进一步地,将解析数据的逻辑和流程自动生成SQL脚本,具体为:将解析数据的逻辑和流程自动生成SQL脚本,具体为:依据解析数据所应用的数据解析工具的程序处理数据的过程对应生成SQL脚本,以及程序处理数据的顺序生成对应SQL脚本执行的数据流。作为优选实施例,还包括,自动生成SQL脚本后,形成数据解析任务文件,并形成流式处理的实时流或定时处理的批处理流程。优选地,还包括,将各类数据解析函数集成到智能解析系统,形成数据解析工具。优选地,还包括,根据存储的数据解析逻辑流程记录,自动推荐匹配的数据解析工具。进一步地,识别所选数据内容的结构,将数据分段分析,包括,依据选定的符号,查找与选定符号对应的符号对,选定所述符号对所包含的数据段。本专利技术的基于大数据技术的智能解析数据的方法可采用计算机程序自动实现,因此本专利技术还提供了一种计算机可读存储设备,存储有计算机程序,所述计算机程序被处理器执行以实现所述的基于大数据技术的智能解析数据的方法。同时,本专利技术还提供了相应的终端、系统来实现上述基于大数据技术的智能解析数据的方法。本专利技术的有益效果:本专利技术提供了一种基于大数据技术的智能解析数据的方法,可以从智能解析数据系统选择匹配数据解析工具对数据进行解析处理,极大地降低用户的技术门槛,同时也减少了数据解析处理的时间和成本。具体实施方式为了便于本领域技术人员的理解,下面结合实施例对本专利技术作进一步的说明,实施方式提及的内容并非对本专利技术的限定。本专利技术实施例提供了一种基于大数据技术的智能解析数据的方法,方法包括以下步骤。1、管理数据解析工具:根据实际数据需求或者现行的数据格式,形成各类数据解析函数,并集成到智能解析系统,组成应用系统中的数据解析工具;并可以在应用中不断扩充和增加数据解析工具到智能解析系统。目前的数据基本上都是采用JSON格式或其它便于传送或调取的格式,对于此类数据,技术人员需要根据其数据格式,开发形成对应的数据解析函数,然后可以形成文件包,例如java开发环境,则形成为jar包。之后,通过解析工具配置管理器上传到服务器,并可以自定义解析工具名称,选择所上传的文件包名,形成数据解析工具。在后续应用中,用户可以根据数据从系统选择相应的数据解析工具;解析工具配置管理器通过存储的解析工具路径,调用解析工具文件包程序,进行数据解析。2、数据分段解析:识别所选数据的内容,识别数据内容的结构,将数据进行分段分析。例如所选数据是“{[”,则系统识别与其对应的“]}”,以此识别对应的符号所包括的数据,帮助用户快速识别有效的数据结构,并截取所需要的数据进行解析。具体的,可以预先在系统配置数据识别的前置符号和对应的后置符号,之后,所选数据为前置符号时,则系统自动查找对应的后置符号,进而,可以截取前置符号和后置符号之间所包括的数据,以此为分段数据进行解析。以下以前置符号‘{[’和后置符号‘]}’为例进行详细说明。当用户选中的数据内容为前置符号‘{[’时,则系统从用户选中的前置符号‘{[’开始往后遍历数据;系统自动将用户选中的前置符号标记为第1个前置符号,然后逐步往后遍历查找;当系统查找到与用户所选前置符号相同的第n个数据时,标记其为第n个前置符号;当查找到第M个后置符号‘]}’时,标记其为第M个后置符号;n,M均为变量,均为从1递增的自然数:1,2,3,4,5……;在系统查找到第n个前置符号之后、且在查找到第n+1个前置符号之前,查找到第M个后置符号、且M=n时,则系统判定该第M个后置符号与用户所选的前置符号为一个符号对,系统自动选中这一符号对以内的数据信息。当用户选中的数据内容为后置符号时,同理,则从用户选中的后置符号开始往前遍历数据,找出其对应的前置符号,并自动选中这一符号对以内的数据。概言之,用户可以根据需要选中节点符号,系统通过对符号对的识别,查找到与所选节点符号对应的符号对,进而可以为用户自动选定当前符号对所包含的数据段,以便用户可以快速定位所查询的数据段,并据此选择相应的数据解析工具,或者也可以让系统通过历史解析记录来推荐数据解析工具。此外,系统在解析数据时,通过智能识别所有符号对,将数据结构识别到的最小颗粒的符号对所包含的数据通过解析工具进行解析获取其包含字段及对应的数据,同时为此最小颗粒的符号对生成一个id1主键作为解析出的当前最小颗粒的结构化数据的主键字段,进而完成这一最小颗粒符号对所包含的数据存储;并将生成的id1主键作为当前最小颗粒符号对的数据结构的上一层数据的一个外键字段,并以id1代替此最小颗粒的符号对的这一段数据;同样方法,采用idn外键的方式完成替换当前上一层数据结构里面的所有最小颗粒符号对所包含的数据,进而当前上一层数据即转化为最小颗粒的符号对所包含的数据。系统循环执行以上方法,完成用户所选符号对范围内的所有数据的拆解、解析和数据存储。通过对最小颗粒的符号对的识别,并将其作为解析数据的最小单位,从而可以对所选数据进行逐层/逐段地拆解和解析,这样利于系统为每层/段数据匹配到最合适的数据解析工具,以获得用户最想要的数据结果,进而提高数据解析的精准度,同时,也能提高数据解析效率。3、匹配数据解析工具:用户选择需要解析的数据后,可以将这些数据放入智能解析系统,用户可以通过上述步骤2中所述的方法,对上述数据进行逐层或逐段选择,并选择相应的数据解析工具进行解析,例如通过第一段数据解析后,下一段的各段数据可以继续选择解析工具进行解析。...

【技术保护点】
1.一种基于大数据技术的智能解析数据的方法,其特征在于,包括:/n识别所选数据内容的结构,将数据分段分析;/n为分段数据匹配相应的数据解析工具进行解析;/n将解析获得的数据写入数据表,并依据解析数据时所生成的主键和外键字段,自动关联存储数据表间的关系。/n

【技术特征摘要】
1.一种基于大数据技术的智能解析数据的方法,其特征在于,包括:
识别所选数据内容的结构,将数据分段分析;
为分段数据匹配相应的数据解析工具进行解析;
将解析获得的数据写入数据表,并依据解析数据时所生成的主键和外键字段,自动关联存储数据表间的关系。


2.根据权利要求1所述的智能解析数据的方法,其特征在于,还包括,将解析数据的逻辑和流程自动生成SQL脚本,并对应生成数据文件包或数据表,存储到对应的文件夹或数据库。


3.根据权利要求2所述的智能解析数据的方法,其特征在于,将解析数据的逻辑和流程自动生成SQL脚本,具体为:依据解析数据所应用的数据解析工具的程序处理数据的过程对应生成SQL脚本,以及程序处理数据的顺序生成对应SQL脚本执行的数据流。


4.根据权利要求2所述的智能解析数据的方法,其特征在于,还包括,自动生成SQL脚本后,形成数据解析任务文件,并形成流式处理的实时流或定时处理的批处理流程。


5.根据权利要求1所述的智能解析数据的方法,其特征在于,还包括,将各类数据解析函数集成到智能解析系统,形成数据...

【专利技术属性】
技术研发人员:章志容李实彭添才
申请(专利权)人:东莞市盟大塑化科技有限公司东莞市盟大数据科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1