一种从非结构化数据提取结构化数据的方法技术

技术编号:17032360 阅读:22 留言:0更新日期:2018-01-13 19:05
本发明专利技术公开一种从非结构化数据提取结构化数据的方法,其包括以下步骤:建立模式库,其包括基于正则表达式编写获得的若干个模式;基于图像化操作,建立一个空的解析器;获取待解析数据中的一部分作为样本数据,了解解析需求;根据解析需求,调用至少一个模式,依次编辑分类规则和解析规则以对样本数据分类和解析,并将分类规则和解析规则存储至解析器;显示解析规则解析的样本数据的字段值名;在实际环境中部署所述解析器。本发明专利技术提供的从非结构化数据提取结构化数据的方法,解析操作基于图形化界面,操作灵活,无需面对编程文件,利于开发、更新与维护。

【技术实现步骤摘要】
一种从非结构化数据提取结构化数据的方法
本专利技术涉及大数据领域的数据解析技术,更具体地说,本专利技术涉及一种从非结构化数据提取结构化数据的方法。
技术介绍
运维数据不仅数量惊人,种类繁多,而且产出位置也各不相同,处理起来十分复杂,而我们往往需要在几秒钟内得到答案。我们需要有一种方法或方式能从海量数据中快递定位,找到问题,找到根因。同时,这些数量庞大的数据还包含了许多对企事业单位、各组织机构或个人都十分有价值的信息。我们需要有一种方法或方式把这些数据变成有意义、有价值的信息,从而产生影响。运维数据包括结构化数据、半结构化数据和非结构化数据。非结构化数据由机器或者人类产生,人类产生的半结构化数据包括文本、声音、图片等形式的数据。半结构化数据主要来自系统日志、应用程序、服务器、中间件、网络设备、安全设备和数据库等。结构化数据来自数据库、监控系统、日志网络监控系统、系统监控等。数据通过代理器、SYSLOG、TCP、UDP、FTP、HTTP等方式从不同的位置采集。数据采集后被发至数据处理系统处理。在处理过程中就需要解析数据,并从中提取有效字段信息。数据解析和字段提取需要实时或近实时或在匹配模式(Pattern)下完成。能够在生产环境中保存、存储、加载、编辑、输入、输出和部署一个数据结构的解析系统称为解析器。开发一种从非结构化数据提取结构化数据的方法的人称为开发人员。开发人员检查样本数据、理解样本数据的类型和字段,再开发解析器(Parser),然后将解析器部署在实际生产环境中,数据会在实际生产环境中被数据分析体系解析和使用。具体地,开发人员的工作就是首先将样本数据中的数据记录归类,然后针对每一类的数据记录,从中提取字段,并给字段命名,将这些字段具体化为数值、字符串、IP地址等。为了成功创造出可以扫描样本数据,给样本数据归类,从样本数据中提取、输出字段的一种从非结构化数据提取结构化数据的方法,开发人员必须执行上述两步操作。传统的一种从非结构化数据提取结构化数据的方法采用三种方法来开发和部署解析器。1.使用高级编程语言开发解析器。2.传统方式需要编程人员编码正则表达式(RegEx)。3.传统开发方式是在如JSON或者XML的更加简单的脚本中开发解析器定义。在开发出这些解析器后,传统系统采用将解析器复制到文件的方式将其部署到生产系统中。传统解析方法的主要缺点有:1.开发人员需要熟练掌握模式匹配语言或者高水平编程语言;当要解析的数据量大,种类繁多时,使用这些语言很难维护,调试起来也很困难;2.开发人员需要检查样本数据,理解样本数据的记录类型和有意义的字段,根据个人对模式匹配语言或者高水平编程语言的掌握情况,开发出解析模式;3.开发人员不得不手动编写解析器。没有方便的图形化开发环境。没有可增编的交互性工具,开发人员需要在开发前将所有的设计熟练于心或者以文档形式呈现;4.开发人员在开发过程中没有快速方法检测解析器的正确性,而只能实际部署于生产中后才能发现解析器中的错误;5.因为缺少冲突处理工具,传统的解析系统中,手写的传统解析器是没有再次使用能力的;6.如果部署解析器时要做一些改变,就需要重新启动整个数据处理系统。
技术实现思路
针对上述技术中存在的不足之处,本专利技术提供一种从非结构化数据提取结构化数据的方法,解析操作基于图形化界面,操作灵活,无需面对编程文件,利于开发、更新与维护。为了实现根据本专利技术的这些目的和其它优点,本专利技术通过以下技术方案实现:本专利技术提供一种从非结构化数据提取结构化数据的方法,其包括以下步骤:建立模式库,其包括基于正则表达式编写获得的若干个模式;基于图像化操作,建立一个空的解析器;获取待解析数据中的一部分作为样本数据,了解解析需求;根据所述解析需求,调用至少一个所述模式,依次编辑分类规则和解析规则以对样本数据分类和解析,所述分类规则和所述解析规则存储至所述解析器;显示所述解析规则解析的样本数据的字段值名;在GUI上将解析器部署至实际使用环境,解析结果输出到数据分析的下一步骤。建立所述解析器,包括以下步骤:建立主解析树;在所述主解析树树根上以树节点方式并列添加至少一个解析节点并自动生成一个与所述解析节点并列的其他节点;在所述解析节点上启动对数据分类的分类单元以及对分类后数据解析的解析单元;在所述其他节点启动所述解析单元;在每个所述分类单元中,基于至少一种正向规则和/或反向规则,调用至少一个所述模式编辑形成所述分类规则,符合任一解析节点上分类单元分类规则的数据分配至该节点;若不符合,分配至所述其他节点;在所述解析单元中,调用至少一个所述模式编辑形成所述解析规则以对分类后的数据进行解析。优选的是,建立所述解析器,还包括步骤:以树节点方式,添加与所述主解析树并列的至少一个子解析树;在每个所述子解析树上以与所述主解析树相同方式添加所述解析节点、所述分类单元、所述解析单元以及自动生成一个其他节点;依次启动所述分类单元、所述解析单元,以对数据进行分类和解析。优选的是,添加所述解析节点,还包括以下步骤:在所述解析节点上,以树节点方式并列添加至少一个解析子节点,在所述解析子节点启动所述分类单元以分类;所述解析节点的解析单元移至对应添加的每个所述解析子节点以解析;其中,添加所述解析子节点时,自动生成一个与所述解析子节点并列的其他节点;所述解析子节点的解析单元移至相对应的最后一级所述子节点以解析。优选的是,建立所述解析器,还包括以下步骤:在所述主解析树、所述子解析树、所述解析节点、所述其他节点、所述解析子节点及其所述子节点上:编辑名称;编辑并显示当前解析的数据类型;编辑并显示创建时间;编辑并显示更新时间;编辑用于添加供识别的标签;以及,对解析器进行修改、编辑以及删除的操作。优选的是,建立所述解析器,还包括以下步骤:在所述主解析树、所述子解析树、所述解析节点以及所述解析子节点上:将一个解析树上的一个节点上复制粘贴到另外一棵解析树上以新建一个节点,或者在同一棵解析树内复制一个节点后粘贴该节点以新建一个节点;以树节点方式添加节点。优选的是,编辑所述分类规则或所述解析规则,包括以下步骤:启动规则编辑栏;若编辑分类规则,则选择至少一种正向规则和/或反向规则后,调用至少一个所述模式编辑形成分类规则,并将分类规则应用到对应的数据,对数据进行分类;若编辑解析规则,选择至少一个所述模式拖拽至规则编辑栏进行编辑,形成所述解析规则,解析规则应用到对应的数据中,对数据进行解析。优选的是,显示所述解析规则解析的样本数据的字段值名,还包括步骤:下载、存储、部署、复用所述解析器,在GUI上将解析器发送至实际使用环境部署,解析结果输出到数据分析的下一步骤。本专利技术至少包括以下有益效果:本专利技术提供的从非结构化数据提取结构化数据的方法,基于树节点方式以及图形化操作界面,上传待解析的样本数据后,调用解析器数据库中的至少一个模式进行编辑形成解析规则保存到解析器,形成解析器,以抽取样本数据中与解析规则对应的字段并显示;整个解析过程,基于图形化界面,操作灵活,无需面对编程文件,利于开发、更新与维护。本专利技术的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本专利技术的研究和实践而为本领域的技术人员所理解。附图说明图1为本专利技术所述的从非结构化数据提取结构化数据的方本文档来自技高网
...
一种从非结构化数据提取结构化数据的方法

【技术保护点】
一种从非结构化数据提取结构化数据的方法,其特征在于,其包括以下步骤:建立模式库,其包括基于正则表达式编写获得的若干个模式;基于图像化操作,建立一个空的解析器;获取待解析数据中的一部分作为样本数据,了解解析需求;根据所述解析需求,调用至少一个所述模式,依次编辑分类规则和解析规则以对样本数据分类和解析,所述分类规则和所述解析规则存储至所述解析器;显示所述解析规则解析的样本数据的字段值名;在GUI上将解析器部署至实际使用环境,解析结果输出到数据分析的下一步骤。

【技术特征摘要】
1.一种从非结构化数据提取结构化数据的方法,其特征在于,其包括以下步骤:建立模式库,其包括基于正则表达式编写获得的若干个模式;基于图像化操作,建立一个空的解析器;获取待解析数据中的一部分作为样本数据,了解解析需求;根据所述解析需求,调用至少一个所述模式,依次编辑分类规则和解析规则以对样本数据分类和解析,所述分类规则和所述解析规则存储至所述解析器;显示所述解析规则解析的样本数据的字段值名;在GUI上将解析器部署至实际使用环境,解析结果输出到数据分析的下一步骤。2.如权利要求1所述的从非结构化数据提取结构化数据的方法,其特征在于,建立所述解析器,包括以下步骤:建立主解析树;在所述主解析树树根上以树节点方式并列添加至少一个解析节点并自动生成一个与所述解析节点并列的其他节点;在所述解析节点上启动对数据分类的分类单元以及对分类后数据解析的解析单元;在所述其他节点启动所述解析单元;在每个所述分类单元中,基于至少一种正向规则和/或反向规则,调用至少一个所述模式编辑形成所述分类规则,符合任一解析节点上分类单元分类规则的数据分配至该节点;若不符合,分配至所述其他节点;在所述解析单元中,调用至少一个所述模式编辑形成所述解析规则以对分类后的数据进行解析。3.如权利要求2所述的从非结构化数据提取结构化数据的方法,其特征在于,建立所述解析器,还包括步骤:以树节点方式,添加与所述主解析树并列的至少一个子解析树;在每个所述子解析树上以与所述主解析树相同方式添加所述解析节点、所述分类单元、所述解析单元以及自动生成一个其他节点;依次启动所述分类单元、所述解析单元,以对数据进行分类和解析。4.如权利要求2或3所述的从非结构化数据提取结构化数据的方法,其特征在于,添加所述解析节点,还包括以下步骤:在所述解析节点上,以树节点方式并列添加至少一个解析子节...

【专利技术属性】
技术研发人员:耐尔屈朝晖
申请(专利权)人:苏州优圣美智能系统有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1