一种从非结构化数据提取结构化数据的方法技术

技术编号：17032360 阅读：22 留言：0更新日期：2018-01-13 19:05

本发明专利技术公开一种从非结构化数据提取结构化数据的方法，其包括以下步骤：建立模式库，其包括基于正则表达式编写获得的若干个模式；基于图像化操作，建立一个空的解析器；获取待解析数据中的一部分作为样本数据，了解解析需求；根据解析需求，调用至少一个模式，依次编辑分类规则和解析规则以对样本数据分类和解析，并将分类规则和解析规则存储至解析器；显示解析规则解析的样本数据的字段值名；在实际环境中部署所述解析器。本发明专利技术提供的从非结构化数据提取结构化数据的方法，解析操作基于图形化界面，操作灵活，无需面对编程文件，利于开发、更新与维护。

全部详细技术资料下载

【技术实现步骤摘要】
一种从非结构化数据提取结构化数据的方法
本专利技术涉及大数据领域的数据解析技术，更具体地说，本专利技术涉及一种从非结构化数据提取结构化数据的方法。
技术介绍
运维数据不仅数量惊人，种类繁多，而且产出位置也各不相同，处理起来十分复杂，而我们往往需要在几秒钟内得到答案。我们需要有一种方法或方式能从海量数据中快递定位，找到问题，找到根因。同时，这些数量庞大的数据还包含了许多对企事业单位、各组织机构或个人都十分有价值的信息。我们需要有一种方法或方式把这些数据变成有意义、有价值的信息，从而产生影响。运维数据包括结构化数据、半结构化数据和非结构化数据。非结构化数据由机器或者人类产生，人类产生的半结构化数据包括文本、声音、图片等形式的数据。半结构化数据主要来自系统日志、应用程序、服务器、中间件、网络设备、安全设备和数据库等。结构化数据来自数据库、监控系统、日志网络监控系统、系统监控等。数据通过代理器、SYSLOG、TCP、UDP、FTP、HTTP等方式从不同的位置采集。数据采集后被发至数据处理系统处理。在处理过程中就需要解析数据，并从中提取有效字段信息。数据解析和字段提取需要实时或近实时或在匹配模式(Pattern)下完成。能够在生产环境中保存、存储、加载、编辑、输入、输出和部署一个数据结构的解析系统称为解析器。开发一种从非结构化数据提取结构化数据的方法的人称为开发人员。开发人员检查样本数据、理解样本数据的类型和字段，再开发解析器(Parser)，然后将解析器部署在实际生产环境中，数据会在实际生产环境中被数据分析体系解析和使用。具体地，开发人员的工作就是首先将样本数据中...
一种从非结构化数据提取结构化数据的方法

【技术保护点】
一种从非结构化数据提取结构化数据的方法，其特征在于，其包括以下步骤：建立模式库，其包括基于正则表达式编写获得的若干个模式；基于图像化操作，建立一个空的解析器；获取待解析数据中的一部分作为样本数据，了解解析需求；根据所述解析需求，调用至少一个所述模式，依次编辑分类规则和解析规则以对样本数据分类和解析，所述分类规则和所述解析规则存储至所述解析器；显示所述解析规则解析的样本数据的字段值名；在GUI上将解析器部署至实际使用环境，解析结果输出到数据分析的下一步骤。

【技术特征摘要】
1.一种从非结构化数据提取结构化数据的方法，其特征在于，其包括以下步骤：建立模式库，其包括基于正则表达式编写获得的若干个模式；基于图像化操作，建立一个空的解析器；获取待解析数据中的一部分作为样本数据，了解解析需求；根据所述解析需求，调用至少一个所述模式，依次编辑分类规则和解析规则以对样本数据分类和解析，所述分类规则和所述解析规则存储至所述解析器；显示所述解析规则解析的样本数据的字段值名；在GUI上将解析器部署至实际使用环境，解析结果输出到数据分析的下一步骤。2.如权利要求1所述的从非结构化数据提取结构化数据的方法，其特征在于，建立所述解析器，包括以下步骤：建立主解析树；在所述主解析树树根上以树节点方式并列添加至少一个解析节点并自动生成一个与所述解析节点并列的其他节点；在所述解析节点上启动对数据分类的分类单元以及对分类后数据解析的解析单元；在所述其他节点启动所述解析单元；在每个所述分类单元中，基于至少一种正向规则和/或反向规则，调用至少一个所述模式编辑形成所述分类规则，符合任一解析节点上分类单元分类规则的数据分配至该节点；若不符合，分配至所述其他节点；在所述解析单元中，调用至少一个所述模式编辑形成所述解析规则以对分类后的数据进行解析。3.如权利要求2所述的从非结构化数据提取结构化数据的方法，其特征在于，建立所述解析器，还包括步骤：以树节点方式，添加与所述主解析树并列的至少一个子解析树；在每个所述子解析树上以与所述主解析树相同方式添加所述解析节点、所述分类单元、所述解析单元以及自动生成一个其他节点；依次启动所述分类单元、所述解析单元，以对数据进行分类和解析。4.如权利要求2或3所述的从非结构化数据提取结构化数据的方法，其特征在于，添加所述解析节点，还包括以下步骤：在所述解析节点上，以树节点方式并列添加至少一个解析子节...

【专利技术属性】
技术研发人员：耐尔，屈朝晖，
申请(专利权)人：苏州优圣美智能系统有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人