一种智能化非结构化数据处理方法技术

技术编号:16064149 阅读:393 留言:0更新日期:2017-08-22 16:41
本发明专利技术公开了一种智能化非结构化数据处理方法,包括如下步骤:从待处理的结构化数据中检索一个或多个网页字符串,对检索的网页字符串进行非结构化数据处理,通过正则表达式非结构数据处理将网页字符串配置成正则模板,在配置正则模板前需要将结构化数据中检索的一个或多个网络字符串进行存储备份,将正则模板中的结构名称通过处理配置成模板名称,将配置成的模板名称和数据进行整合,然后进行结构化输出,通过智能分配将模板名称与数据进行整合,然后生成相应的图表。本发明专利技术速度比传统方法更快;能够将数据处理限制在指定范围,并且支持列表数据,同时可以一次匹配多个数据,一个字段支持多个正则输入,最终生成结构化数据。

An intelligent method for unstructured data processing

The invention discloses an intelligent unstructured data processing method, which comprises the following steps: retrieve one or more \string from structured data to be processed, the\ string search for unstructured data processing, the structure of data processing \string configured template of regular expressions in non regular, regular configuration template before the required one or more network string search in structured data backup, the structure of the regular template name configured by processing the template name, the template name and configured for data integration, and structured output, through the intelligent distribution will integrate the template name and data, and then generate the corresponding chart. The present invention is faster than traditional methods; data processing can be limited in a specified range, and support a list of data, also can match multiple data once a field to support multiple regular input, eventually generating structured data.

【技术实现步骤摘要】
一种智能化非结构化数据处理方法
本专利技术涉及数据处理
,具体为一种智能化非结构化数据处理方法。
技术介绍
随着互联网的快速发展,网页、博客、社交网络、即时通信软件等应用迅速普及,产生了大量的内容数据,其中,用户注册信息、访问记录等数据呈现结构化的特征;而网页、博客、论坛等内容数据没有固定的数据结构,数据量庞大,呈现出非结构化的数据特征,如何对这些大规模的结构化和非结构化的数据进行有效的存储、管理和检索,成为了业界研究的热点,传统的结构化数据处理方法处理数据存在速度不够快和效率不够高的缺陷。
技术实现思路
本专利技术的目的在于提供一种智能化非结构化数据处理方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种智能化非结构化数据处理方法,包括如下步骤:(1)从待处理的结构化数据中检索一个或多个网页字符串;(2)对检索的网页字符串进行非结构化数据处理,通过正则表达式非结构数据处理将网页字符串配置成正则模板;(3)将正则模板中的结构名称通过处理配置成模板名称;(4)将配置成的模板名称和数据进行整合,然后进行结构化输出;(5)通过智能分配将模板名称与数据进行整合,然后生成相应的图表。优选的,所述步骤(2)在配置正则模板之前需要将结构化数据中检索的一个或多个网络字符串进行存储备份。优选的,所述步骤(3)配置成的模板名称需要根据数据库中的规律进行顺序排列。优选的,所述步骤(3)在进行模板名称的顺序排列后,需要根据名称和信息的长度进行智能化的简写,然后再进行步骤(4)。优选的,所述步骤(5)在生成相应的图表后,需要根据模板名称和信息的长度对图表的格式进行调整。与现有技术相比,本专利技术的有益效果是:本专利技术速度比传统方法更快,能够将数据处理限制在指定范围,并且支持列表数据,同时可以一次匹配多个数据,一个字段支持多个正则输入,最终生成结构化数据。附图说明图1为本专利技术流程图。具体实施方式下面对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术提供一种技术方案:一种智能化非结构化数据处理方法,包括如下步骤:(1)从待处理的结构化数据中检索一个或多个网页字符串;(2)对检索的网页字符串进行非结构化数据处理,通过正则表达式非结构数据处理将网页字符串配置成正则模板;(3)将正则模板中的结构名称通过处理配置成模板名称;(4)将配置成的模板名称和数据进行整合,然后进行结构化输出;(5)通过智能分配将模板名称与数据进行整合,然后生成相应的图表。实施例一:首先从待处理的结构化数据中检索一个或多个网页字符串,然后对检索的网页字符串进行非结构化数据处理,通过正则表达式非结构数据处理将网页字符串配置成正则模板,然后将正则模板中的结构名称通过处理配置成模板名称,然后将配置成的模板名称和数据进行整合,然后进行结构化输出,最后通过智能分配将模板名称与数据进行整合,然后生成相应的图表。实施例二:在实施例一中,再加上下述工序:步骤(2)在配置正则模板之前需要将结构化数据中检索的一个或多个网络字符串进行存储备份。首先从待处理的结构化数据中检索一个或多个网页字符串,在配置正则模板之前需要将结构化数据中检索的一个或多个网络字符串进行存储备份,然后对检索的网页字符串进行非结构化数据处理,通过正则表达式非结构数据处理将网页字符串配置成正则模板,然后将正则模板中的结构名称通过处理配置成模板名称,然后将配置成的模板名称和数据进行整合,然后进行结构化输出,最后通过智能分配将模板名称与数据进行整合,然后生成相应的图表。实施例三:在实施例二中,再加上下述工序:步骤(3)配置成的模板名称需要根据数据库中的规律进行顺序排列。首先从待处理的结构化数据中检索一个或多个网页字符串,在配置正则模板之前需要将结构化数据中检索的一个或多个网络字符串进行存储备份,然后对检索的网页字符串进行非结构化数据处理,通过正则表达式非结构数据处理将网页字符串配置成正则模板,然后将正则模板中的结构名称通过处理配置成模板名称,配置成的模板名称需要根据数据库中的规律进行顺序排列,然后将配置成的模板名称和数据进行整合,然后进行结构化输出,最后通过智能分配将模板名称与数据进行整合,然后生成相应的图表。实施例四:在实施例三中,再加上下述工序:步骤(3)在进行模板名称的顺序排列后,需要根据名称和信息的长度进行智能化的简写,然后再进行步骤(4)。首先从待处理的结构化数据中检索一个或多个网页字符串,在配置正则模板之前需要将结构化数据中检索的一个或多个网络字符串进行存储备份,然后对检索的网页字符串进行非结构化数据处理,通过正则表达式非结构数据处理将网页字符串配置成正则模板,然后将正则模板中的结构名称通过处理配置成模板名称,配置成的模板名称需要根据数据库中的规律进行顺序排列,在进行模板名称的顺序排列后,需要根据名称和信息的长度进行智能化的简写,然后将配置成的模板名称和数据进行整合,然后进行结构化输出,最后通过智能分配将模板名称与数据进行整合,然后生成相应的图表。实施例五:在实施例四中,再加上下述工序:步骤(5)在生成相应的图表后,需要根据模板名称和信息的长度对图表的格式进行调整。首先从待处理的结构化数据中检索一个或多个网页字符串,在配置正则模板之前需要将结构化数据中检索的一个或多个网络字符串进行存储备份,然后对检索的网页字符串进行非结构化数据处理,通过正则表达式非结构数据处理将网页字符串配置成正则模板,然后将正则模板中的结构名称通过处理配置成模板名称,配置成的模板名称需要根据数据库中的规律进行顺序排列,在进行模板名称的顺序排列后,需要根据名称和信息的长度进行智能化的简写,然后将配置成的模板名称和数据进行整合,然后进行结构化输出,最后通过智能分配将模板名称与数据进行整合,然后生成相应的图表,在生成相应的图表后,需要根据模板名称和信息的长度对图表的格式进行调整。本专利技术速度比传统方法更快,能够将数据处理限制在指定范围,并且支持列表数据,同时可以一次匹配多个数据,一个字段支持多个正则输入,最终生成结构化数据。尽管已经示出和描述了本专利技术的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本专利技术的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本专利技术的范围由所附权利要求及其等同物限定。本文档来自技高网...
一种智能化非结构化数据处理方法

【技术保护点】
一种智能化非结构化数据处理方法,其特征在于:包括如下步骤:(1)从待处理的结构化数据中检索一个或多个网页字符串;(2)对检索的网页字符串进行非结构化数据处理,通过正则表达式非结构数据处理将网页字符串配置成正则模板;(3)将正则模板中的结构名称通过处理配置成模板名称;(4)将配置成的模板名称和数据进行整合,然后进行结构化输出;(5)通过智能分配将模板名称与数据进行整合,然后生成相应的图表。

【技术特征摘要】
1.一种智能化非结构化数据处理方法,其特征在于:包括如下步骤:(1)从待处理的结构化数据中检索一个或多个网页字符串;(2)对检索的网页字符串进行非结构化数据处理,通过正则表达式非结构数据处理将网页字符串配置成正则模板;(3)将正则模板中的结构名称通过处理配置成模板名称;(4)将配置成的模板名称和数据进行整合,然后进行结构化输出;(5)通过智能分配将模板名称与数据进行整合,然后生成相应的图表。2.根据权利要求1所述的一种智能化非结构化数据处理方法,其特征在于:所述步骤(2)在配置正则模板之前需要将结构化数...

【专利技术属性】
技术研发人员:王振宇
申请(专利权)人:温州市鹿城区中津先进科技研究院
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1