The invention discloses an intelligent unstructured data processing method, which comprises the following steps: retrieve one or more \string from structured data to be processed, the\ string search for unstructured data processing, the structure of data processing \string configured template of regular expressions in non regular, regular configuration template before the required one or more network string search in structured data backup, the structure of the regular template name configured by processing the template name, the template name and configured for data integration, and structured output, through the intelligent distribution will integrate the template name and data, and then generate the corresponding chart. The present invention is faster than traditional methods; data processing can be limited in a specified range, and support a list of data, also can match multiple data once a field to support multiple regular input, eventually generating structured data.
【技术实现步骤摘要】
一种智能化非结构化数据处理方法
本专利技术涉及数据处理
,具体为一种智能化非结构化数据处理方法。
技术介绍
随着互联网的快速发展,网页、博客、社交网络、即时通信软件等应用迅速普及,产生了大量的内容数据,其中,用户注册信息、访问记录等数据呈现结构化的特征;而网页、博客、论坛等内容数据没有固定的数据结构,数据量庞大,呈现出非结构化的数据特征,如何对这些大规模的结构化和非结构化的数据进行有效的存储、管理和检索,成为了业界研究的热点,传统的结构化数据处理方法处理数据存在速度不够快和效率不够高的缺陷。
技术实现思路
本专利技术的目的在于提供一种智能化非结构化数据处理方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种智能化非结构化数据处理方法,包括如下步骤:(1)从待处理的结构化数据中检索一个或多个网页字符串;(2)对检索的网页字符串进行非结构化数据处理,通过正则表达式非结构数据处理将网页字符串配置成正则模板;(3)将正则模板中的结构名称通过处理配置成模板名称;(4)将配置成的模板名称和数据进行整合,然后进行结构化输出;(5)通过智能分配将模板名称与数据进行整合,然后生成相应的图表。优选的,所述步骤(2)在配置正则模板之前需要将结构化数据中检索的一个或多个网络字符串进行存储备份。优选的,所述步骤(3)配置成的模板名称需要根据数据库中的规律进行顺序排列。优选的,所述步骤(3)在进行模板名称的顺序排列后,需要根据名称和信息的长度进行智能化的简写,然后再进行步骤(4)。优选的,所述步骤(5)在生成相应的图表后,需要根据模板名称和信息的长 ...
【技术保护点】
一种智能化非结构化数据处理方法,其特征在于:包括如下步骤:(1)从待处理的结构化数据中检索一个或多个网页字符串;(2)对检索的网页字符串进行非结构化数据处理,通过正则表达式非结构数据处理将网页字符串配置成正则模板;(3)将正则模板中的结构名称通过处理配置成模板名称;(4)将配置成的模板名称和数据进行整合,然后进行结构化输出;(5)通过智能分配将模板名称与数据进行整合,然后生成相应的图表。
【技术特征摘要】
1.一种智能化非结构化数据处理方法,其特征在于:包括如下步骤:(1)从待处理的结构化数据中检索一个或多个网页字符串;(2)对检索的网页字符串进行非结构化数据处理,通过正则表达式非结构数据处理将网页字符串配置成正则模板;(3)将正则模板中的结构名称通过处理配置成模板名称;(4)将配置成的模板名称和数据进行整合,然后进行结构化输出;(5)通过智能分配将模板名称与数据进行整合,然后生成相应的图表。2.根据权利要求1所述的一种智能化非结构化数据处理方法,其特征在于:所述步骤(2)在配置正则模板之前需要将结构化数...
【专利技术属性】
技术研发人员:王振宇,
申请(专利权)人:温州市鹿城区中津先进科技研究院,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。