一种针对半结构化大数据的提取统计方法及系统技术方案

技术编号:16188220 阅读:34 留言:0更新日期:2017-09-12 11:26
本发明专利技术涉及一种针对半结构化大数据的提取统计方法及系统,属于大数据提取统计领域,解决了对半结构化大数据提取统计时过程比较繁琐和容易造成数据冗余的问题。本发明专利技术通过提供客户端让用户输入针对半结构化大数据进行提取和统计的操作语句,将操作语句同步到解析转换模块,解析转换模块对操作语句进行解析并将解析结果转换成配置规则;客户端调用应用引擎模块根据配置规则生成作业任务,将作业任务提交到底层框架;底层框架将作业任务拆分成多个子任务分配到集群上执行,并将执行后获取的结果数据返回给客户端展示给用户。用于提高对半结构化大数据的提取统计的可维护性和自动化可视化水平,减少数据冗余,简便可靠。

Method and system for extracting and counting large data of semi-structured data

The invention relates to a method and system for extracting statistical semi-structured data, data extraction belongs to the field of statistics, solve the statistical process is relatively cumbersome and easily lead to data redundancy problem of semi-structured data extraction. The present invention provides client statements through the operation of users and extracting statistical input semi-structured data, will be synchronized to the analytical operation statement conversion module, conversion module of analytical analysis and operating statements will parse results into configuration rules; client with application engine module according to the configuration rules generation task, the task will be submitted the bottom frame; the bottom frame will be split into several sub tasks tasks assigned to cluster implementation, and the implementation of the acquisition of the data is returned to the client is displayed to the user. The invention is used for improving the maintainability and the automatic visualization level of the extraction and statistics of the semi-structured large data, and reducing the data redundancy, and is simple and reliable.

【技术实现步骤摘要】
一种针对半结构化大数据的提取统计方法及系统
本专利技术涉及大数据提取统计领域,尤其涉及一种针对半结构化大数据的提取统计方法及系统。
技术介绍
常用的大数据分析组件,比如HIVE(一种数据仓库工具),对模型的要求是需要统计的字段必须是单独列。但现实需求中,数据在业务方面也是存在特定要求的,需要是半结构化的数据模型模式。既要满足业务需要又要满足统计需求,在同一个模型中并存就存在很大的冲突。因此一般分析组件是把业务数据单独加载到特定的数据仓库中去处理。这样实际上就导致了数据冗余。在同一个模型(半结构化)的基础下,也可以开发独立的提取统计工具进行处理。但整个过程繁琐,需要经过配置(不同业务场景)、执行和查看等流程,不能像sql查询那样执行命令后自动化处理,同时在执行过程和运行结果的可视化方面也存在缺陷。
技术实现思路
本专利技术所要解决的技术问题是针对现有技术的不足,提供一种针对半结构化大数据的提取统计方法及系统,目的在于针对半结构化的大数据操作提供一套完整工具,实现对半结构化大数据的提取统计命令操作和结果处理,可以使业务和分析场景使用统一模型,减少数据冗余,业务数据分析的运维和操作更简便可靠,本文档来自技高网...
一种针对半结构化大数据的提取统计方法及系统

【技术保护点】
一种针对半结构化大数据的提取统计方法,其特征在于,包括以下步骤:S1,客户端接收用户输入针对半结构化大数据进行提取和统计的操作语句,并将所述操作语句同步到解析转换模块进行处理;S2,解析转换模块接收所述操作语句,对操作语句进行解析并将解析结果转换成配置规则;S3,客户端调用应用引擎模块根据所述配置规则生成作业任务,将作业任务提交到底层框架进行处理;S4,底层框架将作业任务拆分成多个子任务分配到集群上执行,并将执行后获取的结果数据返回给客户端进行展示。

【技术特征摘要】
1.一种针对半结构化大数据的提取统计方法,其特征在于,包括以下步骤:S1,客户端接收用户输入针对半结构化大数据进行提取和统计的操作语句,并将所述操作语句同步到解析转换模块进行处理;S2,解析转换模块接收所述操作语句,对操作语句进行解析并将解析结果转换成配置规则;S3,客户端调用应用引擎模块根据所述配置规则生成作业任务,将作业任务提交到底层框架进行处理;S4,底层框架将作业任务拆分成多个子任务分配到集群上执行,并将执行后获取的结果数据返回给客户端进行展示。2.根据权利要求1所述针对半结构化大数据的提取统计方法,其特征在于,所述S2还包括:所述解析转换模块对操作语句进行解析并将解析结果转换成配置规则后,向客户端发送操作语句转换完成的消息;所述S3还包括:客户端接收所述S2中解析转换模块发送的操作语句转换完成的消息,在接收到所述转换完成的消息后调用应用引擎模块,根据所述配置规则生成作业任务。3.根据权利要求2所述针对半结构化大数据的提取统计方法,其特征在于,还包括步骤S5,S5包括:根据用户的选择将本次获取的结果数据备份到集群中。4.根据权利要求3所述针对半结构化大数据的提取统计方法,其特征在于,所述S1还包括:客户端在将用户输入的操作语句同步到解析转换模块前,先判断操作语句是否执行过、执行后获取的结果数据是否进行过备份以及该结果数据是否为静态数据,若均为是,则直接使用上次执行操作语句后获取的结果数据的备份,若至少有一项为否,则将用户输入的操作语句同步到解析转换模块。5.根据权利要求1至4任一项所述针对半结构化大数据的提取统计方法,其特征在于,所述S2还包括:解析转换模块在对操作语句进行解析并将解析结果转换成配置规则后,将该操作语句以及对应的配置规则进行备份,在下次接收到客户端同步过来的相同的操作语句时,不进行解析并直接使用备份中对应的配置规则。6.一种针对半结构化大数据的提取统计系统,其特征在于,所述系统包括:客户端模块,用于接收用户输入的针对半结构化大数据进行提取和统计...

【专利技术属性】
技术研发人员:方辉盛
申请(专利权)人:北京思特奇信息技术股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1