一种大数据分析处理工具制造技术

技术编号:13675431 阅读:80 留言:0更新日期:2016-09-08 01:09
本发明专利技术公开了一种大数据分析处理工具,即裴克铭DatSmart工具,其采用多个不同的层来将性能和易用性结合到一起,包括用户界面层和Web API层;工作流通过用户界面层创建,存储在RDBMS中,然后由工作流执行器服务拾取,通过基于任务的异步模型来异步执行;工作流完成后,结果/元数据在RDBMS中再次更新,然后通过SignalR广播消息发送到用户界面层。本发明专利技术提供了易于使用的数据处理功能包括:数据导入、EDD电子数据字典、数据完整性检查、数据准备、变量工程和可视化等。由此为数据提供全方位的数据视图,能够在极短的时间内揭示出传统方法无法展现的隐藏的事实,助力决策过程。

【技术实现步骤摘要】

本专利技术属于大数据分析和处理
,具体的说是涉及一种大数据分析处理工具,其采用极为简单的单网页应用结合到一起。
技术介绍
DatSmart 是一种用于大数据分析的软件工具,为用户提供有关大数据的抽象分析,供其对任何类型的数据,例如结构化数据/非结构化数据/半结构化数据,开展各种深入研究/分析。为 裴克铭的内部分析师提供协助,相对来说无需编写代码。DatSmart 工具是各种不同工具与技术的一个组合,可帮助对原始数据执行分步处理与分析,提供针对数据极具意义的深入见解以及 360 度全方位的数据视图,除了数据处理和分析功能外,还可通过各种交互方式,例如图表、示意图、表格等,实现结果的可视化。当前提供的工具能够执行部分操作,但并不是具备全套功能的单一工具,后者具备通过简单的网页界面正确整合所有科学算法和数据处理的能力。DatSmart 的构建采用 AngularJS 作为前端接口,并且采用 Microsoft Web API 作为 REST API 层,提供对 Hadoop 生态系统实现的所有功能,例如 Spark、Hive、HBase 等的提取,其主要科学算法由 Scala 代码开发而成。
技术实现思路
本专利技术为了克服现有技术存在的不足,提供一种大数据分析处理工具,适用于裴克铭管理咨询(上海)有限公司,即DatSmart工具。本专利技术是通过以下技术方案实现的:一种大数据分析处理工具,大数据分析处理工具采用多个不同的层来将性能和易用性结合到一起,大数据分析处理工具包括用户界面层和Web API 层;用户界面层采用 AngularJS 和 Bootstrap 框架构建,使大数据分析处理工具能够真正做出实质上的快速响应;Web API 层采用 Asp.net MVC Web API 构建,支持真正的异步操作;工作流通过用户界面层创建,存储在 RDBMS 中,然后由工作流执行器服务拾取,通过Net Framework 所提供的基于任务的异步模型来异步执行;工作流完成后,结果/元数据在 RDBMS 中再次更新,然后通过 SignalR 广播消息发送到用户界面层。工作流执行服务是一种 Windows 服务,通过 Hadoop 簇来创建 SSH 连接,执行工作流中提及的所有步骤。本专利技术中的大数据分析处理工具为DatSmart工具适用于裴克铭管理咨询(上海)有限公司。本专利技术的有益效果是:提供一种大数据分析处理工具,具有充分的灵活性与可扩展性,满足客户复杂的数据分析要求。本专利技术 DatSmart工具的设计采用大数据,无缝集成形形色色复杂的科学算法,其各种数据操作可提供有关结构化和非结构化数据的深入见解。迄今为止,使用本工具所完成的分析工作都极为出色,原因在于通过一个单一的工具包即可提供全部功能,为数据提供360°全方位的数据视图,能够在极短的时间内揭示出传统方法无法展现的隐藏的事实。此外还能在所需的层面上提供深入见解,助力决策过程。本专利技术大数据分析处理工具的功能包括:数据导入、EDD电子数据字典、数据完整性检查、数据准备、变量工程和可视化等。数据导入:该操作可供用户以各种格式导入数据,例如 Excel、CSV、文本文件、制表符分隔文件、逗号分隔文件等。EDD电子数据字典:该操作可供用户选择应用到给定数据集的各种科学算法,例如:1、单变量分析可供用户查找任何给定数据集的各种统计信息,例如求和、最小值、最大值、唯一值数、缺失值数、标准偏差、方差、平均值、中间值、众数、四分位数;2、字符分析将提供字符型变量的汇总结果。数据完整性检查:该操作可供用户选择处理原始数据的各种算法,例如:1、缺失值处理使用户能够灵活的将缺失值替换为平均值/中位值;2、离群值处理使用户能够灵活的使用西格玛值来查找离群值;3、重复检查使用户能够灵活的检查重复的行;4、坏行处理可将非正常的行从数据集中分离出来,并将文件头保留作为参考。数据准备:该操作可供用户执行各种数据准备步骤,取数据子集和数据合并,例如:1、取数据子集供用户基于各种条件来过滤出数据,并且还可从现有变量中创建出新的变量;2、数据合并供用户基于各种连接条件连接起两个或更多的数据集,如内连接、左连接、右连接、交叉连接等,并且为选定的字段返回汇总数据。变量工程:该操作可供用户执行多种操作,例如:1、创建新变量:供用户通过加减等操作创建新变量;2、创建标志二进制变量:在该操作中,用户以 0 和 1 的形式获知在给定变量上所应用条件的情况,例如是否适用;3、数学函数:用户可对变量应用多种数学函数,平方根、立方等;4、字符串操作:供用户执行字符串操作,例如取长度、反向、修剪、取子串等。可视化:Datsmart 可供用户以各种所需的格式来查看不同的工作流各步骤的结果,例如:1、列表数据可按前 100 行/随机 100 行的形式进行可视化,以便了解处理完成后数据的表现形式;2、数据能够作为不同类型的图表来可视化,例如条形图、饼形图、柱状图等,用于确认处理完成后数据的分布;3、使用地理编码或反向地理编码,通过交互式地图能够对地理空间数据进行可视化。附图说明图1是本专利技术大数据分析处理工具的架构描述图;图中名词中英文对照:UI Layer (Angular JS)——用户界面层 (Angular JS);Web API Layer (C# DotNet) + SignalR——Web API 层 (C# DotNet开发) + SignalR;Workflow Executor Service——工作流执行器服务;Hadoop Ecosystem——Hadoop 生态系统;Hive——Hive(基于Hadoop的一个数据仓库工具);Spark——Spark(一个Hadoop Mapreduce 的通用并行框架);HBase——HBase(一个分布式,面向列的数据库)。具体实施方式以下结合附图对本专利技术作详细描述。如图1所示:一种大数据分析处理工具,大数据分析处理工具采用多个不同的层来将性能和易用性结合到一起,大数据分析处理工具包括用户界面层和Web API 层;用户界面层采用 AngularJS 和 Bootstrap 框架构建,使大数据分析处理工具能够真正做出实质上的快速响应;Web API 层采用 Asp.net MVC Web API 构建,支持真正的异步操作;工作流通过用户界面层创建,存储在 RDBMS 中,然后由工作流执行器服务拾取,通过Net Framework 所提供的基于任务的异步模型来异步执行;工作流完成后,结果/元数据在 RDBMS 中再次更新,然后通过 SignalR 广播消息发送到用户界面层。工作流执行服务是一种 Windows 服务,通过 Hadoop 簇来创建 SSH 连接,执行工作流中提及的所有步骤。最后应当说明的是,以上内容仅用以说明本专利技术的技术方案,而非对本专利技术保护范围的限制,本领域的普通技术人员对本专利技术的技术方案进行的简单修改或者等同替换,均不脱离本专利技术技术方案的实质和范围。本文档来自技高网...

【技术保护点】
一种大数据分析处理工具,其特征在于:所述大数据分析处理工具采用多个不同的层来将性能和易用性结合到一起,所述大数据分析处理工具包括用户界面层和Web API 层;用户界面层采用 AngularJS 和 Bootstrap 框架构建,使大数据分析处理工具能够真正做出实质上的快速响应;Web API 层采用 Asp.net MVC Web API 构建,支持真正的异步操作;工作流通过用户界面层创建,存储在RDBMS中,然后由工作流执行器服务拾取,通过 .Net Framework 所提供的基于任务的异步模型来异步执行;工作流完成后,结果/元数据在 RDBMS 中再次更新,然后通过 SignalR 广播消息发送到用户界面层。

【技术特征摘要】
1.一种大数据分析处理工具,其特征在于:所述大数据分析处理工具采用多个不同的层来将性能和易用性结合到一起,所述大数据分析处理工具包括用户界面层和Web API 层;用户界面层采用 AngularJS 和 Bootstrap 框架构建,使大数据分析处理工具能够真正做出实质上的快速响应;Web API 层采用 Asp.net MVC Web API 构建,支持真正的异步操作;工作流通过用户界面层创建,存储在RDBMS中,然后由工作流执行器服务拾取,通过 .Net Framework 所提供的基于任务...

【专利技术属性】
技术研发人员:万云飞
申请(专利权)人:裴克铭管理咨询上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1