大数据分析算法库的构建系统及构建方法技术方案

技术编号：41329514 阅读：27 留言：0更新日期：2024-05-13 15:07

本发明专利技术公开了大数据分析算法库的构建系统，包括：分析流程构建模块、算子平台选择模块、代码反向生成模块、用户代码校验模块、集群控制主机、集群计算主机。能实现跨平台、跨语言的算法融合，在一个完整且异构的数据分析流中实现数据分析。本发明专利技术还公开了大数据分析算法库的构建方法。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于大数据分析方法，涉及大数据分析算法库的构建系统，本专利技术还涉及大数据分析算法库的构建方法。

技术介绍

1、随着大数据生态软件的发展，以大数据技术为基础，以数据处理及业务分析为核心的大数据分析算法也得到了广泛的应用，因此，构建面向行业大数据分析的算法库是促进大数据产业发展的必备要素之一。

2、传统的大数据算法库大多旨在提升平台算法的丰富性，而在跨平台算法的异构性、多语言兼容性、算法的选择及算法的灵活使用上无法完全满足上述需求。常用的数据分析算法都是基于统一的语言和环境开发，例如，以scikit-learn为代表的小规模数据分析算法库，以spark mllib为代表的大规模数据分析算法库，以matlab为代表的数据统计分析算法库，以pytorch和tensorflow为代表的深度学习算法框架，以h2o为代表的信号数据处理算法库等。然而，在实际的行业数据分析中，通常需要多个平台中的多个算法配合才能构建起完整的数据分析流程，这就需要用户先根据业务选平台，再根据平台选择算法，若流程所需的多个算法存在于多个平台中时，只能...

【技术保护点】

1.大数据分析算法库的构建系统，其特征在于，包括：分析流程构建模块，让用户可视化选择算法并将其首尾相接构建完整数据分析流程，并生成流程描述文件；算子平台选择模块，给分析流程构建模块构建的数据分析流程中的每一个算法选择基准运行环境，并将每个算法对应的基准运行环境写入到流程描述文件中；代码反向生成模块，生成每一个算法在其基准运行环境下的算法代码，使用户可手动编辑；户代码校验模块，校验用户手动编辑过的算法代码是否符合规则，若符合则产生原生代码；集群控制主机，部署有流程执行引擎，流程执行引擎下发各算法原生代码到与其环境相匹配的集群计算主机；集群计算主机，接收流程执行引擎下发的原生代码，完成数据的...

【技术特征摘要】

2.根据权利要求1所述的大数据分析算法库的构建系统，其特征在于，所述集群计算主机包括多类，每类集群计算主机只部署一种基准运行环境，集群控制主机根据算法的基准运行环境选择对应的集群计算主机下发原生代码。

3.大数据分析算法库的构建方法，其特征在于，采用权利要求2所述的大数据分析算法库的构建系统，具体按照如下步骤实施：

4.根据权利要求3所述的大数据分析算法库的构建方法，其特征在于，所述步骤1中的每个算法来自于不同或相同的开源平台或自研平台且同一个算法在不同平台的实现过程都包含在算法库中；且每个算法在多个基准运行环境中的实现都有标准化的代码模板存储在本地git代码库中；

5.根据权利要求4所述的大数据分析算法库的构建方法，其特征在于，所述步骤3中算子平台选择模块根据本流程节点算法输入数据规模、数据类型以及集群的硬件配置来选择合适的基准运行环境，并将每个算法对应的基准运行环境写入到流程描述文件中。

6.根据权利要求5所述的大数据分析算法库的构建方法，其特征在于，所述步骤4具体为：代码反向生成模...

【专利技术属性】
技术研发人员：许鑫，刘欢，孙丽娜，岳广德，李星，靖稳峰，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人