一种数据科学模型的快速工程化方法技术

技术编号:39162026 阅读:12 留言:0更新日期:2023-10-23 15:03
本发明专利技术公开了一种数据科学模型的快速工程化方法,包括步骤S1:开发计算引擎,建设大数据分布式计算引擎,从而利用分布式大数据计算引擎来处理数据计算代码,以满足工程化的计算性能要求;步骤S2:开发数据建模系统,提供支持多种数据开发语言和完善的模型算子库,以便加速数据科学模型的构建过程,并且以B/S架构建设,提供包括拖拉拽形式的建模方法。本发明专利技术公开的一种数据科学模型的快速工程化方法,其着重解决在数据科学模型建立后,进行模型工程化过程复杂低效的问题,将数据科学的模型成果快速完成工程化,支撑业务化应用。支撑业务化应用。支撑业务化应用。

【技术实现步骤摘要】
一种数据科学模型的快速工程化方法


[0001]本专利技术属于数据科学模型工程化
,具体涉及一种数据科学模型的快速工程化方法。

技术介绍

[0002]在当今数字化时代,大数据已经成为了企业、政府和学术界等各个领域的核心资源之一。通过对大数据的深入挖掘和分析,人们可以发现隐藏在数据背后的规律和趋势,从而为决策提供更加准确的依据。
[0003]数据科学作为一门新兴的交叉学科,涵盖了数据挖掘、机器学习、人工智能等多个领域。通过数据科学的方法,我们可以建立模型来预测未来趋势,优化商业流程,改进产品设计等。同时,数据科学也可以帮助我们发现数据中的偏差和错误,并提出相应的纠正方案,从而提高数据的质量和可靠性。
[0004]在当前数据科学作为新兴学科的环境下,一是数据科学的上下游支撑软件工具不够完善,二是与数据科学人员进行工作协同的流程不够完备。建立数据科学模型使用的工具往往更聚焦建立模型的功能,在流程上不提供向下游功能的能力,功能上也不提供进行工程化配置的能力。所以往往是数据科学人员将建立好的数据模型进行文档化,再提供给大数据工程团队进行模型工程化编码。这样一方面制造了大数据开发与数据科学在工作流程上的割裂,另一方面也造成了资源浪费,需要重复的开发工作。
[0005]因此,针对上述问题,予以进一步改进。

技术实现思路

[0006]本专利技术的主要目的在于提供一种数据科学模型的快速工程化方法,其着重解决在数据科学模型建立后,进行模型工程化过程复杂低效的问题,将数据科学的模型成果快速完成工程化,支撑业务化应用。
[0007]本专利技术的另一目的在于提供一种数据科学模型的快速工程化方法,首先建设大数据分布式计算引擎,然后改造数据科学建模使用的软件工具,使之可以调度执行上文描述的计算引擎进行数据计算。这样在建立完成数据模型后,数据科学人员可以通过简单的配置快速实现数据模型的依周期计算执行,同时可以利用大数据计算引擎实现工程化的性能要求,由于建立了统一的计算引擎,在模型后续的工程化优化时,也可以直接复用,快速调整,最终实现数据科学模型的快速工程化应用。
[0008]为达到以上目的,本专利技术提供一种数据科学模型的快速工程化方法,包括以下步骤:
[0009]步骤S1:开发计算引擎,建设大数据分布式计算引擎,从而利用分布式大数据计算引擎来处理数据计算代码,以满足工程化的计算性能要求;
[0010]步骤S2:开发数据建模系统,提供支持多种数据开发语言和完善的模型算子库,以便加速数据科学模型的构建过程,并且以B/S架构建设,提供包括拖拉拽形式的建模方法,
通过拖拽步骤S1中已保存的数据源,并拖拽预定义的算子进入数据科学模型,设定模型内的算子运行顺序,从而完成数据科学模型定义;
[0011]步骤S3:开发任务调度工具(上述两个步骤已经可以允许数据科学人员使用软件系统利用大数据计算引擎实现建立数据科学模型的工作,但模型运行还只能依赖手动触发,不能满足模型建设完成后自动运行的工程化需求),选用开源任务调度工具xxl

job,首先对数据科学模型生成executorHandler,以用来标识一个需要运行的模型,在数据科学模型的Web用户页面中增加任务调度按钮,(可以)配置按秒、分、小时、日、月、周和年为周期,在指定的时间运行数据科学模型;用户配置完成后,将用户配置的scheduleConf(调度时间)、executorParam(执行参数)和模型的executorHandler传给xxl

job,xxl

job在用户配置的模型运行时间将executorParam传给模型运行的业务代码,由业务代码执行。
[0012]作为上述技术方案的进一步优选的技术方案,步骤S1具体实施为:
[0013](在数据模型建立过程中,需要连接多种类型的在线数据库获取数据。上述需求Spark的需要人工编写数据库连接配置实现,且在每次读取数据源时都需要设置一遍连接配置,无法实现数据源连接的多人、多次复用)基于开源大数据计算引擎Spark开发数据源连接功能,封装Spark Sql中的JDBC连接功能并且开发包括Mysql和Greenplum的数据源类型连接,封装为Rest API;
[0014]开发一个Web用户交互界面作为API的访问层,用户界面允许用户输入包括但不限于数据源类型、连接名、地址、端口、用户名和密码的信息来创建并保存一个数据源连接;当用户访问数据源连接时,自动使用已经保存的配置信息并且调用Spark Sql模块进行解析执行,以实现数据源连接的复用。
[0015]作为上述技术方案的进一步优选的技术方案,步骤S2具体实施为:
[0016]完成预定义算子的定义,算子包括两种类型:数据开发算子和机器学习算子,其中:
[0017]对于数据开发算子,使用Spark的Sqark Sql模块提供的DataFrame,以将Sql、Java、Scala、Python和R作为数据开发语言,从而数据开发算子定义为Sql、Java、Scala、Python和R共五种,选择对应的数据开发算子后,在打开的命令行窗口进行对应开发语言的交互式编程;
[0018]对于机器学习算子,机器学习算子使用Spark的DataFrame

based API来访问MLlib机器学习库实现,在建模系统中依据MLlib的机器学习算法对算子进行分类,包括特征、分类、回归、聚类和时间序列的类别,并定义每个类别中的具体算子及其参数,(例如K

means聚类算子的参数,允许用户选择特征列数据,设置聚类簇数、最大迭代次数、初始化模式(随机或k

means||)、随机种子、迭代终止阈值)选择对应的机器学习算子后,在打开的参数配置窗口对算子参数进行配置从而使用算子。
[0019]为达到以上目的,本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述数据科学模型的快速工程化方法的步骤。
[0020]为达到以上目的,本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述数据科学模型的快速工程化方法的步骤。
附图说明
[0021]图1是本专利技术的一种数据科学模型的快速工程化方法的示意图。
具体实施方式
[0022]以下描述用于揭露本专利技术以使本领域技术人员能够实现本专利技术。以下描述中的优选实施例只作为举例,本领域技术人员可以想到其他显而易见的变型。在以下描述中界定的本专利技术的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本专利技术的精神和范围的其他技术方案。
[0023]在本专利技术的优选实施例中,本领域技术人员应注意,本专利技术所涉及的数据科学模型等可被视为现有技术。
[0024]优选实施例。
[0025]本专利技术公开了一种数据科学模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据科学模型的快速工程化方法,其特征在于,包括以下步骤:步骤S1:开发计算引擎,建设大数据分布式计算引擎,从而利用分布式大数据计算引擎来处理数据计算代码,以满足工程化的计算性能要求;步骤S2:开发数据建模系统,提供支持多种数据开发语言和完善的模型算子库,以便加速数据科学模型的构建过程,并且以B/S架构建设,提供包括拖拉拽形式的建模方法,通过拖拽步骤S1中已保存的数据源,并拖拽预定义的算子进入数据科学模型,设定模型内的算子运行顺序,从而完成数据科学模型定义;步骤S3:开发任务调度工具,选用开源任务调度工具xxl

job,首先对数据科学模型生成executorHandler,以用来标识一个需要运行的模型,在数据科学模型的Web用户页面中增加任务调度按钮,配置按秒、分、小时、日、月、周和年为周期,在指定的时间运行数据科学模型;用户配置完成后,将用户配置的scheduleConf、executorParam和模型的executorHandler传给xxl

job,xxl

job在用户配置的模型运行时间将executorParam传给模型运行的业务代码,由业务代码执行。2.根据权利要求1所述的一种数据科学模型的快速工程化方法,其特征在于,步骤S1具体实施为:基于开源大数据计算引擎Spark开发数据源连接功能,封装Spark Sql中的JDBC连接功能并且开发包括Mysql和Greenplum的数据源类型连接,封装为Rest API;开发一个Web用户交互界面作为API的访问层,用户界面允许用...

【专利技术属性】
技术研发人员:朱昌哲王雪峰
申请(专利权)人:数字扁担浙江科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1