一种数据科学模型的快速工程化方法技术

技术编号：39162026 阅读：12 留言：0更新日期：2023-10-23 15:03

本发明专利技术公开了一种数据科学模型的快速工程化方法，包括步骤S1：开发计算引擎，建设大数据分布式计算引擎，从而利用分布式大数据计算引擎来处理数据计算代码，以满足工程化的计算性能要求；步骤S2：开发数据建模系统，提供支持多种数据开发语言和完善的模型算子库，以便加速数据科学模型的构建过程，并且以B/S架构建设，提供包括拖拉拽形式的建模方法。本发明专利技术公开的一种数据科学模型的快速工程化方法，其着重解决在数据科学模型建立后，进行模型工程化过程复杂低效的问题，将数据科学的模型成果快速完成工程化，支撑业务化应用。支撑业务化应用。支撑业务化应用。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据科学模型的快速工程化方法

[0001]本专利技术属于数据科学模型工程化
，具体涉及一种数据科学模型的快速工程化方法。

技术介绍

[0002]在当今数字化时代，大数据已经成为了企业、政府和学术界等各个领域的核心资源之一。通过对大数据的深入挖掘和分析，人们可以发现隐藏在数据背后的规律和趋势，从而为决策提供更加准确的依据。
[0003]数据科学作为一门新兴的交叉学科，涵盖了数据挖掘、机器学习、人工智能等多个领域。通过数据科学的方法，我们可以建立模型来预测未来趋势，优化商业流程，改进产品设计等。同时，数据科学也可以帮助我们发现数据中的偏差和错误，并提出相应的纠正方案，从而提高数据的质量和可靠性。
[0004]在当前数据科学作为新兴学科的环境下，一是数据科学的上下游支撑软件工具不够完善，二是与数据科学人员进行工作协同的流程不够完备。建立数据科学模型使用的工具往往更聚焦建立模型的功能，在流程上不提供向下游功能的能力，功能上也不提供进行工程化配置的能力。所以往往是数据科学人员将建立好的数据模型进行文档化，再提供给大数据工程团队进行模型工程化编码。这样一方面制造了大数据开发与数据科学在工作流程上的割裂，另一方面也造成了资源浪费，需要重复的开发工作。
[0005]因此，针对上述问题，予以进一步改进。

技术实现思路

[0006]本专利技术的主要目的在于提供一种数据科学模型的快速工程化方法，其着重解决在数据科学模型建立后，进行模型工程化过程复杂低效的问题，将数据科学的模型成果快速完成工...

【技术保护点】

【技术特征摘要】
1.一种数据科学模型的快速工程化方法，其特征在于，包括以下步骤：步骤S1：开发计算引擎，建设大数据分布式计算引擎，从而利用分布式大数据计算引擎来处理数据计算代码，以满足工程化的计算性能要求；步骤S2：开发数据建模系统，提供支持多种数据开发语言和完善的模型算子库，以便加速数据科学模型的构建过程，并且以B/S架构建设，提供包括拖拉拽形式的建模方法，通过拖拽步骤S1中已保存的数据源，并拖拽预定义的算子进入数据科学模型，设定模型内的算子运行顺序，从而完成数据科学模型定义；步骤S3：开发任务调度工具，选用开源任务调度工具xxl
‑
job，首先对数据科学模型生成executorHandler，以用来标识一个需要运行的模型，在数据科学模型的Web用户页面中增加任务调度按钮，配置按秒、分、小时、日、月、周和年为周期，在指定的时间运行数据科学模型；用户配置完成后，将用户配置的scheduleConf、executorParam和模型的executorHandler传给xxl
‑
job，xxl
‑
job在用户配置的模型运行时间将executorParam传给模型运行的业务代码，由业务代码执行。2.根据权利要求1所述的一种数据科学模型的快速工程化方法，其特征在于，步骤S1具体实施为：基于开源大数据计算引擎Spark开发数据源连接功能，封装Spark Sql中的JDBC连接功能并且开发包括Mysql和Greenplum的数据源类型连接，封装为Rest API；开发一个Web用户交互界面作为API的访问层，用户界面允许用...

【专利技术属性】
技术研发人员：朱昌哲，王雪峰，
申请(专利权)人：数字扁担浙江科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人