算法获得方法及系统及装置及介质及模型处理方法及系统制造方法及图纸

技术编号:34459636 阅读:16 留言:0更新日期:2022-08-06 17:16
本发明专利技术公开了算法获得方法及系统及装置及介质及模型处理方法及系统,涉及数据处理及分析领域,将算法分为不同类型的算子,建立用于储存所述不同类型的算子的数据库,当需要对某种结构的数据集开发数据处理算法时,选择合适的算子生成算法定义文件,并根据所述算法定义文件快速组合出需要的算法,解决了传统数据分析算法开发过程中由于数据处理过程与模型训练及预测过程形成强耦合,使最终得到的数据处理模型仅适用于特定的数据集进而导致的算法开发工作量大、时间成本高的问题。时间成本高的问题。时间成本高的问题。

【技术实现步骤摘要】
算法获得方法及系统及装置及介质及模型处理方法及系统


[0001]本专利技术涉及数据处理及分析领域,具体地,涉及算法获得方法及系统及装置及介质及模型处理方法及系统。

技术介绍

[0002]数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。随着大数据的发展,对数据进行分析能够帮助人类不断发现各种规律,从而能够预测未来数据趋势,进而帮助决策者进行判断,目前的数据分析算法通常需要技术人员针对不同数据结构的数据集,选用相应的数据处理方式开发不同的算法,且现有算法开发过程中通常将原始数据集的数据处理过程放到算法中,使数据处理过程与训练及预测过程形成强耦合,最终得到的数据处理模型仅适用于特定的数据集,导致算法开发工作量大,时间成本高。

技术实现思路

[0003]为了解决现有数据分析算法开发过程中,开发工作量大、时间成本高的问题,本专利技术提供了算法获得方法及系统及装置及介质及模型处理方法及系统,能够简化数据分析算法开发过程,提高针对不同结构数据集的数据分析算法开发效率。
[0004]为了实现上述专利技术目的,本专利技术提供了算法获得方法,包括以下步骤:
[0005]初始化步骤,包括:创建数据库,所述数据库用于储存若干类型的数据处理算子;
[0006]算法分析步骤,包括:获得算法定义文件,解析所述算法定义文件获得第一结构化数据;
[0007]算法组合步骤,包括:根据所述第一结构化数据从所述数据库中调用若干所述数据处理算子进行组合获得第一数据处理组合算法。
[0008]其中,本方法原理为:将传统数据处理及分析算法解耦为多个相互独立的不同类型的算子,建立用于储存所述不同类型的算子的数据库,当需要对某种结构的数据集开发数据处理算法时,针对该数据集选择合适的算子生成算法定义文件,将所述算法定义文件解析为计算机可以识别的结构化数据后,根据所述结构化数据从所述数据库中调用对应的算子进行组合即可获得需要的数据处理算法,代替了技术人员针对不同数据结构的数据集,选用相应的数据处理方式开发不同的算法,减少了开发工作量。
[0009]其中,为了满足数据分析中对数据进行处理的相关需要,所述若干类型的算子包括ETL算子、训练算子和预测算子,所述ETL算子用于数据预处理,所述训练算子用于训练数据分类模型,所述预测算子用于对数据进行预测。
[0010]进一步的,为了使各个算子能够进行组合,为各个类型算子定义标准化输入输出,若第一算子输出类型与第二算子输入类型相同,则所述第一算子能够作为前置算子与所述第二算子组合,其中:
[0011]所述ETL算子输入类型为数据,输出类型为数据;
[0012]所述训练算子输入类型为数据,输出类型为模型;
[0013]所述预测算子输入类型为数据和模型,输出类型为数据。
[0014]进一步的,为了使所述各类型的算子选择更加直观,便于用户操作,所述数据处理算子分别对应有可视化图形,组合所述可视化图形获得所述算法定义文件,所述可视化图形基于Web页面显示,用户在Web页面上通过对所述可视化图形进行拖拽即可实现所述算子的选择和组合,计算机根据所述Web页面上的多个可视化图形进行分析,即可获得所述算法定义文件。
[0015]其中,所述算法定义文件包括对算子种类、算子组合关系、数据流传输方向的定义,为满足上述要求,所述算法定义文件为所述算法定义文件为DAG文件,为降低所述结构化数据编码难度、提高对所述结构化数据的解析速度并支持多种服务器编程语言,所述第一结构化数据为json数据。
[0016]为了实现上述专利技术目的,本专利技术还提供了算法获得系统,所述系统包括:
[0017]初始化单元,用于创建数据库,所述数据库用于储存若干类型的数据处理算子;
[0018]算法分析单元,用于获得算法定义文件,解析所述算法定义文件获得第一结构化数据;
[0019]算法组合单元,用于根据所述第一结构化数据从所述数据库中调用若干所述数据处理算子进行组合获得第一组合算法。
[0020]为了实现上述专利技术目的,获得数据处理算法,并自动调取数据根据所述数据处理算法实现数据处理及预测,本专利技术还提供了模型处理方法,所述模型处理方法包括以下步骤:
[0021]初始化步骤,包括:创建数据库,所述数据库用于储存ETL算子、训练算子和预测算子;
[0022]算法分析步骤,包括:获得算法定义文件,解析所述算法定义文件获得第二结构化数据;
[0023]算法组合步骤,包括:根据所述第二结构化数据从所述数据库中调用若干所述ETL算子、训练算子和与所述训练算子对应的预测算子进行组合获得数据分析组合算法,所述数据分析组合算法包括第二数据处理组合算法、待训练模型和预测算法;
[0024]数据训练步骤,包括:获得原始训练数据集,调度引擎调度所述原始训练数据集于服务器上执行所述第二数据处理组合算法,所述第二数据组合处理算法用于对所述原始训练数据集进行数据清洗、转换、编码等处理,所述原始训练集经过所述第二数据处理组合算法处理后获得训练数据集,调度引擎调度所述训练数据集于服务器上训练所述待训练模型,获得数据分析模型;
[0025]数据预测步骤,包括:获得原始预测数据集,调度引擎调度所述原始训练数据集于服务器上执行所述第二数据处理组合算法,获得预测数据集,调度引擎调度所述预测数据集于服务器上执行所述预测算法,所述预测算法参照所述数据分析模型,获得预测结果。
[0026]其中,本方法原理为:将传统数据处理及分析算法解耦为多个相互独立的不同类型的算子,建立用于储存所述不同类型的算子的数据库,当需要对某种结构的数据集进行数据分析及预测时,针对该数据集选择合适的算子生成算法定义文件,将所述算法定义文件解析为计算机可以识别的结构化数据后,根据所述结构化数据从所述数据库中调用对应
的算子进行组合获得数据处理算法,获得训练数据集和预测数据集,调度引擎调度所述原始训练数据集经所述数据处理算法处理后获得数据分析模型,调度引擎调度所述预测数据集,参照所述数据分析模型和所述数据处理算法中的相应算子对所述预测数据集进行预测,即可获得数据预测结果。
[0027]其中,所述算法定义文件包括对算子种类、算子组合关系、数据流传输方向的定义,为满足要求,所述算法定义文件为所述算法定义文件为DAG文件,为降低所述结构化数据编码难度、提高对所述结构化数据的解析速度并支持多种服务器编程语言,所述第一结构化数据为json数据。
[0028]其中,为了调度数据根据所述数据分析组合算法执行对应的算子,安排数据处理任务的提交和运行,并配合所述算法定义文件类型,所述调度引擎为DAG调度引擎。
[0029]其中,为了避免执行所述数据分析组合算法时出现单点故障,影响最终获得的预测结果,所述服务器的部署方式为集群部署,即多个服务器共同以同样的方式执行同一任务。
[0030]为了实现上述专利技术目的,获得数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.算法获得方法,其特征在于,包括以下步骤:初始化步骤,包括:创建数据库,所述数据库用于储存若干类型的数据处理算子;算法分析步骤,包括:获得算法定义文件,解析所述算法定义文件获得第一结构化数据;算法组合步骤,包括:根据所述第一结构化数据从所述数据库中调用若干所述数据处理算子进行组合获得第一数据处理组合算法。2.根据权利要求1所述的算法获得方法,其特征在于,所述数据处理算子包括ETL算子、训练算子和预测算子,所述ETL算子用于数据预处理,所述训练算子用于训练数据分类模型,所述预测算子用于对数据进行预测。3.根据权利要求2所述的算法获得方法,其特征在于,所述数据处理算子具有标准化输入类型与输出类型,其中:所述ETL算子输入类型为数据,输出类型为数据;所述训练算子输入类型为数据,输出类型为模型;所述预测算子输入类型为数据和模型,输出类型为数据。4.根据权利要求1所述的算法获得方法,其特征在于,所述数据处理算子分别对应有可视化图形,组合所述可视化图形获得所述算法定义文件。5.根据权利要求4所述的算法获得方法,其特征在于,所述可视化图形基于Web页面显示。6.根据权利要求4所述的算法获得方法,其特征在于,所述算法定义文件为DAG文件,所述第一结构化数据为json数据。7.模型处理方法,其特征在于,所述模型处理方法包括以下步骤:初始化步骤,包括:创建数据库,所述数据库用于储存ETL算子、训练算子和预测算子;算法分析步骤,包括:获得算法定义文件,解析所述算法定义文件获得第二结构化数据;算法组合步骤,包括:根据所述第二结构化数据从所述数据库中调用若干所述ETL算子、训练算子和与所述训练算子对应的预测算子进行组合获得数据分析组合算法,所述数据分析组合算法包括第二数据处理组合算法、待训练模型和预测算法;数据训练步骤,包括:获得原始训练数据集,调度引擎调度所述原始训练数据集于服务器上执行所述第二数据处理组合算法,获得训练数据集,调度引擎调度所述训练数据集于服务器上训练所述待训练模型,获得数据分析模型;数据预测步骤,包括:获得原始预测数据集,调度引擎调度所述原始训练数据集于服务器上执行所述第二数据处理组合算法,获得预测数据集,调...

【专利技术属性】
技术研发人员:ꢀ七四专利代理机构
申请(专利权)人:成都数之联科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1