【技术实现步骤摘要】
本专利技术涉及数据科学领域,尤其涉及一种基于预定义算子的自动化数据操作流的生成方法及系统。
技术介绍
1、数据预处理工作通常涵盖多个方面:数据清洗、数据转换、数据集成和数据规约。而目前传统的数据预处理方法通常包括去除重复项、修正错误、填补缺失值等,在一些情况下涉及将非数值型数据转换为数值型,以及进行归一化或标准化处理。
2、目前,可以采用机器学习的方法进行数据预处理,但目前的机器学习中能够获取到数据集的一部分特征,但还无法完全做到由自然语言直接完成数据预处理任务,同时生成的数据预处理程序也将受限于预先定义好的函数库中,导致预处理效率不高。
3、因此,现有技术还有待于改进和发展。
技术实现思路
1、本专利技术的主要目的在于提供一种基于预定义算子的自动化数据操作流的生成方法、系统、终端及计算机可读存储介质,旨在解决现有技术中机器学习无法完全做到由自然语言直接完成数据预处理任务,同时生成的数据预处理程序也将受限于预先定义好的函数库中,导致预处理效率不高的问题。
【技术保护点】
1.一种基于预定义算子的自动化数据操作流的生成方法,其特征在于,所述基于预定义算子的自动化数据操作流的生成方法包括:
2.根据权利要求1所述的基于预定义算子的自动化数据操作流的生成方法,其特征在于,所述将所述语义向量输入到算子向量数据库中,生成元组和候选算子,之前还包括:
3.根据权利要求1所述的基于预定义算子的自动化数据操作流的生成方法,其特征在于,所述将所述语义向量输入到算子向量数据库中,生成元组和候选算子,并根据所述语义向量和所述表单信息生成所述待处理数据表的关键表单,具体包括:
4.根据权利要求2所述的基于预定义算子的自动化
...【技术特征摘要】
1.一种基于预定义算子的自动化数据操作流的生成方法,其特征在于,所述基于预定义算子的自动化数据操作流的生成方法包括:
2.根据权利要求1所述的基于预定义算子的自动化数据操作流的生成方法,其特征在于,所述将所述语义向量输入到算子向量数据库中,生成元组和候选算子,之前还包括:
3.根据权利要求1所述的基于预定义算子的自动化数据操作流的生成方法,其特征在于,所述将所述语义向量输入到算子向量数据库中,生成元组和候选算子,并根据所述语义向量和所述表单信息生成所述待处理数据表的关键表单,具体包括:
4.根据权利要求2所述的基于预定义算子的自动化数据操作流的生成方法,其特征在于,所述根据元组、所述候选算子和所述关键表单,生成提示词,并将所述提示词输入到大语言模型中,生成算子序列,具体包括:
5.根据权利要求4所述的基于预定义算子的自动化数据操作流的生成方法,其特征在于,所述基于算子序列解析器,对所述算子序列进行解析,得到执行代码,根据所述执行代码对所述待处理数据表进行处理,得到处理完成的数据表和数据操作流,并发送给用户,具体包括:
6.根据权利要求5所述的基于预定义算子的自...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。