当前位置: 首页 > 专利查询>深圳大学专利>正文

基于预定义算子的自动化数据操作流的生成方法及系统技术方案

技术编号:42879503 阅读:19 留言:0更新日期:2024-09-30 15:03
本发明专利技术公开了一种基于预定义算子的自动化数据操作流的生成方法、及系统,所述方法包括:获取待处理数据表和用户查询需求,并根据待处理数据表获取表单信息;将用户查询需求输入到语义提取模型中,生成语义向量,将语义向量输入到算子向量数据库中,生成元组和候选算子,并根据语义向量和表单信息生成所述待处理数据表的关键表单;根据元组、候选算子和关键表单,生成提示词,并将提示词输入到大语言模型中,生成算子序列;基于算子序列解析器,对算子序列进行解析,得到执行代码,根据执行代码对所述待处理数据表进行处理,得到处理完成的数据表和数据操作流,并发送给用户。通过本发明专利技术可以得到更高效的对数据进行处理。

【技术实现步骤摘要】

本专利技术涉及数据科学领域,尤其涉及一种基于预定义算子的自动化数据操作流的生成方法及系统


技术介绍

1、数据预处理工作通常涵盖多个方面:数据清洗、数据转换、数据集成和数据规约。而目前传统的数据预处理方法通常包括去除重复项、修正错误、填补缺失值等,在一些情况下涉及将非数值型数据转换为数值型,以及进行归一化或标准化处理。

2、目前,可以采用机器学习的方法进行数据预处理,但目前的机器学习中能够获取到数据集的一部分特征,但还无法完全做到由自然语言直接完成数据预处理任务,同时生成的数据预处理程序也将受限于预先定义好的函数库中,导致预处理效率不高。

3、因此,现有技术还有待于改进和发展。


技术实现思路

1、本专利技术的主要目的在于提供一种基于预定义算子的自动化数据操作流的生成方法、系统、终端及计算机可读存储介质,旨在解决现有技术中机器学习无法完全做到由自然语言直接完成数据预处理任务,同时生成的数据预处理程序也将受限于预先定义好的函数库中,导致预处理效率不高的问题。

>2、为实现上述目的本文档来自技高网...

【技术保护点】

1.一种基于预定义算子的自动化数据操作流的生成方法,其特征在于,所述基于预定义算子的自动化数据操作流的生成方法包括:

2.根据权利要求1所述的基于预定义算子的自动化数据操作流的生成方法,其特征在于,所述将所述语义向量输入到算子向量数据库中,生成元组和候选算子,之前还包括:

3.根据权利要求1所述的基于预定义算子的自动化数据操作流的生成方法,其特征在于,所述将所述语义向量输入到算子向量数据库中,生成元组和候选算子,并根据所述语义向量和所述表单信息生成所述待处理数据表的关键表单,具体包括:

4.根据权利要求2所述的基于预定义算子的自动化数据操作流的生成方法...

【技术特征摘要】

1.一种基于预定义算子的自动化数据操作流的生成方法,其特征在于,所述基于预定义算子的自动化数据操作流的生成方法包括:

2.根据权利要求1所述的基于预定义算子的自动化数据操作流的生成方法,其特征在于,所述将所述语义向量输入到算子向量数据库中,生成元组和候选算子,之前还包括:

3.根据权利要求1所述的基于预定义算子的自动化数据操作流的生成方法,其特征在于,所述将所述语义向量输入到算子向量数据库中,生成元组和候选算子,并根据所述语义向量和所述表单信息生成所述待处理数据表的关键表单,具体包括:

4.根据权利要求2所述的基于预定义算子的自动化数据操作流的生成方法,其特征在于,所述根据元组、所述候选算子和所述关键表单,生成提示词,并将所述提示词输入到大语言模型中,生成算子序列,具体包括:

5.根据权利要求4所述的基于预定义算子的自动化数据操作流的生成方法,其特征在于,所述基于算子序列解析器,对所述算子序列进行解析,得到执行代码,根据所述执行代码对所述待处理数据表进行处理,得到处理完成的数据表和数据操作流,并发送给用户,具体包括:

6.根据权利要求5所述的基于预定义算子的自...

【专利技术属性】
技术研发人员:常京刘畅林毅斌秦建斌
申请(专利权)人:深圳大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1