基于多模态预训练的SQL特征提取方法、装置及介质制造方法及图纸

技术编号:40420634 阅读:15 留言:0更新日期:2024-02-20 22:39
本发明专利技术公开了一种基于多模态预训练的SQL特征提取方法、装置及介质,其中方法包括:对获取的SQL查询语句和执行计划进行数据预处理;使用BERT模型生成SQL查询语句和执行计划的初始特征;通过把查询语句输入基于自注意力机制的编码器,获得SQL查询语句的语义和结构特征;通过把执行计划输入基于关系感知注意力机制的编码器,获得SQL执行计划的执行逻辑特征;将两种特征通过跨模态编码器进行融合,获得SQL的特征表示。本发明专利技术综合考虑SQL相关的语义、结构和执行逻辑特征,采用掩码任务和对比学习任务结合的方式进行预训练,模型提取的SQL特征具有良好的泛化能力,可应用于多种数据库相关领域的任务场景。

【技术实现步骤摘要】

本专利技术涉及人工智能、深度学习及数据库,尤其涉及一种基于多模态预训练的sql特征提取方法、装置及介质。


技术介绍

1、随着大数据和人工智能技术的快速发展,人类产生的数据量正在呈指数级增长,数据库系统作为存储和使用数据的平台也面临着越来越复杂的管理和优化挑战。sql作为一种广泛应用的关系型数据库查询语言,sql查询可以操作数据库中的数据表,执行各种数据操作和数据分析,如增删改查、数据聚合、多表连接等,是数据库领域中的核心角色。目前,深度学习技术被逐渐用于数据库系统的查询性能优化,成本估算,基数估计,索引推荐等领域,用以解决数据库系统在性能和效率上的瓶颈,而这些下游任务无一例外都有一个共同的挑战,那就是如何充分建模sql的特征表示。

2、自然语言处理技术采用预训练范式对语言表示进行学习,已经在众多自然语言理解、处理和生成领域展现出强大的能力。与自然语言不同,sql作为一种结构化查询语言,有着独特的语法结构和数据库定义规则。目前的自然语言处理技术在结构化语言领域的研究集中在主流编程语言的代码补全、注释、生成和推荐上,对于sql语言的特征学习研究仍较本文档来自技高网...

【技术保护点】

1.一种基于多模态预训练的SQL特征提取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于多模态预训练的SQL特征提取方法,其特征在于,所述收集SQL查询语句,并生成与SQL查询语句对应的执行计划,包括:

3.根据权利要求1所述的一种基于多模态预训练的SQL特征提取方法,其特征在于,所述使用BERT模型作为特征提取器,获取SQL查询语句和执行计划的初始特征向量,包括:

4.根据权利要求1所述的一种基于多模态预训练的SQL特征提取方法,其特征在于,所述将SQL查询语句的初始特征向量输入到查询语句编码器,学习SQL查询语句的语义特征和结构特...

【技术特征摘要】

1.一种基于多模态预训练的sql特征提取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于多模态预训练的sql特征提取方法,其特征在于,所述收集sql查询语句,并生成与sql查询语句对应的执行计划,包括:

3.根据权利要求1所述的一种基于多模态预训练的sql特征提取方法,其特征在于,所述使用bert模型作为特征提取器,获取sql查询语句和执行计划的初始特征向量,包括:

4.根据权利要求1所述的一种基于多模态预训练的sql特征提取方法,其特征在于,所述将sql查询语句的初始特征向量输入到查询语句编码器,学习sql查询语句的语义特征和结构特征,得到sql查询语句的特征向量,包括:

5.根据权利要求1所述的一种基于多模态预训练的sql特征提取方法,其特征在于,所述将执行计划的初始特征向...

【专利技术属性】
技术研发人员:许勇游达平
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1