用于NL2SQL模型训练的数据处理方法、装置、设备及介质制造方法及图纸

技术编号:43137095 阅读:41 留言:0更新日期:2024-10-29 17:42
本申请公开了用于NL2SQL模型训练的数据处理方法、装置、设备及介质,涉及数据处理技术领域,包括:根据当前NL2SQL模型训练需求所属目标数据领域分析对应的目标数据库的模式信息;利用预设脚本工具并根据目标数据库中的数据库结构元素、各数据库数据生成原始训练数据;原始训练数据为基于各局部SQL片段与对应的抽象化处理后的目标数据库数据构建的数据对;按照预设模糊匹配规则对数据对中的所述目标数据库数据进行模糊匹配识别,以从目标数据库数据中筛选第一数据;对第一数据进行分词匹配识别,以得到目标关键信息,并利用目标关键信息补全局部SQL片段以得到目标SQL语句,基于目标SQL语句和数据库数据构建目标训练数据。

【技术实现步骤摘要】

本专利技术涉及数据处理,特别涉及用于nl2sql模型训练的数据处理方法、装置、设备及介质。


技术介绍

1、nl2sql(natural language to sql,(sql即structured query language,结构化查询语言),自然语言转结构化查询语言)技术旨在将用户的自然语言查询转换为可执行的sql语句,以访问数据库信息。然而,传统nl2sql模型训练方法往往因缺乏足够的、高质量的训练数据,特别是针对特定领域数据的训练数据,而限制了nl2sql模型的泛化能力和训练效率。而现有技术中,用于nl2sql模型训练的训练数据通常采用人工标注,以得到特定领域的训练数据,此外,nl2sql模型直接处理高度结构化和领域特异性数据时,往往面临识别难度大、训练周期长的问题。


技术实现思路

1、有鉴于此,本专利技术的目的在于提供一种用于nl2sql模型训练的数据处理方法、装置、设备及介质,能够用于nl2sql模型训练过程的特定领域的数据自动处理,避免nl2sql模型在直接利用训练数据训练时,因不同特定领域的本文档来自技高网...

【技术保护点】

1.一种用于NL2SQL模型训练的数据处理方法,其特征在于,包括:

2.根据权利要求1所述的用于NL2SQL模型训练的数据处理方法,其特征在于,所述利用预设脚本工具并根据所述目标数据库中的所述数据库结构元素、各数据库数据生成原始训练数据,包括:

3.根据权利要求2所述的用于NL2SQL模型训练的数据处理方法,其特征在于,所述利用预设脚本工具并根据所述模式信息拆解SQL查询语句,以基于拆解信息生成局部SQL片段,包括:

4.根据权利要求1所述的用于NL2SQL模型训练的数据处理方法,其特征在于,所述利用预设脚本工具并根据所述目标数据库中的所述数据库结构元...

【技术特征摘要】

1.一种用于nl2sql模型训练的数据处理方法,其特征在于,包括:

2.根据权利要求1所述的用于nl2sql模型训练的数据处理方法,其特征在于,所述利用预设脚本工具并根据所述目标数据库中的所述数据库结构元素、各数据库数据生成原始训练数据,包括:

3.根据权利要求2所述的用于nl2sql模型训练的数据处理方法,其特征在于,所述利用预设脚本工具并根据所述模式信息拆解sql查询语句,以基于拆解信息生成局部sql片段,包括:

4.根据权利要求1所述的用于nl2sql模型训练的数据处理方法,其特征在于,所述利用预设脚本工具并根据所述目标数据库中的所述数据库结构元素、各数据库数据生成原始训练数据之前,还包括:

5.根据权利要求1所述的用于nl2sql模型训练的数据处理方法,其特征在于,所述按照预设模糊匹...

【专利技术属性】
技术研发人员:董方辉孙思清
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1