基于生成式模型构建语言转换助手的方法和系统技术方案

技术编号:42052138 阅读:32 留言:0更新日期:2024-07-16 23:32
本申请提供了一种基于生成式模型构建语言转换助手的方法和系统、电子设备及存储介质,涉及企业级数仓技术领域。该方法首先对各张初始数据表的元信息进行预处理,确保后续生成式模型能够准确理解数据表的结构和语义,提高生成的训练样本集的质量;随后利用生成式模型,结合至少一张预处理后数据表的元信息和当前日期,生成包含表信息、当前日期、自然语言查询问题、与自然语言查询问题对应的结构化语言检索语句的训练样本集,能够高效和准确地构建训练样本集;之后使用训练样本集对待训练模型进行训练,构建语言转换助手,后续语言转换助手可以帮助用户将自然语言查询问题转换为有效的结构化语言检索语句,提高了检索效率和准确性。

【技术实现步骤摘要】

本申请涉及企业级数仓,尤其涉及一种基于生成式模型构建语言转换助手的方法和系统、电子设备及存储介质。


技术介绍

1、随着大数据技术的不断发展,企业级数据仓库积累了大量的数据资源。为了快速从数据中提取信息,提高决策效率,nl2sql(natural language to structured querylanguage,自然语言转换为结构化查询语言)技术成为一项关键技术。然而,传统的nl2sql方法面临着诸多挑战。例如,缺乏对表格和列的清晰描述导致生成的sql检索语句不精确,上下文和元数据的缺失使得问题理解困难,以及响应速度等问题。因而,亟待解决这些技术问题。


技术实现思路

1、鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的基于生成式模型构建语言转换助手的方法和系统、电子设备及存储介质。所述技术方案如下:

2、第一方面,提供了一种基于生成式模型构建语言转换助手的方法,包括:

3、对至少一张初始数据表中各张初始数据表的元信息进行预处理,得到至少一张预处理后数本文档来自技高网...

【技术保护点】

1.一种基于生成式模型构建语言转换助手的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述元信息包括表名、表描述、字段名、字段别名、字段描述、维度列、指标列、是否为立方体表、下钻列、下钻列默认值或补全值中的一种或多种;所述表信息包括表名和/或表描述。

3.根据权利要求2所述的方法,其特征在于,所述利用生成式模型,结合所述至少一张预处理后数据表的元信息和当前日期,生成包含表信息、当前日期、自然语言查询问题、与自然语言查询问题对应的结构化语言检索语句的训练样本集,包括:

4.根据权利要求3所述的方法,其特征在于,根据所述至少一张预处理...

【技术特征摘要】

1.一种基于生成式模型构建语言转换助手的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述元信息包括表名、表描述、字段名、字段别名、字段描述、维度列、指标列、是否为立方体表、下钻列、下钻列默认值或补全值中的一种或多种;所述表信息包括表名和/或表描述。

3.根据权利要求2所述的方法,其特征在于,所述利用生成式模型,结合所述至少一张预处理后数据表的元信息和当前日期,生成包含表信息、当前日期、自然语言查询问题、与自然语言查询问题对应的结构化语言检索语句的训练样本集,包括:

4.根据权利要求3所述的方法,其特征在于,根据所述至少一张预处理后数据表的元信息和当前日期,将所述至少一张预处理后数据表中各张预处理后数据表的表名、表描述、字段名、字段别名、字段描述、当前日期、结构化语言语法范围、日期表达范围作为第一提示信息之后,所述方法还包括:

5.根据权利要求3所述的方法,其特征在于,所述第二提示信息中包括用于按照预设格式生成表信息、当前日期、自然语言查询问题、与自然语言查询问题对应的结构化语言检索语句的提示内容。

【专利技术属性】
技术研发人员:王君吉李哲周扬董元昊
申请(专利权)人:浙江口碑网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1