System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种特征解耦可配置的NL2SQL方法技术_技高网

一种特征解耦可配置的NL2SQL方法技术

技术编号:41207976 阅读:2 留言:0更新日期:2024-05-09 23:29
本发明专利技术公开了一种特征解耦可配置的NL2SQL方法,属于数据处理技术领域,包括:构建特征提取模型库;运用正则匹配和迁移学习提取场景、意图、时间和业务维度的对应特征;进行场景特征配置、表映射关系配置、业务维度字段配置;通过场景识别确定用户查询的目标表;通过意图识别结合场景识别确定用户查询的查询内容;将时间特征转换为标准时间格式,利用SQL文本算法,将标准时间格式、业务维度特征和查询内容拼接生成SQL查询语句;通过SQL查询语句进行数据库查询,最终返回准确的查询结果。本方案根据时间特征、业务维度特征以及查询内容拼接生成SQL查询语句来对查询目标表进行查询,显著提高了SQL查询语句的准确性。

【技术实现步骤摘要】

本专利技术属于数据处理,尤其是一种特征解耦可配置的nl2sql方法。


技术介绍

1、语义解析是自然语言处理技术的核心,涉及多学科,如语言学、计算语言学、机器学习和认知语言。nl2sql(natural language to sql)作为语义解析的子任务,致力于将用户的自然语言转换成计算机可理解和执行的语义表示。近年来,深度学习技术在自然语言处理领域取得显著进展,尤其在nl2sql任务中表现出色。模型创新和改进提高了机器的理解能力,但仍面临挑战。深度学习方法需要大量训练数据,而nl2sql数据集的编制和标注成本高昂,尤其中文研究缺乏高质量开源数据。英文数据集占主导,中文研究起步较晚,且中文语法更为复杂。用户自然语言表述缺乏对表格背景知识的支撑,导致生成正确的sql查询语句困难。自然语言理解应强调收集用户查询意图,并对表结构进行知识增强,以提高理解能力。基于规则的nl2sql缺乏移植性,而基于深度学习的实现计算成本高且难以调试。合理整合规则和机器学习是提升准确率的关键。这些挑战需在提高数据集质量、强化知识增强和平衡计算成本等方面寻求解决方案。

2、中国专利,公开号:cn116821168a,公开日:2023年09月29日,公开了一种改进的基于生成式大语言模型的nl2sql方法,包括步骤s1、预处理数据库的表信息;步骤s2、自然语言问句预处理;步骤s3、目标表匹配;步骤s4、大语言模型结果输出;步骤s5、提取sql语句并输出。本专利技术使用生成式大语言模型,利用思维链方式构建prompt语句去提升匹配精度,不需要端到端地重新训练,在数据库表结构频繁更新的实际生产环境中适用性更好。另外,本专利技术采取前置计算表、列加权得分的方式,解决实际生产环境中多表重复列干扰环境下的,数据库查询语义识别问题,该方法能够帮助大语言模型更好地理解和匹配自然语言问句中相关的表、列信息,提升最终结果的准确度。此方案存在以下问题:此方案直接通过对自然语言处理匹配目标表,然后生成大语言模型,直接从大语言模型中提取sql语言,生成大语言模型需要通过大量的目标表信息进行训练得到,不能较好地控制模型的准确性,导致提取的sql语句准确性低。


技术实现思路

1、本专利技术的目的是解决现有技术中sql提取方法准确性低的问题,提供一种特征解耦可配置的nl2sql方法,通过构建的特征提取模型库分别提取场景特征、意图特征、时间特征和业务维度特征,并对场景特征、映射关系和业务维度字段进行配置,确定查询目标表,根据时间特征、业务维度特征以及查询内容拼接生成sql查询语句来对查询目标表进行查询,通过对场景特征、映射关系和业务维度字段进行配置,然后通过拼接的方式来生成sql查询语句,显著提高了sql查询语句的准确性。

2、为了实现上述目的,本专利技术采用以下技术方案:

3、一种特征解耦可配置的nl2sql方法,包括如下步骤:

4、s1、基于用户查询文本通过深度学习法构建特征提取模型库;

5、s2、基于所述特征提取模型库通过正则匹配算法提取场景特征和意图特征,基于所述特征提取模型库通过迁移学习法提取时间特征和业务维度特征;

6、s3、基于所述场景特征和业务维度特征进行场景特征配置、表映射关系配置、业务维度字段配置;

7、s4、基于所述场景特征进行场景识别,基于场景识别结果确定对应的查询目标表;

8、s5、基于意图特征进行意图识别,结合场景识别结果确定查询内容;

9、s6、将所述时间特征转化为标准时间格式,基于sql文本算法将所述时间特征的标准时间格式、业务维度特征、以及查询内容进行拼接生成sql查询语句;

10、s7、基于查询目标表通过sql查询语句进行查询,返回查询结果。

11、上述技术方案中,通过构建特征提取模型库,使得可以根据具体应用场景和需求定制不同的特征提取模型,从而更好地适应多样化的用户查询,提高灵活性和可配置性;通过正则匹配算法提取场景特征和意图特征,实现了对这两类特征的解耦,有助于更好地理解用户的查询意图,并能够更灵活地进行场景识别和意图识别;通过迁移学习法可以在不同任务之间共享知识,可以更好地提取时间和业务维度特征,从而增强模型的泛化能力,适应不同领域和业务要求;通过基于场景特征和业务维度特征进行配置,实现了对特征的灵活配置;通过将时间特征转化为标准时间格式,并通过sql文本算法将时间特征、业务维度特征和查询内容拼接生成sql查询语句,有助于提高查询语句的准确性和标准化,降低语法错误的风险;通过场景识别和意图识别确定查询目标表和查询内容,结合灵活的特征提取模型库和配置化的特征处理,可以生成更准确、高效的sql查询语句,提高查询过程的效率。

12、优选的,所述s1包括如下步骤:

13、s11、基于用户查询文本获取时间数据、业务数据、场景数据和意图数据;

14、s12、基于所述时间数据确定对应的时间序列,通过深度学习法对所述时间序列进行建模得到时间特征提取模型;

15、s13、获取所述业务数据的不同业务特征,通过深度学习法根据不同业务特征进行建模得到业务维度特征提取模型;

16、s14、基于场景数据确定用户查询场景,通过深度学习法对所述查询场景进行建模得到场景特征提取模型;

17、s15、基于意图数据确定用户查询意图,通过深度学习法对所述查询意图进行建模得到意图特征提取模型;

18、s16、基于所述时间特征提取模型、业务维度特征提取模型、场景特征提取模型和意图特征提取模型构建特征提取模型库。

19、上述技术方案中,通过在时间数据的基础上确定对应的时间序列,并使用深度学习法对时间序列进行建模,有助于捕捉时间的复杂关系和趋势,提取时间特征,能够更好地理解查询中的时间信息;利用深度学习法根据不同业务特征建模,实现了对业务数据的特征提取,有助于理解不同业务特征之间的关系,提高模型对业务维度的理解和处理能力;通过在场景数据和意图数据的基础上,利用深度学习法对查询场景和查询意图进行建模,有助于准确识别用户的查询场景和意图,从而更好地解释用户的真实意图;通过将时间特征提取模型、业务维度特征提取模型、场景特征提取模型和意图特征提取模型组合构建成特征提取模型库,能够使得系统具有可配置性,可以根据具体任务的需要选择不同的特征提取模型,提高了系统的灵活性和可扩展性。

20、优选的,所述s2包括如下步骤:

21、s21、通过场景特征提取模型获取对应的场景关键词,通过正则匹配算法提取所述场景关键词对应的场景特征;

22、s22、通过意图特征提取模型获取对应的意图关键词,通过正规匹配算法提取所述意图关键词对应的意图特征;

23、s23、将时间特征提取模型和业务维度特征提取迁移到时间任务和业务维度任务,提取对应的时间特征和业务维度特征。

24、上述技术方案中,利用场景特征提取模型获取场景关键词,并通过正则匹配算法提取对应本文档来自技高网...

【技术保护点】

1.一种特征解耦可配置的NL2SQL方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种特征解耦可配置的NL2SQL方法,其特征在于,所述S1包括如下步骤:

3.根据权利要求1所述的一种特征解耦可配置的NL2SQL方法,其特征在于,所述S2包括如下步骤:

4.根据权利要求3所述的一种特征解耦可配置的NL2SQL方法,其特征在于,所述S23包括如下步骤:

5.根据权利要求1所述的一种特征解耦可配置的NL2SQL方法,其特征在于,所述S3包括如下步骤:

6.根据权利要求5所述的一种特征解耦可配置的NL2SQL方法,其特征在于,所述S4包括如下步骤:

7.根据权利要求1所述的一种特征解耦可配置的NL2SQL方法,其特征在于,所述S5包括如下步骤:

8.根据权利要求1所述的一种特征解耦可配置的NL2SQL方法,其特征在于,所述S6包括如下步骤:

9.根据权利要求1所述的一种特征解耦可配置的NL2SQL方法,其特征在于,所述S7包括如下步骤:

【技术特征摘要】

1.一种特征解耦可配置的nl2sql方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种特征解耦可配置的nl2sql方法,其特征在于,所述s1包括如下步骤:

3.根据权利要求1所述的一种特征解耦可配置的nl2sql方法,其特征在于,所述s2包括如下步骤:

4.根据权利要求3所述的一种特征解耦可配置的nl2sql方法,其特征在于,所述s23包括如下步骤:

5.根据权利要求1所述的一种特征解耦可配置的nl2sql方法,...

【专利技术属性】
技术研发人员:金王英孙钢沈然陈昱玲王庆娟高杨杨李希鹏钱伟超庄立强李冰胡如一钮益峰徐宏伟刘晓枫周仁杰高官阳蒋斌
申请(专利权)人:国网浙江省电力有限公司营销服务中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1