一种自然语言语句转制造技术

技术编号:39738484 阅读:5 留言:0更新日期:2023-12-17 23:40
本发明专利技术属于自然语言处理技术领域,涉及一种自然语言语句转

【技术实现步骤摘要】
一种自然语言语句转SQL语句方法


[0001]本专利技术属于自然语言处理
,涉及一种自然语言语句转
SQL
语句方法,尤其涉及一种结合循环一致性机制和大语言模型微调的自然语言语句转
SQL
语句方法


技术介绍

[0002]在将自然语言语句转
SQL
语句时,之前常采用深度学习的方法

但是,由于传统的深度学习方法不具备通用自然语言理解能力,所以需标注语料多,跨场景能力较弱,灵活性较低,模型部署后,不重新训练的情况下,基本没有可调整的空间

[0003]随着人工智能

大数据技术的飞速发展,以大语言模型为代表的新一代人工智能技术带来了革命性的突破,如何基于大语言模型对传统的产品和业务进行重构升级是一个火热的研究课题

[0004]自然语言语句转
SQL
语句是自然语言处理最热门的研究方向之一

人类的自然语言表达方式多样性很大,传统的方法难以很好的应对,而大语言模型具有强大的涌现能力,对于自然语言具备通用的理解能力,跨领域能力和灵活性极高

因此,基于大语言模型的自然语言语句转
SQL
语句方法成为热点研究方向

[0005]例如,由阿里巴巴达摩院发表的论文
Can LLM Already Serve as ADatabase Interface

A Big Bench for Large

Scale Database Grounded Text

to

SQLs.arXiv.2023.05.03111
提出了一种基于大模型微调的自然语言转
SQL
语句的方法及新的自然语言转
SQL
数据集,具体步骤如下:
S1、
获取用户输入的自然语言问句;
S2、
将所述自然语言问句输入到预先完成微调训练的大语言模型中,获得对应的
SQL
语句

其中,大语言模型使用
T5
,微调训练方法使用全参数微调

训练数据的构建方法为:将用户输入的自然语言问句和数据库表信息拼接起来组成完整的输入,对应的
SQL
语句即为输出

[0006]上述的基于大语言模型微调的自然语言转
SQL
方法,本质是生成逼近
SQL
语句的分布,对
SQL
语句的含义及语法理解不充分,微调训练时很容易过拟合,准确率受到限制

[0007]因此,针对上述现有技术中存在的缺陷,需要研发一种新型的自然语言语句转
SQL
语句方法


技术实现思路

[0008]为了克服现有技术的缺陷,本专利技术提出一种自然语言语句转
SQL
语句方法,其通过引入循环一致性对齐机制,解决了基于大语言模型微调的方法应用在自然语言语句转
SQL
语句时容易过拟合的问题,从而提升了自然语言语句转
SQL
语句的整体效果

[0009]为了实现上述目的,本专利技术提供如下技术方案:
[0010]一种自然语言语句转
SQL
语句方法,其特征在于,包括以下步骤:
[0011]1)、
微调训练大语言模型;
[0012]2)、
获取待转化的自然语言语句;
[0013]3)、
将所述自然语言语句输入微调训练后的大语言模型,得到转化后的
SQL
语句

[0014]优选地,所述步骤
1)
具体包括:
[0015]1.1)、
创建自然语言语句转
SQL
语句训练数据集;
[0016]1.2)、
创建
SQL
语句转自然语言语句训练数据集;
[0017]1.3)、
使用所述
SQL
语句转自然语言语句训练数据集对大语言模型进行逆向微调;
[0018]1.4)、
使用所述自然语言语句转
SQL
语句训练数据集对逆向微调后的大语言模型进行循环一致性对齐微调

[0019]优选地,所述步骤
1.4)
中,在进行循环一致性对齐微调时,采用的损失函数记为
L
final
,则
[0020]L
final

τ
*L
original
+(1

τ
)*L
cycle
[0021][0022]其中,
L
original
表示大语言模型原来的损失函数;
L
cycle
表示循环一致性损失函数项,使用交叉熵表示;
step_total
表示训练迭代总步数;
step_current
表示当前迭代步数;
τ
表示损失函数项的可调整参数;
δ
为截止系数

[0023]优选地,其中,
n
代表所述自然语言语句转
SQL
语句训练数据集中数据样本的总个数,
x
i
表示第
i
个数据样本,
p(x
i
)
代表第
i
个数据样本的真实概率分布,
q(x
i
)
代表第
i
个数据样本的预测概率分布

[0024]优选地,
δ

0.5。
[0025]优选地,所述步骤
1.3)

1.4)
中,采用全参数微调方法或
LoRA
微调方法

[0026]优选地,所述步骤
1.1)
中,所述自然语言语句转
SQL
语句训练数据集来源于开源数据集,并将不同的开源数据集处理成统一格式,以获得所述自然语言语句转
SQL
语句训练数据集

[0027]优选地,所述步骤
1.2)
中,所述
SQL
语句转自然语言语句训练数据集从所述自然语言语句转
SQL
语句训练数据集逆向构建而来,即将其
SQL
语句与自然语言语句位置互换
[0028]优选地,微调训练后的大语言模型部署在云服务器上

[0029]优选地,所述大语言模型为
ChatGLM、ChatGPT

...

【技术保护点】

【技术特征摘要】
1.
一种自然语言语句转
SQL
语句方法,其特征在于,包括以下步骤:
1)、
微调训练大语言模型;
2)、
获取待转化的自然语言语句;
3)、
将所述自然语言语句输入微调训练后的大语言模型,得到转化后的
SQL
语句
。2.
根据权利要求1所述的自然语言语句转
SQL
语句方法,其特征在于,所述步骤
1)
具体包括:
1.1)、
创建自然语言语句转
SQL
语句训练数据集;
1.2)、
创建
SQL
语句转自然语言语句训练数据集;
1.3)、
使用所述
SQL
语句转自然语言语句训练数据集对大语言模型进行逆向微调;
1.4)、
使用所述自然语言语句转
SQL
语句训练数据集对逆向微调后的大语言模型进行循环一致性对齐微调
。3.
根据权利要求2所述的自然语言语句转
SQL
语句方法,其特征在于,所述步骤
1.4)
中,在进行循环一致性对齐微调时,采用的损失函数记为
L
final
,则
L
final

τ
*L
original
+(1

τ
)*L
cycle
其中,
L
original
表示大语言模型原来的损失函数;
L
cycle
表示循环一致性损失函数项,使用交叉熵表示;
step_total
表示训练迭代总步数;
step_current
表示当前迭代步数;
τ
表示损失函数项的可调整参数;
δ
为截止系数
。4.
根据权利要求3所述的自然语言语句转
SQL
语句方法,其特征在于,其中,

【专利技术属性】
技术研发人员:刘海波陈昊王仿
申请(专利权)人:北京智谱华章科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1