【技术实现步骤摘要】
基于相关性判断的SQL解析方法、装置和计算机设备
本申请涉及自然语言处理
,特别是涉及一种基于相关性判断的SQL解析方法、装置和计算机设备。
技术介绍
在SQL解析的实际应用场景中,用户的行为不可控,其所输入的自然语言问题不一定与目标数据库相关,导致该自然语言问题无法在目标数据库上进行解析。受限于主流SQL解析数据集构建情况,很少有研究人员在SQL解析任务中考虑自然语言问题与数据库的相关性。目前,目前,基于相关性判断的SQL解析任务缺少公开数据集,现有SQL解析数据集均未包含自然语言问题的相关性判断。由于人工标注数据成本较高,采用全面匹配方法进行SQL解析的成本高、效率低。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够解决SQL解析成本和效率兼顾的基于相关性判断的SQL解析方法、装置、计算机设备和存储介质。一种基于相关性判断的SQL解析方法,所述方法包括:将自然文本样本输入SQL解析模型;所述SQL解析模型包括:编码模块、相关性判断模块和SQL解析模块;根据预训练的所述编码模块对所述自然文本样本进行解析,得到字段序列和自然语言问题序列;其中,所述字段序列编码和所述自然语言问题序列编码串联构成整体编码信息;所述自然语言问题序列编码中的一个自然语言问题编码对应一个字段序列编码的字段编码;所述字段编码对应一个输入序列编码;将所述整体编码信息输入所述相关性判断模块,根据所述整体编码信息和所述输入序列编码,确定所述整体编码信息中各个输入序列编码的注 ...
【技术保护点】
1.一种基于相关性判断的SQL解析方法,其特征在于,所述方法包括:/n将自然文本样本输入SQL解析模型;所述SQL解析模型包括:编码模块、相关性判断模块和SQL解析模块;/n根据预训练的所述编码模块对所述自然文本样本进行解析,得到字段序列和自然语言问题序列;其中,所述字段序列编码和所述自然语言问题序列编码串联构成整体编码信息;所述自然语言问题序列编码中的一个自然语言问题编码对应一个字段序列编码的字段编码;所述字段编码对应一个输入序列编码;/n将所述整体编码信息输入所述相关性判断模块,根据所述整体编码信息和所述输入序列编码,确定所述整体编码信息中各个输入序列编码的注意力权重,根据所述注意力权重和所述输入序列编码,得到所述整体编码信息对应的注意力加权向量;/n将所述注意力加权向量和所述整体编码信息进行拼接,得到所述字段序列编码和所述自然语言问题序列编码的交互信息;/n将所述交互信息输入相关性判断模块的全连接层,得到所述自然文本样本对应的预测自然语言问题;/n将所述预测自然语言问题和所述整体编码信息输入所述SQL解析模块,解析得到预测SQL语句;/n根据预先构建的损失函数对所述SQL解析模型 ...
【技术特征摘要】
1.一种基于相关性判断的SQL解析方法,其特征在于,所述方法包括:
将自然文本样本输入SQL解析模型;所述SQL解析模型包括:编码模块、相关性判断模块和SQL解析模块;
根据预训练的所述编码模块对所述自然文本样本进行解析,得到字段序列和自然语言问题序列;其中,所述字段序列编码和所述自然语言问题序列编码串联构成整体编码信息;所述自然语言问题序列编码中的一个自然语言问题编码对应一个字段序列编码的字段编码;所述字段编码对应一个输入序列编码;
将所述整体编码信息输入所述相关性判断模块,根据所述整体编码信息和所述输入序列编码,确定所述整体编码信息中各个输入序列编码的注意力权重,根据所述注意力权重和所述输入序列编码,得到所述整体编码信息对应的注意力加权向量;
将所述注意力加权向量和所述整体编码信息进行拼接,得到所述字段序列编码和所述自然语言问题序列编码的交互信息;
将所述交互信息输入相关性判断模块的全连接层,得到所述自然文本样本对应的预测自然语言问题;
将所述预测自然语言问题和所述整体编码信息输入所述SQL解析模块,解析得到预测SQL语句;
根据预先构建的损失函数对所述SQL解析模型进行训练,得到训练好的SQL解析模型;
将待解析自然文本输入训练好的SQL解析模型,得到对应的SQL语句。
2.根据权利要求1所述的方法,其特征在于,根据预训练的所述编码模块对所述自然文本样本进行解析,得到字段序列编码和自然语言问题序列编码,包括:
获取自然文本样本的初始序列为:
[CLS],q1,q2,...,qL,[SEP],c11,c12,...,[SEP],c21,c22,...,[SEP],...,[SEP]
其中,[CLS]表示初始标记,[SEP]表示间隔符,q1,q2,...,qL是自然语言问题序列,ct1,ct2,...是第t个字段的输入序列,L表示自然语言问题的长度;qt表示自然语言问题序列中的第t个token;
根据预训练的所述编码模块对所述初始序列进行解析,得到字段序列编码和自然语言问题序列编码为:
h[CLS],hq1,hq2,...,hqL,h[SEP],hc11,hc12,...,h[SEP],hc21,hc22,...,h[SEP],...,h[SEP]
其中,h[CLS]表示整体编码信息,h[SEP]表示[SEP]的编码,hqt表示qt的编码,hct1,hct2,...表示ct1,ct2,...的编码。
3.根据权利要求2所述的方法,其特征在于,将所述整体编码信息输入所述相关性判断模块,根据所述整体编码信息和所述输入序列编码,确定所述整体编码信息中各个输入序列编码的注意力权重,根据所述注意力权重和所述输入序列编码,得到所述整体编码信息对应的注意力加权向量,包括:
将所述整体编码信息输入所述相关性判断模块,根据所述整体编码信息和所述输入序列编码,确定所述整体编码信息中各个输入序列编码的注意力权重,根据所述注意力权重和所述输入序列编码,得到所述整体编码信息对应的注意力加权向量为:
sij=dot(Uh[CLS],Vhcij)
其中,U和V是可学习参数,U∈Rd×d,V∈Rd×d。dot表示点乘运算,hcij表示第i个字段的第j个token的编码,sij表示第i个字段的第j个token的编码与输入序列的整体编码信息h[CLS]的相似度,aij表示经过归一化处理后的注意力权重,n和m分别表示输入序列编码的数量和字段序列编码的长度,hc是注意力加权向量。
4.根据权利要求3所述的方法,其特征在于,将所述注意力加权向量和所述整体编码信息进行拼接,得到所述字段序列编码和所述自然语言问题序列编码的交互信息,包括:
将所述注意力加权向量和所述...
【专利技术属性】
技术研发人员:谭真,张啸宇,赵翔,王俞涵,黄旭倩,廖劲智,肖卫东,唐九阳,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。