语言转换模型的训练方法、转换方法、装置、设备和介质制造方法及图纸

技术编号:37420791 阅读:6 留言:0更新日期:2023-04-30 09:43
本发明专利技术公开了一种语言转换模型的训练方法、转换方法、装置、设备和介质,属于计算机技术领域,解决了由于模型结构复杂而导致的模型训练难度大的问题。该方法包括:将自然语言查询序列和语义匹配的关联表格中的列名信息拼接为长序列信息;基于长序列信息训练预先构建的语言转换模型,得到训练后的语言转换模型,语言转换模型用于确定自然语言序列和结构化查询语言序列的对应关系,结构化查询语言序列中包括选择子句和条件子句,在语言转换模型的模型训练过程中,第一解码器用于根据选择子句的特征确定选择子句的预测结果,第二解码器用于根据条件子句的特征得到条件子句的预测结果。该方法可以降低模型训练难度。该方法可以降低模型训练难度。该方法可以降低模型训练难度。

【技术实现步骤摘要】
语言转换模型的训练方法、转换方法、装置、设备和介质


[0001]本专利技术涉及计算机
,具体涉及一种语言转换模型的训练方法、转换方法、装置、设备和介质。

技术介绍

[0002]结构化查询语言(Structured Query Language,SQL),是数据库的标准查询语言,将自然语言(Natural Language,NL)转为计算机可执行的结构化查询语言(NL To SQL,NL2SQL)的方法,即NL2SQL方法,其本质便是将自然语言序列转换成SQL序列。
[0003]由于SQL语句需要满足严格的语法约束,因此NL2SQL方法通常基于深度学习模型来实现,目前,实现NL2SQL的模型结构都较为复杂,导致模型训练难度较大。

技术实现思路

[0004]为此,本专利技术提供一种语言转换模型的训练方法、转换方法、装置、设备和介质,以解决现有技术中由于模型结构复杂而导致的模型训练难度大的问题。
[0005]为了实现上述目的,本专利技术第一方面提供一种语言转换模型的训练方法,该方法包括:将自然语言查询序列和用于进行语义匹配的关联表格中的列名信息拼接为长序列信息;基于所述长序列信息训练预先构建的语言转换模型,得到训练后的语言转换模型;其中,所述语言转换模型用于确定自然语言序列和结构化查询语言序列的对应关系,所述结构化查询语言序列中包括选择子句和条件子句,所述语言转换模型的网络结构包括第一解码器和第二解码器;在所述语言转换模型的模型训练过程中,所述第一解码器用于根据所述选择子句的特征确定选择子句的预测结果,所述第二解码器用于根据所述条件子句的特征得到条件子句的预测结果。
[0006]其中,所述基于所述长序列信息训练预先构建的语言转换模型,得到训练后的语言转换模型,包括:提取所述长序列信息的特征,得到所述长序列信息的特征编码;利用所述第一解码器处理所述长序列信息的特征编码,得到选择子句的预测结果;利用所述第二解码器处理所述长序列信息的特征编码,得到条件子句的预测结果;根据所述选择子句的预测结果、所述选择子句的标注结果、所述条件子句的预测结果和所述条件子句的标注结果,构建损失函数;利用所述损失函数,调整所述语言转换模型的模型参数,以利用所述调整后的模型参数,得到所述训练后的语言转换模型。
[0007]其中,所述选择子句包括选择列名子句和选择聚合函数子句;所述利用所述第一解码器处理所述长序列信息的特征编码,得到选择子句的预测结果,包括:
[0008]将所述长序列信息的特征编码输入所述第一解码器进行处理,得到与所述选择子句对应的第一自然语言查询特征向量和第一列名特征向量;通过预设的第一全连接层处理所述第一自然语言查询特征向量和所述第一列名特征向量,得到所述选择列名子句的预测结果,所述第一全连接层用于确定所述选择列名子句的预测结果与所述第一自然语言查询特征向量和所述第一列名特征向量的对应关系;通过预设的第二全连接层处理所述第一自
然语言查询特征向量和所述第一列名特征向量,得到所述选择聚合函数子句的预测结果,所述第二全连接层用于确定所述选择聚合函数子句的预测结果与所述第一自然语言查询特征向量和所述第一列名特征向量的对应关系;将所述选择列名子句的预测结果和所述选择聚合函数子句的预测结果,作为所述选择子句的预测结果。
[0009]其中,所述条件子句包括条件个数、每个条件选择的列名、操作符和操作符对应取值;所述利用所述第二解码器处理所述长序列信息的特征编码,得到条件子句的预测结果,包括:将所述长序列信息的特征编码输入所述第二解码器进行处理,得到与所述条件子句对应的第二自然语言查询特征向量和第二列名特征向量;通过预设的第三全连接层处理所述第二自然语言查询特征向量,得到所述条件个数的预测结果,所述第三全连接层用于确定所述条件个数的预测结果与所述第二自然语言查询特征向量的对应关系;通过预设的第四全连接层处理所述第二自然语言查询特征向量和所述第二列名特征向量,得到所述每个条件选择的列名的预测结果,所述第四全连接层用于确定所述每个条件选择的列名的预测结果与所述第二自然语言查询特征向量和所述第二列名特征向量的对应关系;通过预设的第五全连接层处理所述第二自然语言查询特征向量和所述第二列名特征向量,得到所述操作符的预测结果,所述第五全连接层用于确定所述操作符的预测结果与所述第二自然语言查询特征向量和所述第二列名特征向量的对应关系;通过预设的第六全连接层处理所述第二自然语言查询特征向量和所述第二列名特征向量,得到第一位置的预测结果,所述第一位置为所述操作符对应取值在所述自然语言查询序列的起始位置,所述第六全连接层用于确定所述第一位置的预测结果与所述第二自然语言查询特征向量和所述第二列名特征向量的对应关系;通过预设的第七全连接层处理所述第二自然语言查询特征向量和所述第二列名特征向量,得到第二位置的预测结果,所述第二位置为所述操作符对应取值在所述自然语言查询序列的终止位置,所述第七全连接层用于确定所述第二位置的预测结果与所述第二自然语言查询特征向量和所述第二列名特征向量的对应关系;将所述条件个数的预测结果、所述每个条件选择的列名的预测结果、所述操作符的预测结果、所述第一位置的预测结果和所述第二位置的预测结果,作为所述条件子句的预测结果。
[0010]其中,所述根据所述选择子句的预测结果、所述选择子句的标注结果、所述条件子句的预测结果和所述条件子句的标注结果,构建损失函数,包括:根据所述选择子句的预测结果和所述选择子句的标注结果,构建第一损失函数;根据所述条件子句的预测结果和所述条件子句的标注结果,构建第二损失函数;对所述第一损失函数和所述第二损失函数进行加权求和,将加权求和得到的损失函数作为构建的所述损失函数。
[0011]其中,所述将自然语言查询序列和用于进行语义匹配的关联表格中的列名信息拼接为长序列信息,包括:使用双向长短时记忆模型获取自然语言查询序列的语义向量作为第一语义表示向量;使用所述双向长短时记忆模型获取所述关联表格中的至少一组列关联信息的语义表示向量,每组列关联信息中包括一个列名信息和对应的列类型;计算所述第一语义表示向量分别与每组列关联信息的语义表示向量的余弦相似度,作为对应的语义匹配度;按照从大到小顺序获取前预定数量个余弦相似度,将所述预定数量个余弦相似度所属的各组列关联信息作为经筛选的各组列关联信息;将所述自然语言查询序列和所述经筛选的各组列关联信息拼接为所述长序列信息。
[0012]本专利技术第二方面提供一种语言转换方法,该语言转换方法包括:获取自然语言查
询序列;将所述自然语言查询序列输入预设的语言转换模型进行语言转换,得到对应的结构化查询语言;其中,所述语言转换模型是根据第一方面的任一项语言转换模型的训练方法训练得到的模型。
[0013]本专利技术第三方面提供一种语言转换模型的训练装置,该语言转换模型的训练装置包括:拼接模块,用于将自然语言查询序列和用于进行语义匹配的关联表格中的列名信息拼接为长序列信息;训练模块,用于基于所述长序列信息训练预先构建的语言转换模型,得到训练后的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语言转换模型的训练方法,其特征在于,所述方法包括:将自然语言查询序列和用于进行语义匹配的关联表格中的列名信息拼接为长序列信息;基于所述长序列信息训练预先构建的语言转换模型,得到训练后的语言转换模型;其中,所述语言转换模型用于确定自然语言序列和结构化查询语言序列的对应关系,所述结构化查询语言序列中包括选择子句和条件子句,所述语言转换模型的网络结构包括第一解码器和第二解码器;在所述语言转换模型的模型训练过程中,所述第一解码器用于根据所述选择子句的特征确定选择子句的预测结果,所述第二解码器用于根据所述条件子句的特征得到条件子句的预测结果。2.根据权利要求1所述的方法,其特征在于,所述基于所述长序列信息训练预先构建的语言转换模型,得到训练后的语言转换模型,包括:提取所述长序列信息的特征,得到所述长序列信息的特征编码;利用所述第一解码器处理所述长序列信息的特征编码,得到选择子句的预测结果;利用所述第二解码器处理所述长序列信息的特征编码,得到条件子句的预测结果;根据所述选择子句的预测结果、所述选择子句的标注结果、所述条件子句的预测结果和所述条件子句的标注结果,构建损失函数;利用所述损失函数,调整所述语言转换模型的模型参数,以利用所述调整后的模型参数,得到所述训练后的语言转换模型。3.根据权利要求2所述的方法,其特征在于,所述选择子句包括选择列名子句和选择聚合函数子句;所述利用所述第一解码器处理所述长序列信息的特征编码,得到选择子句的预测结果,包括:将所述长序列信息的特征编码输入所述第一解码器进行处理,得到与所述选择子句对应的第一自然语言查询特征向量和第一列名特征向量;通过预设的第一全连接层处理所述第一自然语言查询特征向量和所述第一列名特征向量,得到所述选择列名子句的预测结果,所述第一全连接层用于确定所述选择列名子句的预测结果与所述第一自然语言查询特征向量和所述第一列名特征向量的对应关系;通过预设的第二全连接层处理所述第一自然语言查询特征向量和所述第一列名特征向量,得到所述选择聚合函数子句的预测结果,所述第二全连接层用于确定所述选择聚合函数子句的预测结果与所述第一自然语言查询特征向量和所述第一列名特征向量的对应关系;将所述选择列名子句的预测结果和所述选择聚合函数子句的预测结果,作为所述选择子句的预测结果。4.根据权利要求2所述的方法,其特征在于,所述条件子句包括条件个数、每个条件选择的列名、操作符和操作符对应取值;所述利用所述第二解码器处理所述长序列信息的特征编码,得到条件子句的预测结果,包括:将所述长序列信息的特征编码输入所述第二解码器进行处理,得到与所述条件子句对应的第二自然语言查询特征向量和第二列名特征向量;通过预设的第三全连接层处理所述第二自然语言查询特征向量,得到所述条件个数的
预测结果,所述第三全连接层用于确定所述条件个数的预测结果与所述第二自然语言查询特征向量的对应关系;通过预设的第四全连接层处理所述第二自然语言查询特征向量和所述第二列名特征向量,得到所述每个条件选择的列名的预测结果,所述第四全连接层用于确定所述每个条件选择的列名的预测结果与所述第二自然语言查询特征向量和所述第二列名特征向量的对应关系;通过预设的第五全连接层处理所述第二自然语言查询特征向量和所述第二列名特征向量,得到所述操作符的预测结果,所述第五全连接层用于确定所述操作符的预测结果与所述第二自然语言查询特征向量和所述第二列名特征向量的对应关系;通过预设的第六全连接层处理所述第二自然语言查询特征向量和所述第二列名特征向量,得到第一位置的预测结果,所述第一位置为所述操作符对应取值在所述自然语言查询序列的起始位置,所述第六全连接层用于确定所述第一位置的预测结果与所述第二自然语言查询特征向量和所述第二列...

【专利技术属性】
技术研发人员:曹立江张蕊李明亮李瑞吴天昊万伟
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1