一种基于注意力机制与BiLSTM的中文查询表格选取方法技术

技术编号:40742303 阅读:17 留言:0更新日期:2024-03-25 20:01
本发明专利技术公开了一种基于注意力机制与BiLSTM的中文查询表格选取方法。方法包括:接收中文查询文本以及待查询的数据库连接方式,连接待查询数据库,解析获得数据库表结构,进行拼接获得长序列文本;使用垂直场景语料微调预训练语言模型,将长序列文本输入,进行分词标注与表征编码后输出序列编码;进行池化操作后获得表和列级别表征信息;使用注意力机制将列信息注入表信息中;使用分类器进行表格的分类召回,实现中文查询的表格选取。本发明专利技术方法实现了对多表数仓环境下复杂中文查询的表格召回,提升了数据库表格召回的精准度,可有效提高Text2SQL模型的泛化能力,减少语言模型Token长度带来的限制,可以得到良好的查询结果。

【技术实现步骤摘要】

本专利技术涉及了一种中文查询表格选取方法,涉及数据库查询语句生成技术、自然语言处理技术、预训练语言模型,具体涉及一种基于注意力机制与bilstm的中文查询表格选取方法。


技术介绍

1、数据库查询语句生成(text2sql)技术,旨在将自然语言查询(如问题或指令)转换为sql查询语句。text2sql系统接收一个自然语言查询作为输入,然后通过语义解析和语言理解技术,将其转换为sql查询语句,以便能够在数据库上执行查询操作。这样用户就可以使用自然语言来查询数据库,而无需学习复杂的数据库查询语言。它是为了帮助用户更轻松地与数据库进行交互和查询而开发的。

2、自然语言处理(natural language processing,nlp)技术是指使用计算机科学、人工智能和语言学等相关领域的方法和技术来处理和分析人类自然语言的能力。它涉及到理解、处理和生成人类语言的任务,包括文本分类、命名实体识别、机器翻译、问答系统等。在人工智能技术蓬勃发展的时代背景下,越来越多的创新技术使用自然语言处理技术解决text2sql任务,其中以spider及其衍生的text2本文档来自技高网...

【技术保护点】

1.一种基于注意力机制与BiLSTM的中文查询表格选取方法,其特征在于,包括:

2.根据权利要求1所述的基于注意力机制与BiLSTM的中文查询表格选取方法,其特征在于:所述的步骤1中,进行解析获得数据库表结构具体为使用正则表达式解析。

3.根据权利要求1所述的基于注意力机制与BiLSTM的中文查询表格选取方法,其特征在于:所述的步骤1中,将中文查询文本和数据库表结构进行拼接后获得一条长序列文本,具体为通过分隔符将中文查询文本逐一与数据库表结构拼接,得到一条长序列文本。

4.根据权利要求1所述的基于注意力机制与BiLSTM的中文查询表格选取方法,其特征在...

【技术特征摘要】

1.一种基于注意力机制与bilstm的中文查询表格选取方法,其特征在于,包括:

2.根据权利要求1所述的基于注意力机制与bilstm的中文查询表格选取方法,其特征在于:所述的步骤1中,进行解析获得数据库表结构具体为使用正则表达式解析。

3.根据权利要求1所述的基于注意力机制与bilstm的中文查询表格选取方法,其特征在于:所述的步骤1中,将中文查询文本和数据库表结构进行拼接后获得一条长序列文本,具体为通过分隔符将中文查询文本逐一与数据库表结构拼接,得到一条长序列文本。

4.根据权利要求1所述的基于注意力机制与bilstm的中文查询表...

【专利技术属性】
技术研发人员:张嘎苏常保袁静黄清仪查良瑜
申请(专利权)人:浙江大学计算机创新技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1