一种基于智能语义补全的数据库自然语言接口系统技术方案

技术编号:34927257 阅读:10 留言:0更新日期:2022-09-15 07:21
本发明专利技术公开了一种基于智能语义补全的数据库自然语言接口系统,涉及计算机查询技术领域,包括关系感知型编码器、抽取生成型集束解码器、历史查询桥接机制以及动态上下文向量构建模块;关系感知型编码器包括文本联合嵌入模块、表感知查询编码器以及查询感知表编码器,文本联合嵌入模块基于预训练语言模型构建,表感知查询编码器以及查询感知表编码器均融合了注意力机制;抽取生成型集束解码器包括抽取生成动作选择模块、计划采样机制和多样化集束搜索模块。本发明专利技术能够降低非专业人士检索数据库的门槛,减少人机交互障碍,具有实用性,可以在人工智能交互和智能问答、搜索引擎的优化以及企业运营成本的节约等场景得到广泛应用。及企业运营成本的节约等场景得到广泛应用。及企业运营成本的节约等场景得到广泛应用。

【技术实现步骤摘要】
一种基于智能语义补全的数据库自然语言接口系统


[0001]本专利技术涉及计算机查询
,具体而言,涉及一种可用于处理语义残缺或错误的数据库自然语言接口系统。

技术介绍

[0002]随着社交媒体以及物联网设备的发展,各种数据源的数据规模呈指数级增长,全球数据的存储量呈爆发式增长。在针对海量数据的存储中,关系型数据库扮演着至关重要的角色,存储的数据在商业运营、医学、科学研究以及日常生活的各种任务中都必不可少。虽然关系型数据库已经存在了几十年,但是普通用户在使用结构化查询语言(Structured Query Language,SQL)访问关系型数据库时仍然存在一定困难。数据库自然语言接口(Natural Language Interface to Database,NLIDB)旨在将用户输入的自然语言查询转换为关系型数据库中可执行的SQL查询语句,绝大多数不精通结构化查询语言的用户可以使用自然语言接口,对数据库进行有效查询,大大减少人机交互的障碍。因此,研究如何提供一种用户友好的数据库自然语言接口已经成为了数据库领域和自然语言处理领域的交叉研究热点之一。
[0003]数据库自然语言接口技术一直受到国内外广泛关注,目前主流解决方案主要在三个阶段进行优化:输入预处理阶段、翻译阶段和后翻译阶段。输入预处理阶段的优化主要通过对输入的自然语言进行预处理,丰富输入数据类型,包括对输入数据标注等方法。ATHENA使用分词器对输入的自然语言中出现的指代实体的语言进行分隔,分词之后更易于提取句子的主干信息。NaLIR利用依存分析对输入的自然语言中的词语依赖关系进行处理。除了将自然语言查询作为输入,SQLova在双向编码器表示模型(Bidirectional Encoder Representations from Transformers,BERT)编码器中结合了数据表头内容,使用[SEP]分隔自然语言文本序列和数据表头内容。翻译阶段的优化主要通过深度学习方法。Xi V.Lin等人提出BRIDGE模型,采用序列到序列的深度学习架构,编码器使用锚文本将序列中提到的单元值与相应的数据库字段连接起来,进而使用BERT对自然语言序列和数据库模式的混合序列进行编码,解码器为结合多头注意力机制的指针生成网络。后翻译阶段的优化目前主要采用去匿名化、引入中间表示和限制解码空间等方法。DBPal设计了一种匿名化机制,将自然语言查询中的数值等信息用占位符来进行替换,在模型完成结构化查询语言的生成之后,再用自然语言查询中的叙述复原其中的占位符。
[0004]现有的数据库自然语言接口技术在不同的阶段进行模型优化时,均未考虑用户的输入为不完整的或错误的自然语言查询语句,使人机交互障碍较大,难以在人工智能交互和智能问答、搜索引擎的优化以及企业运营成本的节约等场景得到高效广泛应用。

技术实现思路

[0005]本专利技术为了克服现有数据库自然语言接口方法未考虑用户输入的自然语言查询为语义缺失或错误的缺陷,提供一种基于智能语义补全的数据库自然语言接口系统,并引
入数据库历史查询桥接机制和动态上下文向量,从而能够实现智能语义补全和纠错的数据库自然语言接口,可作为各种基于数据库服务的应用中的基础构建模块。
[0006]本专利技术提供了一种基于智能语义补全的数据库自然语言接口系统,包括关系感知型编码器、抽取生成型集束解码器、历史查询桥接机制以及动态上下文向量构建模块;
[0007]历史查询桥接机制用于将自然语言查询与数据库历史查询桥接,输出历史查询桥接状态向量;
[0008]关系感知型编码器包括文本联合嵌入模块、表感知查询编码器以及查询感知表编码器,文本联合嵌入模块基于预训练语言模型构建,表感知查询编码器以及查询感知表编码器均融合了注意力机制;
[0009]文本联合嵌入模块用于将自然语言查询分词和数据库模式分词分别转化为自然语言查询的嵌入向量和数据库模式的嵌入向量;表感知查询编码器用于将自然语言查询的嵌入向量转化为可以感知数据库模式的自然语言查询状态向量;查询感知表编码器用于将数据库模式的嵌入向量转化为可以感知自然语言查询的数据库模式状态向量;
[0010]动态上下文向量构建模块用于基于时间步、历史查询桥接状态向量、自然语言查询状态向量和数据库模式状态向量计算得到动态上下文向量;
[0011]抽取生成型集束解码器包括抽取生成动作选择模块、计划采样机制和多样化集束搜索模块;
[0012]抽取生成动作选择模块用于基于动态上下文向量,计算输出从自然语言查询中抽取的概率,以及从结构化查询语言(Structured Query Language,SQL)关键字词典和数据库模式中生成的概率;
[0013]计划采样机制用于基于从自然语言查询中抽取的概率,和从SQL关键字词典和数据库模式中生成的概率,计算得到生成词的概率;
[0014]多样化集束搜索模块用于基于得到生成词的概率,得到可执行的SQL查询语句集合,并返回给用户。
[0015]在本专利技术的一较佳实施方式中,文本联合嵌入模块将自然语言查询分词和数据库模式分词分别转化为自然语言查询的嵌入向量和数据库模式的嵌入向量的方法包括:
[0016]将自然语言查询分词和数据库模式分词进行拼接,得到模型输入的表达为
[0017]Input=[CLS,X,SEP,T1,SEP,T2,SEP,...],
[0018]其中,Input表示输入序列,CLS和SEP表示特殊字符,X表示自然语言查询,T
i
表示数据库模式;
[0019]将输入序列Input输入到预训练语言模型BERT中,最后输出得到
[0020]{E
X
,E
S
}=BERT(Input),
[0021]其中,是自然语言查询的嵌入向量,n是自然语言查询的长度,E
S
是数据库模式的嵌入向量。
[0022]在本专利技术的一较佳实施方式中,表感知查询编码器包括第一层Bi

LSTM、数据库模式注意力机制层和第二层Bi

LSTM;
[0023]获取可以感知数据库模式的自然语言查询状态向量的方法为:
[0024]使用表感知查询编码器的第一层Bi

LSTM对自然语言查询的嵌入向量进行编码,得到嵌入向量H
B

[0025]通过数据库模式注意力机制层捕获自然语言查询中与数据库模式强相关的自然语言单词,将经过数据库模式注意力机制后的向量H
schema
与嵌入向量H
B
进行拼接,将拼接后的向量使用表感知查询编码器的第二层Bi

LSTM编码得到可以感知数据库模式的自然语言查询状态向量H
X

[0026]在本专利技术的一较佳实施方式中,查询感知表编码器包括第一层双向长短时记忆网络、数据库模式自注意力机制层、自然语言查询注意力机制层和第二层双向长本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于智能语义补全的数据库自然语言接口系统,其特征在于,包括关系感知型编码器、抽取生成型集束解码器、历史查询桥接机制以及动态上下文向量构建模块;历史查询桥接机制用于将自然语言查询与数据库历史查询桥接,输出历史查询桥接状态向量;关系感知型编码器包括文本联合嵌入模块、表感知查询编码器以及查询感知表编码器,文本联合嵌入模块基于预训练语言模型构建,表感知查询编码器以及查询感知表编码器均融合了注意力机制;文本联合嵌入模块用于将自然语言查询分词和数据库模式分词分别转化为自然语言查询的嵌入向量和数据库模式的嵌入向量;表感知查询编码器用于将自然语言查询的嵌入向量转化为可以感知数据库模式的自然语言查询状态向量;查询感知表编码器用于将数据库模式的嵌入向量转化为可以感知自然语言查询的数据库模式状态向量;动态上下文向量构建模块用于基于时间步、历史查询桥接状态向量、自然语言查询状态向量和数据库模式状态向量计算得到动态上下文向量;抽取生成型集束解码器包括抽取生成动作选择模块、计划采样机制和多样化集束搜索模块;抽取生成动作选择模块用于基于动态上下文向量,计算输出从自然语言查询中抽取的概率,以及从结构化查询语言关键字词典和数据库模式中生成的概率;计划采样机制用于基于从自然语言查询中抽取的概率,和从SQL关键字词典和数据库模式中生成的概率,计算得到生成词的概率;多样化集束搜索模块用于基于得到生成词的概率,得到可执行的SQL查询语句集合,并返回给用户。2.根据权利要求1所述基于智能语义补全的数据库自然语言接口系统,其特征在于,文本联合嵌入模块将自然语言查询分词和数据库模式分词分别转化为自然语言查询的嵌入向量和数据库模式的嵌入向量的方法包括:将自然语言查询分词和数据库模式分词进行拼接,得到模型输入的表达为Input=[CLS,X,SEP,T1,SEP,T2,SEP,...],其中,Input表示输入序列,CLS和SEP表示特殊字符,X表示自然语言查询,T
i
表示数据库模式;将输入序列Input输入到预训练的双向编码器表示模型(Bidirectional Encoder Representations from Transformers,BERT)中,最后输出得到{E
X
,E
S
}=BERT(Input),其中,是自然语言查询的嵌入向量,n是自然语言查询的长度,E
S
是数据库模式的嵌入向量。3.根据权利要求2所述基于智能语义补全的数据库自然语言接口系统,其特征在于,表感知查询编码器包括第一层双向长短时记忆网络(Bi

directional Long Short

Term Memory,Bi

LSTM)、数据库模式注意力机制层和第二层Bi

LSTM;获取可以感知数据库模式的自然语言查询状态向量的方法为:使用表感知查询编码器的第一层Bi

LSTM对自然语言查询的嵌入向量进行编码,得到
嵌入向量H
B
;通过数据库模式注意力机制层捕获自然语言查询中与数据库模式强相关的自然语言单词,将经过数据库模式注意力机制后的向量H
schema
与嵌入向量H
B
进行拼接,将拼接后的向量使用表感知查询编码器的第二层Bi

LSTM编码得到可以感知数据库模式的自然语言查询状态向量H
X
。4.根据权利要求3所述基于智能语义补全的数据库自然语言接口系统,其特征在于,查询感知表编码器包括第一层双向长短时记忆网络、数据库模式自注意力机制层、自然语言查询注意力机制层和第二层双向长短时记忆网络;获取可以感知自然语言查询的数据库模式状态向量的方法为:使用查询感知表编码器的第一层双向长短时记忆网络数据库模式的嵌入向量进行编码,然后使用数据库模式自注意力机制层提取多表间关系;使用自然语言查询注意力机制层建模数据库模式语句与自然语言查询语句之间的关系,再将数据库模式自注意力机制层的向量H
self
与自然语言查询注意力机制层的输出H
query
进行拼接,拼接后得到的向...

【专利技术属性】
技术研发人员:郑渤龙毕蕾席瑞洁万静意
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1