【技术实现步骤摘要】
一种基于智能语义补全的数据库自然语言接口系统
[0001]本专利技术涉及计算机查询
,具体而言,涉及一种可用于处理语义残缺或错误的数据库自然语言接口系统。
技术介绍
[0002]随着社交媒体以及物联网设备的发展,各种数据源的数据规模呈指数级增长,全球数据的存储量呈爆发式增长。在针对海量数据的存储中,关系型数据库扮演着至关重要的角色,存储的数据在商业运营、医学、科学研究以及日常生活的各种任务中都必不可少。虽然关系型数据库已经存在了几十年,但是普通用户在使用结构化查询语言(Structured Query Language,SQL)访问关系型数据库时仍然存在一定困难。数据库自然语言接口(Natural Language Interface to Database,NLIDB)旨在将用户输入的自然语言查询转换为关系型数据库中可执行的SQL查询语句,绝大多数不精通结构化查询语言的用户可以使用自然语言接口,对数据库进行有效查询,大大减少人机交互的障碍。因此,研究如何提供一种用户友好的数据库自然语言接口已经成为了数据库领域和自然语言处理领域的交叉研究热点之一。
[0003]数据库自然语言接口技术一直受到国内外广泛关注,目前主流解决方案主要在三个阶段进行优化:输入预处理阶段、翻译阶段和后翻译阶段。输入预处理阶段的优化主要通过对输入的自然语言进行预处理,丰富输入数据类型,包括对输入数据标注等方法。ATHENA使用分词器对输入的自然语言中出现的指代实体的语言进行分隔,分词之后更易于提取句子的主干信息。NaLIR利用依存分 ...
【技术保护点】
【技术特征摘要】
1.一种基于智能语义补全的数据库自然语言接口系统,其特征在于,包括关系感知型编码器、抽取生成型集束解码器、历史查询桥接机制以及动态上下文向量构建模块;历史查询桥接机制用于将自然语言查询与数据库历史查询桥接,输出历史查询桥接状态向量;关系感知型编码器包括文本联合嵌入模块、表感知查询编码器以及查询感知表编码器,文本联合嵌入模块基于预训练语言模型构建,表感知查询编码器以及查询感知表编码器均融合了注意力机制;文本联合嵌入模块用于将自然语言查询分词和数据库模式分词分别转化为自然语言查询的嵌入向量和数据库模式的嵌入向量;表感知查询编码器用于将自然语言查询的嵌入向量转化为可以感知数据库模式的自然语言查询状态向量;查询感知表编码器用于将数据库模式的嵌入向量转化为可以感知自然语言查询的数据库模式状态向量;动态上下文向量构建模块用于基于时间步、历史查询桥接状态向量、自然语言查询状态向量和数据库模式状态向量计算得到动态上下文向量;抽取生成型集束解码器包括抽取生成动作选择模块、计划采样机制和多样化集束搜索模块;抽取生成动作选择模块用于基于动态上下文向量,计算输出从自然语言查询中抽取的概率,以及从结构化查询语言关键字词典和数据库模式中生成的概率;计划采样机制用于基于从自然语言查询中抽取的概率,和从SQL关键字词典和数据库模式中生成的概率,计算得到生成词的概率;多样化集束搜索模块用于基于得到生成词的概率,得到可执行的SQL查询语句集合,并返回给用户。2.根据权利要求1所述基于智能语义补全的数据库自然语言接口系统,其特征在于,文本联合嵌入模块将自然语言查询分词和数据库模式分词分别转化为自然语言查询的嵌入向量和数据库模式的嵌入向量的方法包括:将自然语言查询分词和数据库模式分词进行拼接,得到模型输入的表达为Input=[CLS,X,SEP,T1,SEP,T2,SEP,...],其中,Input表示输入序列,CLS和SEP表示特殊字符,X表示自然语言查询,T
i
表示数据库模式;将输入序列Input输入到预训练的双向编码器表示模型(Bidirectional Encoder Representations from Transformers,BERT)中,最后输出得到{E
X
,E
S
}=BERT(Input),其中,是自然语言查询的嵌入向量,n是自然语言查询的长度,E
S
是数据库模式的嵌入向量。3.根据权利要求2所述基于智能语义补全的数据库自然语言接口系统,其特征在于,表感知查询编码器包括第一层双向长短时记忆网络(Bi
‑
directional Long Short
‑
Term Memory,Bi
‑
LSTM)、数据库模式注意力机制层和第二层Bi
‑
LSTM;获取可以感知数据库模式的自然语言查询状态向量的方法为:使用表感知查询编码器的第一层Bi
‑
LSTM对自然语言查询的嵌入向量进行编码,得到
嵌入向量H
B
;通过数据库模式注意力机制层捕获自然语言查询中与数据库模式强相关的自然语言单词,将经过数据库模式注意力机制后的向量H
schema
与嵌入向量H
B
进行拼接,将拼接后的向量使用表感知查询编码器的第二层Bi
‑
LSTM编码得到可以感知数据库模式的自然语言查询状态向量H
X
。4.根据权利要求3所述基于智能语义补全的数据库自然语言接口系统,其特征在于,查询感知表编码器包括第一层双向长短时记忆网络、数据库模式自注意力机制层、自然语言查询注意力机制层和第二层双向长短时记忆网络;获取可以感知自然语言查询的数据库模式状态向量的方法为:使用查询感知表编码器的第一层双向长短时记忆网络数据库模式的嵌入向量进行编码,然后使用数据库模式自注意力机制层提取多表间关系;使用自然语言查询注意力机制层建模数据库模式语句与自然语言查询语句之间的关系,再将数据库模式自注意力机制层的向量H
self
与自然语言查询注意力机制层的输出H
query
进行拼接,拼接后得到的向...
【专利技术属性】
技术研发人员:郑渤龙,毕蕾,席瑞洁,万静意,
申请(专利权)人:华中科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。