一种基于BERT和知识图谱感知的CQL生成方法技术

技术编号:23764611 阅读:142 留言:0更新日期:2020-04-11 19:10
本发明专利技术针对neo4j图数据库查询语句传统的编写方法效率低、泛化能力差、成本高等缺点,提出了一种基于BERT(Bidirectional Encoder Representations from Transformers,BERT)和知识图谱感知的CQL(CQL代表Cypher查询语言)生成方法。首先采用基于BERT的知识图谱感知编码器对自然语言查询和整个图谱的标签以及属性进行编码,获得包含自然语言查询信息以及图谱结构信息的特征向量;然后采用本专利提出的SHALLOW‑LAYER模型,通过损失函数控制BERT有规则的信息流,最终将自然语言查询映射成CQL查询。

A CQL generation method based on Bert and knowledge map perception

【技术实现步骤摘要】
一种基于BERT和知识图谱感知的CQL生成方法
本专利技术涉及CQL查询生成方法的自然语言处理领域,具体涉及一种基于BERT和知识图谱感知的CQL生成方法
技术介绍
随着互联网、大数据与人工智能的迅猛发展,信息与数据如飓风般覆盖了地球上的每一个角落,人们每时每刻都使用各种各样的移动设备和计算机利用互联网下载和发送文字、图片、视频等信息。Google公司每天处理的数据量达到了2020GB,今日头条每天产生超过20万条有效信息。如今的互联网承载了海量数据,并且这些数据继续在指数式的增长。然而,如何从在海量的数据中快速并准确的获取信息一直是人们梦寐以求的目标。同时引起人们注意的是,在随着信息不断汇聚而成的汪洋大海中,人们要准确高效地找到想要的信息就好像大海捞针一样,变得越来越耗时耗力。当一个普通用户需要在丰富的知识库中获取知识时,存在以下两个主要问题:1.数据量大,用户没有直接有效的方式进行检索获取其所需要的知识;2.用户需要通过标准的计算机查询语言对知识库检索,其用户就必须掌握复杂的知识库语法结构和了解整个知识库的组织结构。而基于BERT(本文档来自技高网...

【技术保护点】
1.一种基于BERT和知识图谱感知的CQL生成方法,其特征在于,包括以下步骤:/n步骤101:构建基于BERT和知识图谱感知的CQL生成框架;/n步骤102:构建基于BERT图谱结构感知的深度神经网络模型,对自然语言查询和知识图谱标签以及属性进行向量表示;/n步骤103:构建SHALLOW-LAYER模型生成CQL查询。/n

【技术特征摘要】
1.一种基于BERT和知识图谱感知的CQL生成方法,其特征在于,包括以下步骤:
步骤101:构建基于BERT和知识图谱感知的CQL生成框架;
步骤102:构建基于BERT图谱结构感知的深度神经网络模型,对自然语言查询和知识图谱标签以及属性进行向量表示;
步骤103:构建SHALLOW-LAYER模型生成CQL查询。


2.根据权利要求1所述的一种基于BERT和知识图谱感知的CQL生成方法,其特征在于,所述步骤102采用基于BERT图谱感知的编码器,对自然语言查询和图谱标签以及属性进行向量表示,提出了使用基于BERT图谱感知的编码器对自然语言查询和图谱结构进行向量表示,采用[SEP]分隔自然语言查询和知识图谱中的标签以及属性,即每个自然语言查询输入Tn,1…Tn,L(L是自然语言查询词的数量)编码如下:



其中是第j个图谱标签或属性的第k个令牌,Mj是第j个图谱标签或属性的令牌总数,Nh是图谱标签或属性的总数。每个令牌都是由令牌嵌入、段嵌入和位置嵌入组成。[CLS]和[SEP]是用于分类和文本分离的特殊标记。


3.根据权利要求1所述的所述的一种基于BERT和知识图谱感知的CQL生成方法,其特征在于,所述步骤103构建SHALLOW-LAYER生成CQL查询,通过把步骤102获得的自然语言查询和图谱标签以及属性的向量表示输入到SHALLOW-LAYER模型,将自然语言查询映射成CQL查询。
在典型的序列生成模型中,输出不受任何语法的显示限制,这对于形式语言生成而言是一大弊端。因此,SHALLOW-LAYER使用语法指导的模板,其中生成模型由六个模块组成,即return-column,return-aggregation,where-number,where-column,where-operator,where-value。在详细描述每个部分之前,首先介绍一下符号的定义:H[CLs]表示来自表感知BERT编码器的[CLS]令牌的输出,Hn,i表示Tn,i和Hh,i的输出用于的输出。上述三个实向量都属于Rd,其中d是BERT编码器的隐藏维度(例如,对于BERT-Large模型,d=1024)。(H)u表示向量H的第μ个元素,ω表示仿射变换。同样,我们将给定自然语言查询和图谱模式的条件概率p(·|Q,graph-schema)表示为p(·)。
return-column...

【专利技术属性】
技术研发人员:彭鑫李秋俊黄胜
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1