基于语义的数据湖查询系统及方法技术方案

技术编号:32780650 阅读:15 留言:0更新日期:2022-03-23 19:38
一种基于语义的数据湖查询系统及方法,该系统包括:标签识别模块、实体检索模块、实例推理模块和查询结果融合模块,本发明专利技术在数据湖元数据的支撑下,进行基于语义的数据查询和数据资源调用,能够有效适应数据湖中多源异构、动态变化、关联复杂的原始数据的特点,在保证数据一致性的前提下,提升用户检索的灵活性和检索结果的全面性,对用户输入的查询请求,智能返回检索得到的知识实例结果。返回检索得到的知识实例结果。返回检索得到的知识实例结果。

【技术实现步骤摘要】
基于语义的数据湖查询系统及方法


[0001]本专利技术涉及的是一种信息处理领域的技术,具体是一种基于语义的数据湖查询系统及方法。

技术介绍

[0002]数据湖作为一种数据存储方式,扁平化地管理海量异构的原始数据,能够支撑对数据中的信息和知识的发现,从而充分挖掘数据中的价值。而大规模数据的快速产生、动态变化、关联复杂的特点,对在数据湖中进行智能有效的检索和分析提出了挑战。
[0003]现有的数据湖查询的解决方案,主要通过人工构建索引进行支持。但该类技术手段缺乏灵活性,在对数据的动态访问和对查询的智能响应方面的性能较低,不能适应不同模态的原始数据的持续生成中,对查询请求的准确理解和结果匹配。查询索引与数据的多对多映射主要通过前端节点进行多模式匹配,对数据语义的挖掘不足,难以支持复杂业务的数据共享,难以实现数据关系的深度分析,因而无法准确分析用户意图,全面地返回查询结果。

技术实现思路

[0004]本专利技术针对现有的数据湖检索技术没有自动化的索引构建机制,没有利用原始数据中的隐含关联和知识,也缺乏对检索结果的智能排序的不足,提出一种基于语义的数据湖查询系统及方法,在数据湖元数据的支撑下,进行基于语义的数据查询和数据资源调用,能够有效适应数据湖中原始数据多源异构、动态变化和关联复杂的特点,在保证数据一致性的前提下,提升用户检索的灵活性和检索结果的全面性,对用户输入的查询请求,智能返回检索得到的知识实例结果。
[0005]本专利技术是通过以下技术方案实现的:
[0006]本专利技术涉及一种基于语义的数据湖查询系统,包括:标签识别模块、实体检索模块、实例推理模块和查询结果融合模块,其中:标签识别模块依托数据湖元模型索引顶层分类标签,对用户输入的查询语句文本进行命名实体识别,并进行语法树构建,输出查询请求涉及的语义标签集和对标签的筛选条件;实体检索模块按标签访问、筛选实体,并将筛选得到的实例知识图谱的实体子集与查询语义块进行深度匹配,链接到与所查询模式语义相关的实体后,经过语义扩展,生成候选实体集;实例推理模块访问、融合与前一步骤输出的实体相关联的实例的属性数据,并对实例进行多维度综合的排序,结合约束条件进行剪枝,从而缩小结果集;查询结果融合模块按照汇总查询语义标签信和排序评价维度的信息模板读取原始数据,封装为知识实例,将结构化的实例知识返回给用户。
[0007]所述的数据湖元数据包括:统一管理语义元模型层、实例知识图谱层和原始数据层,其中:层与层之间通过外键建立映射,支持准确提取;语义元模型层是OWL格式描述的分类分层的概念、属性与关联模型,是数据的全局目录索引;实例知识图谱层是以统一资源管理框架(RDF)描述的关联数据,通过统一资源描述符(URI)标识,对实时抽取和更新的实例
知识进行全局语义一致的存储。其中,实例知识包括从原始数据层抽取出的实例数据和历史查询语句结构模型。并通过历史查询语句结构模型对抽取颗粒度和封装结构进行调整;原始数据层是文本、图片、语音、视频等模态、多源异构的原始数据。
[0008]所述的标签识别模块根据用户查询语句和统一管理语义元模型中目录索引构成的顶层实体分类标签,经过词典匹配识别出粗粒度的实体;然后通过预训练的BERT模型在标注集上微调后,将用户输入的查询中每个语句嵌入表示为词向量和字向量,通过条件随机场层(CRF)使用上一层输出的得分及转移概率矩阵确定最优标签序列,从而获取从查询语句中能直接解析出的语义标签集合L
in
;再综合词典模型和深度学习模型的匹配结果,构建语法树,根据语法依存关系,识别针对该标签的筛选条件。
[0009]所述的实体检索模块,逐个按解析出的标签从该标签分类中进行实体筛选,并通过基于图嵌入的实体深度匹配,利用实例知识图谱中实体的上下文补充用户查询中的语义信息;通过语义扩展算法扩展实体集合,从而扩大召回,生成候选实体集,输入实例推理模块剪枝。
[0010]所述的实例知识图谱,是数据湖原始数据中自动识别出的命名实体和关联关系、属性经过统一标准化形成的网状知识结构,以关联数据的形式存储。该实例知识图谱的构建,是通过对各类原始数据进行具体预处理以及不同颗粒度的信息抽取,然后进行知识封装,最后经过词义消歧和实体匹配以解决大量知识在合并时存在的问题,保证知识的唯一性和准确性后进行知识融合处理得到。
[0011]所述的实体深度匹配通过最大化查询语句和筛选得到的实体在知识图谱中的语义块嵌入向量的余弦相似度来实现,即基于嵌入的深度匹配:使用G2S(Graph

to

Segment,基于语义块的知识图谱语义解析)模型,在融合多模态数据的实例知识图谱中实例知识节点和关联关系的信息的策略下,对标签筛选结果和查询请求的语义块,进行嵌入、基于注意力机制的对齐、序列解码,得到嵌入的向量,进行相似度匹配,然后使用语义扩展算法,扩充结果集,具体步骤如下:
[0012]步骤a)知识图谱节点实体嵌入为其邻接节点的拼接
[0013]步骤b)通过对语义块中节点的最大池化形成语义块子图的嵌入;
[0014]步骤c)采用双向门控循环网络(GRU)对语义块序列进行解码,隐状态s1=s
i+1
=GRU([Φ
(y)
(y
i
),c
i
],s
i
,),其中:Φ
(y)
(y
i
)为语义块的嵌入;
[0015]步骤d)基于注意力机制对向量进行对齐:知识图谱的节点注意力上下文向量下文向量其中:e
ij
=a(s
i
‑1,h
j
),a
ij
为每个节点表示的权重,a是作为对齐函数的前馈神经网络,作用是对位置j周围的输入节点和位置i处的输出匹配程度进行评分。
[0016]步骤e)最大化计算用户当前检索语句嵌入s
q
和知识图语义块嵌入s
h
的余弦相似度其中:q
i
,h
i
分别表示向量的各个分量,从而将查询匹配到知识图谱中的语义块。
[0017]步骤f)跨概念和实例层进行语义扩展:通过标签传播(LPA),来将上述候选实体集
RS膨胀为扩充集ES,其中:|ES|=γ
·
|RS|,γ为膨胀系数,γ∈[1,min(|neighborSet|)],即:由兴趣节点e(e∈ES)向有同义或上下位关系关联的邻接节点e

(e

∈实例知识图谱KG)发送消息,邻接节点接收消息,更新节点的实体标签集为累加权重最大的标签或标签集,当权重相等则随机选择;在标签稳定之后,实体与标签相关联;使用窗口衰减的滑窗从匹配度权重最高的实体e1的邻居开始,扩充结果集,从而在知识图谱中提高检索的召回率,具体包括:
[0018]步骤1、在e1邻域中选择邻居节点Nei(e1),Nei(e1)≠e1作为监听节点;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义的数据湖查询系统,其特征在于,包括:标签识别模块、实体检索模块、实例推理模块和查询结果融合模块,其中:标签识别模块依托数据湖元模型索引顶层分类标签,对用户输入的查询语句文本进行命名实体识别,并进行语法树构建,输出查询请求涉及的语义标签集和对标签的筛选条件;实体检索模块按标签访问、筛选实体,并将筛选得到的实例知识图谱的实体子集与查询语义块进行深度匹配,链接到与所查询模式语义相关的实体后,经过语义扩展,生成候选实体集;实例推理模块访问、融合与前一步骤输出的实体相关联的实例的属性数据,并对实例进行多维度综合的排序,结合约束条件进行剪枝,从而缩小结果集;查询结果融合模块按照汇总查询语义标签信和排序评价维度的信息模板读取原始数据,封装为知识实例,将结构化的实例知识返回给用户;所述的数据湖元数据包括:统一管理语义元模型层、实例知识图谱层和原始数据层,其中:层与层之间通过外键建立映射,支持准确提取,语义元模型层是OWL格式描述的分类分层的概念、属性与关联模型,是数据的全局目录索引;实例知识图谱层是以统一资源管理框架(RDF)描述的关联数据,通过统一资源描述符(URI)标识,对实时抽取和更新的实例知识进行全局语义一致的存储;其中,实例知识包括从原始数据层抽取出的实例数据和历史查询语句结构模型;并通过历史查询语句结构模型对抽取颗粒度和封装结构进行调整;原始数据层是文本、图片、语音、视频等模态、多源异构的原始数据。2.根据权利要求1所述的基于语义的数据湖查询系统,其特征是,所述的标签识别模块根据用户查询语句和统一管理语义元模型中目录索引构成的顶层实体分类标签,经过词典匹配识别出粗粒度的实体;然后通过预训练的BERT模型在标注集上微调后,将用户输入的查询中每个语句嵌入表示为词向量和字向量,通过条件随机场层(CRF)使用上一层输出的得分及转移概率矩阵确定最优标签序列,从而获取从查询语句中能直接解析出的语义标签集合L
in
;再综合词典模型和深度学习模型的匹配结果,构建语法树,根据语法依存关系,识别针对该标签的筛选条件。3.根据权利要求1所述的基于语义的数据湖查询系统,其特征是,所述的实体检索模块,逐个按解析出的标签从该标签分类中进行实体筛选,并通过基于图嵌入的实体深度匹配,利用实例知识图谱中实体的上下文补充用户查询中的语义信息;通过语义扩展算法扩展实体集合,从而扩大召回,生成候选实体集,输入实例推理模块剪枝;所述的实例知识图谱,是数据湖原始数据中自动识别出的命名实体和关联关系、属性经过统一标准化形成的网状知识结构,以关联数据的形式存储,该实例知识图谱通过通过对各类原始数据进行具体预处理以及不同颗粒度的信息抽取,然后进行知识封装,最后经过词义消歧和实体匹配以解决大量知识在合并时存在的问题,保证知识的唯一性和准确性后进行知识融合处理得到。4.根据权利要求3所述的基于语义的数据湖查询系统,其特征是,所述的实体深度匹配,通过最大化查询语句和筛选得到的实体在知识图谱中的语义块嵌入向量的余弦相似度来实现,即基于嵌入的深度匹配,使用G2S模型,在融合多模态数据的实例知识图谱的实例知识节点和关联关系的信息的策略下,进行对标签筛选结果和查询请求的语义块,进行嵌入、基于注意力机制的对齐、序列解码,得到嵌入的向量进行相似度匹配,然后使用语义扩展算法,扩充结果集,具体步骤如下:步骤a)知识图谱节点实体嵌入为其邻接节点的拼接
步骤b)通过对语义块中节点的最大池化形成语义块子图的嵌入;步骤c)采用双向门控循环网络(GRU)对语义块序列进行解码,隐状态步骤c)采用双向门控循环网络(GRU)对语义块序列进行解码,隐状态s
i+1
=GRU([Φ
(y)
(y
i
),c
i
],s
i
,),其中:Φ
(y)
(y
i
)为语义块的嵌入;步骤d)基于注意力机制对向量进行对齐:知识图谱的节点注意力上下文向量其中:e
ij
=a(s
i
‑1,h
j
),a
ij
为每个节点表示的权重,a是作为对齐函数的前馈神经网络,作用是对位置j周围的输入节点和位置i处的输出匹配程度进行评分;步骤e)最大化计算用户当前检索语句嵌入s
q
和知识图语义块嵌入s
h
...

【专利技术属性】
技术研发人员:蔡鸿明张莞悦于晗姜丽红
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1