基于分布式数据库系统的知识图谱路径推理方法及系统技术方案

技术编号:33737890 阅读:74 留言:0更新日期:2022-06-08 21:35
本发明专利技术属于知识图谱技术领域,涉及一种基于分布式数据库系统的知识图谱路径推理方法、系统及其应用。本方法是一种基于GreenPlum分布式数据库系统和Madlib环境实现知识图谱路径推理的方法,本方法以GreenPlum分布式数据库系统作为知识图谱数据的存储系统,通过图谱关系的文本分类、统一相似关系、机器学习和逻辑回归,构建出具有真实物理意义的特征矩阵,实现了全量路径的并行查找以及深层路径关系的推理分析。作为一种兼容大数据及图计算的全新的知识图谱路径推理方法,本方法能够实现对知识图谱的深层路径关系的推理分析,经过数据集验证,本方法能够实现高效计算、并提高路径推理的准确率。推理的准确率。推理的准确率。

【技术实现步骤摘要】
基于分布式数据库系统的知识图谱路径推理方法及系统


[0001]本专利技术属于知识图谱
,尤其涉及一种基于分布式数据库系统的知识图谱路径推理方法、系统及其应用。

技术介绍

[0002]随着大数据和人工智能技术的发展,万物互联思想已逐步应用在众多领域,知识图谱技术应运而生。知识图谱(Knowledge Graph),本质上是一种揭示实体之间关系的语义网络,是由一条条知识组成,每条知识表示为一个SPO三元组(Subject

Predicate

Object)。换言之,知识图谱是图结构的数据集,在逻辑结构上分为模式层与数据层两个层次,数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。目前,大多以三元组(es, r, eo)的形式存储事实,其中es和eo分别表示主语和宾语实体,r表示它们之间的关系,例如(实体1,关系,实体2)、(实体、属性,属性值)等。一般来说,知识图谱中存储的事实通常是不完备的,随着知识体系发展和更新,需要对知识图谱进行补充和完善,然而,对知识图谱实施人工补全费时费力,且难以实本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于分布式数据库系统的知识图谱路径推理方法,其特征在于,所述方法包括:确定源数据和目标数据,枚举从源数据到目标数据的全部可达关系路径,记录每条关系路径数据形成不定长数组A[n],对不定长数组A[n]中的元素进行NLP分析;选择图谱库中的对比样本,枚举该对比样本中每条数据与该对比样本中其他各数据之间的全部可达关系路径,记录每条关系路径数据形成不定长数组B[n],对比并计算每个A[n]与B[n]的路径相似度,获得计算结果;利用上步获得的计算结果形成数据矩阵,将所述数据矩阵与已知因变量结合构建出训练数据表;使用Madlib对上步构建的训练数据表进行逻辑回归训练,得到已训练模型;记录待预测的关系路径数据形成不定长数组C[n],对比并计算每个A[n]与C[n]的路径相似度,获得计算结果并形成待预测数据矩阵,将所述待预测数据矩阵与已知因变量结合构建出待预测训练数据表,利用上步已训练模型对所述待预测训练数据表进行逻辑回归预测,即得到待预测数据从源数据到目标数据关系成立的概率。2.根据权利要求1所述的知识图谱路径推理方法,其特征在于,所述不定长数组A[n]中的元素即为源数据与目标数据之间每条关系路径包含的关系内容。3.根据权利要求1所述的知识图谱路径推理方法,其特征在于,所述对不定长数组A[n]中的元素进行NLP分析包括统一相似关系类别和剔除异常关系及极少数关系。4.根据权利要求1所述的知识图谱路径推理方法,其特征在于,所述NLP分析包括文本分类、文本分析、语义分析、情感分析、意图识别。5.根据权利要求4所述的知识图谱路径推理方...

【专利技术属性】
技术研发人员:刘昊松肖红正冯进魏涛
申请(专利权)人:中电云数智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1