基于哈希寻址的知识图谱存储方法技术

技术编号:22755068 阅读:21 留言:0更新日期:2019-12-07 03:58
本发明专利技术提供一种基于哈希寻址的知识图谱存储方法,方法包括:获取知识图谱;对所述知识图谱进行存储;其中,所述知识图谱中实体的数据结构包括数据和链接数组;所述链接数组包括一个或多个链接,每个所述链接包括链接名称和所述实体链接到的实体的Hash;所述数据为所述实体的信息。本发明专利技术实现了基于哈希寻址的知识图谱存储方式,提高了更新和查询速度,避免了资源的冗余存储,大大降低了存储消耗。

Storage method of knowledge map based on Hash addressing

The invention provides a knowledge map storage method based on Hash addressing, the method includes: acquiring knowledge map; storing the knowledge map; wherein, the data structure of the entity in the knowledge map includes data and link array; the link array includes one or more links, each of which includes the link name and the hash of the entity to which the entity is linked; The data is information of the entity. The invention realizes the storage mode of knowledge map based on Hash addressing, improves the update and query speed, avoids redundant storage of resources, and greatly reduces the storage consumption.

【技术实现步骤摘要】
基于哈希寻址的知识图谱存储方法
本专利技术属于分布式知识组织
,尤其涉及一种基于哈希寻址的知识图谱存储方法。
技术介绍
随着人工智能技术的发展和应用,知识图谱在学术界和工业界都得到了重视,目前知识图谱在智能搜索、智能问答、个性化推荐、内容分发等领域均有应用。知识图谱旨在描述真实世界中存在的各种实体及其关系,构成一张巨大的语义网络图,节点表示概念或实例,边则由关系或属性构成。知识图谱一般采用关系数据库、图数据库、键值数据库或文档数据库等作为最基本的存储引擎。图数据库的优点在于能够直观的表示知识图谱结构,图中的节点表示知识图谱的实体,图中的边表示知识图谱的实体关系;其缺点是图数据库的更新比较复杂,数据更新和查询速度比较慢,而且对于超大节点,即边数多的节点的操作速度将大大降低。随着数据量的增加,关系越加复杂,知识图谱需要处理的数据之间的关系随数据量呈几何级数增长。综上所述,传统图数据库存在更新和查询速度慢、资源重复等问题。因此,亟需一种新的、更高效的方式来表示和寻址知识图谱。
技术实现思路
为克服上述现有的知识图谱存储方法更新和查询速度慢的问题或者至少部分地解决上述问题,本专利技术实施例提供一种基于哈希寻址的知识图谱存储方法。根据本专利技术实施例的第一方面,提供一种基于哈希寻址的知识图谱存储方法,包括:获取知识图谱;对所述知识图谱进行存储;其中,所述知识图谱中实体的数据结构均包括数据和链接数组;所述链接数组包括一个或多个链接,每个所述链接中包括链接名称和所述实体链接到的实体的Hash;所述数据为所述实体的信息。根据本专利技术实施例的第二个方面,还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器调用所述程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的基于哈希寻址的知识图谱存储方法。本专利技术实施例提供一种基于哈希寻址的知识图谱存储方法,该方法通过对特定数据结构的知识图谱进行存储,知识图谱中每个实体的数据结构包括数据和链接数组,每个链接数组中包括一个或多个链接,每个链接包括链接名称和实体链接到的实体的Hash,数据中存储实体的信息,从而实现了基于哈希寻址的知识图谱存储方式,一方面,将知识图谱复杂的非线性有向图结构转换为线性的数组结构,避免了资源的冗余存储,大大降低了存储消耗;另一方面,通过数据结构中实体的Hash值可以快速查找存储的实体,提高了更新和查询速度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的基于哈希寻址的知识图谱存储方法整体流程示意图;图2为本专利技术提供的基于哈希寻址的知识图谱存储方法中实体的资源连接示意图;图3为本专利技术提供的基于哈希寻址的知识图谱存储方法中添加链接和实体的示意图;图4为本专利技术提供的基于哈希寻址的知识图谱存储方法中删除链接的示意图;图5为本专利技术提供的基于哈希寻址的知识图谱存储方法中更新实体的示意图;图6为本专利技术提供的基于哈希寻址的知识图谱存储方法中重名实体存储机制的示意图;图7为本专利技术实施例提供的电子设备整体结构示意图。具体实施方式为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在本专利技术的一个实施例中提供一种基于哈希寻址的知识图谱存储方法,图1为本专利技术实施例提供的基于哈希寻址的知识图谱存储方法整体流程示意图,该方法包括:S101,获取知识图谱;S102,对所述知识图谱进行存储;其中,所述知识图谱中实体的数据结构均包括数据和链接数组;所述链接数组包括一个或多个链接,每个所述链接中包括链接名称和所述实体链接到的实体的Hash;所述数据为所述实体的信息。其中,实体采用如下的数据结构进行描述:Data:表示实体的信息,如资源内容或非链接属性;Links:一个Link数据结构的数组,实体通过Link链接到其他实体;Link数据结构包含两个域:Name:Link的名称;Hash:Link链接到的实体的Hash。现有技术中知识图谱为复杂的非线性有向图结构,本实施例将知识图谱的数据结构表示为线性的数组结构,在根据知识图谱的数据结构进行物理存储时占用更少的存储空间。本实施例通过对特定数据结构的知识图谱进行存储,知识图谱中每个实体的数据结构包括数据和链接数组,每个链接数组中包括一个或多个链接,每个链接包括链接名称和实体链接到的实体的Hash,数据中存储实体的信息,从而实现了基于哈希寻址的知识图谱存储方式,一方面,将知识图谱复杂的非线性有向图结构转换为线性的数组结构,避免了资源的冗余存储,大大降低了存储消耗;另一方面,通过数据结构中实体的Hash值可以快速查找存储的实体,提高了更新和查询速度。在上述实施例的基础上,本实施例中所述知识图谱中的实体包括资源实体和非资源实体;若所述链接到的实体为资源实体,则所述链接到的实体的Hash为所述链接到的实体内容的Hash;若所述链接到的实体为非资源实体,则所述链接到的实体的Hash为所述链接到的实体名称的Hash;所述资源实体的信息为所述资源实体的资源内容,为非结构数据;所述非资源实体的信息为所述非资源实体的非链接属性,为数组结构;所述数组结构中的每个元素包括所述非链接属性的关键码和所述非链接属性的值,所述非链接属性的关键码为所述非链接属性的哈希值;所述链接名称为所述实体和所述实体所链接到的实体之间关系的哈希值。本实施例将知识图谱中的实体划分为资源实体和非资源实体,其中,资源实体如图片资源和网页资源等。非资源实体为概念或实例,如人类、某人和某地等。本实施例对知识图谱中实体的数据结构进行描述。根据知识图谱中的关系是有环的这一特点,将知识图谱表示成有向图。由于知识图谱的表达方式为主体-属性-客体,在本实施例中将主体称为链接出发节点,将关系称为链接,将客体称为链接到的节点。资源实体和非资源实体的数据结构均包括数据Data和链接数组Links。对资源实体,采用如下的数据结构进行描述:Data:非结构数据,表示资源实体的资源内容;Links:一个Link数据结构的数组,实体通过Link链接到其他实体;Link数据结构包含两个域:Name:Link的名称;Hash:Link链接到的实体的Hash。对于非资源实体的数据结构,扩展了Links域,重新定义了Data域,从而使之更加适应知识图谱的实体与关系表示。首先定义以本文档来自技高网...

【技术保护点】
1.一种基于哈希寻址的知识图谱存储方法,其特征在于,包括:/n获取知识图谱;/n对所述知识图谱进行存储;/n其中,所述知识图谱中实体的数据结构包括数据和链接数组;/n所述链接数组包括一个或多个链接,每个所述链接包括链接名称和所述实体链接到的实体的Hash;/n所述数据为所述实体的信息。/n

【技术特征摘要】
1.一种基于哈希寻址的知识图谱存储方法,其特征在于,包括:
获取知识图谱;
对所述知识图谱进行存储;
其中,所述知识图谱中实体的数据结构包括数据和链接数组;
所述链接数组包括一个或多个链接,每个所述链接包括链接名称和所述实体链接到的实体的Hash;
所述数据为所述实体的信息。


2.根据权利要求1所述的基于哈希寻址的知识图谱存储方法,其特征在于,所述知识图谱中的实体包括资源实体和非资源实体;
若所述链接到的实体为资源实体,则所述链接到的实体的Hash为所述链接到的实体内容的Hash;
若所述链接到的实体为非资源实体,则所述链接到的实体的Hash为所述链接到的实体名称的Hash;
所述资源实体的信息为所述资源实体的资源内容,为非结构数据;
所述非资源实体的信息为所述非资源实体的非链接属性,为数组结构;
所述数组结构中的每个元素包括所述非链接属性的关键码和所述非链接属性的值,所述非链接属性的关键码为所述非链接属性的哈希值;
所述链接名称为所述实体和所述实体所链接到的实体之间关系的哈希值。


3.根据权利要求1所述的基于哈希寻址的知识图谱存储方法,其特征在于,还包括通过以下步骤在所述知识图谱中添加实体和链接:
判断待添加链接的实体待链接到的实体在所述知识图谱中是否存在,若否,则创建所述待链接到的实体;
若是,则将所述待添加链接的实体的哈希值作为输入进行寻址,获取所述待添加链接的实体;
将所述待链接到的实体的Hash和待添加链接的名称的Hash组合成链接类型的对象;
将所述链接类型的对象追加在所述待添加链接的实体的链接数组末尾。


4.根据权利要求3所述的基于哈希寻址的知识图谱存储方法,其特征在于,将所述待添加链接的实体的哈希值作为输入进行寻址,获取所述待添加链接的实体的步骤具体包括:
查找发起查找请求的节点中是否存储所述待添加链接的实体,若是,则返回所述发起查找请求的节点ID;若否,则返回关键码距离所述发起查找请求的节点的关键码最近的预设个数的节点,并向所述预设个数的节点发送查找请求;
接收到所述查找请求的节点检查自身是否存储所述待添加链接的实体,若是,则返回自身的节点ID;若否,则在自身对应的K-桶中返回关键码距离自身节点的关键码最近的预设个数的节点;
判断所述发起查找请求的节点是否接收到所述节点ID,若是,则查找结束;若否,则在所述发起查找请求...

【专利技术属性】
技术研发人员:商彦磊乔秀全刘舒何明会
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1