【技术实现步骤摘要】
一种基于最大区域网格的语义数据存储与检索的方法及装置
本专利技术涉及数据库
,尤其涉及一种基于最大区域网格的语义数据存储与检索的方法及装置。
技术介绍
在传统的关系型数据库中,存在语义数据存放方面存在字段多、高耦合、关联复杂、冗余度高和查询检索负责等缺点。而知识图谱是一种高效的信息关系组织与管理方法,其具备注重语义表达、机器可理解、关联清晰、冗余度低、查询高效和数据模式可动态变化等优势,易于将结构化、非结构化、半结构化多源异构信息解除孤岛并有机融合在一起,不仅提升了满足实际需要的应用效能,而且还能获得更多的增值能力。其中具体包括了语义理解、智能搜索、关联关系和趋势分析等。而资源描述框架(ResourceDescriptionFramework,RDF)是知识图谱的一种典型数据组织形式,RDF主要是将数据的组织关系描述为“实体-关系-实体”的信息三元组,再将自然语言转换计算机可理解和表达的“主体-谓词-客体”描述。随着知识图谱相关技术发展,目前的RDF方案中的语义数据规模不断扩大,而采用传统方式执行查询往往造成数 ...
【技术保护点】
1.一种基于最大区域网格的语义数据存储与检索的方法,其特征在于,包括:/n步骤一、从待处理的语义数据中提取语义实体,并对语义实体进行数据编码,得到语义图;/n步骤二、利用所得到的语义图进行最大网格搜索挖掘,获取包含最大连通网格的实体顶点的集合,并根据所述集合得到最大连通网格的索引;/n步骤三、对最大区域网格内的实体顶点进行聚类处理,其中,聚类结果中包括:构建簇间关系表、簇描述表和簇中心顶点表;/n步骤四、利用所述聚类结果,输入通用的检索条件,利用步骤二和步骤三建立的索引与聚类过程中存储的信息,利用条件匹配处理检索请求。/n
【技术特征摘要】
1.一种基于最大区域网格的语义数据存储与检索的方法,其特征在于,包括:
步骤一、从待处理的语义数据中提取语义实体,并对语义实体进行数据编码,得到语义图;
步骤二、利用所得到的语义图进行最大网格搜索挖掘,获取包含最大连通网格的实体顶点的集合,并根据所述集合得到最大连通网格的索引;
步骤三、对最大区域网格内的实体顶点进行聚类处理,其中,聚类结果中包括:构建簇间关系表、簇描述表和簇中心顶点表;
步骤四、利用所述聚类结果,输入通用的检索条件,利用步骤二和步骤三建立的索引与聚类过程中存储的信息,利用条件匹配处理检索请求。
2.根据权利要求1所述的方法,其特征在于,所述步骤一包括:
根据所述语义实体生成哈希码,并建立被处理的语义实体与各自的哈希码映射关系;
利用所得到的哈希码生成RDF语义图,其中,在所述RDF语义图中,各个哈希码按照语义索引结构排列。
3.根据权利要求2所述的方法,其特征在于,哈希码生成的系数为31,所得到的哈希码表示为:h(s),其中,n表示s的长度,s表示整个需要哈希的数据内容,i为正整数且表示s的第i个要素。
4.根据权利要求1所述的方法,其特征在于,所述步骤二中,利用所得到的语义图进行最大网格搜索挖掘,包括:
对最大网格集合(CMC)和可扩展的候选顶点集合(SUBG)进行初始化,其中,SUBG=V,其中,V表示所有顶点组成的集合;
选择一个顶点v,并计算CMC=CMC∪v且SUBG=SUBG∩NB(v)的结果,并对集合CMC迭代扩展直到满足其中,v∈SUBG,NB(v)表示顶点v的相邻顶点集合。
5.根据权利要求4所述的方法,其特征在于,所述步骤二中,获取包含最大连通网格的实体顶点的集合,并根据所述集合得到最大连通网格的索引,包括:
对V中的元素所指向的每个最大网格进行数值编码,得到每个网格的GID,其中,一个网格的GID表示这一个网格的唯一的数字编号;
将网格内每个顶点...
【专利技术属性】
技术研发人员:李彭伟,李亚钊,冯燕来,李子,欧阳慈,阚凌志,李文强,陈娜,卢丹,周兆昕,
申请(专利权)人:中国电子科技集团公司第二十八研究所,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。