【技术实现步骤摘要】
本专利技术涉及一种结合Redis内存数据库的分布式RDF关键词近似搜索方法。
技术介绍
随着语义网的快速发展,资源描述框架(ResourceDescriptionFramework,RDF)作为语义数据的描述标准被广泛应用。众多机构和项目均采用RDF来表达元数据,如Wikipedia、DBLP、IBM的“智慧地球”项目。面对如此爆炸式增长的数据压力,如何存储和搜索大规模RDF数据成为亟待解决的问题。传统的存储技术在日益增长的数据面前暴露出许多不可克服的问题。然而结构简单的Redis数据库在存储海量的RDF数据时也能具备优秀的性能,满足了大规模RDF数据储存的需求。关键词搜索作为一种从RDF数据图检索信息的有效途径,普通用户在不需要熟悉任何标准的查询语言结构和底层数据模式的情况下就能快速有效地检索数据。根据查询处理方式的不同,RDF上的关键词查询大致可以分为两类。第一类是由关键词构造出形式化查询语句再得到查询结果。该类方法通常包括关键词映射、构建查询和查询排序三大步骤。GkirtzouK等人结合数据图将包含用户查询关键词的子图映射并翻译成SPARQL查询语句,进行查询操作后返回结果。但是这类方法需要构建关键词索引和数据图的模式索引,又要构建形式化查询语句,难于满足海量RDF数据存储和搜索的需求。第二类是由关键词直接构造查询的结果。这类方法通常需要借助有效的索引来快速定位子图并搜索结果,最常用的索引是倒排索引。文献以实体三元组关联图为模型,封装文本信息到关联图顶点标签上,利用斯坦纳树问题的近似算法解决RDF数据的关键词查询问题。但是这类方法需要构建并维护索引 ...
【技术保护点】
一种结合Redis内存数据库的分布式RDF关键词近似搜索方法,其特征在于,包括以下步骤:步骤S1:对RDF本体和RDF实例数据进行预处理,并生成相应的文件;步骤S2:结合Redis分布式数据库集群的特点,将步骤S1中生成的文件内容分门别类地存储在Redis数据库集群的Set集合中;步骤S3:根据RDF本体信息和输入的关键词集合Q,先把关键词映射成对应的类或属性,然后在本体图上找到类或属性匹配的模式三元组,对所述模式三元组进行三元组连接,生成关键词集合对应的本体子图;步骤S4:利用语义评分函数对构建的本体子图进行打分并排序,得分高的优先进行分布式搜索,跳到步骤S5;步骤S5:Map阶段搜索本体子图中各个模式三元组对应的实例三元组;步骤S6:Reduce阶段则将接收到的实例三元组进行连接,得到结果子图,并返回结果子图;步骤S7:判断结果子图中的实例三元组是否达到k条,如果已经达到,则结束搜索,跳到步骤S12,否则跳到步骤S8;步骤S8:判断是否还有本体子图没有进行分布式搜索,如果有,则跳到步骤S4,否则跳到步骤S9;步骤S9:判断是否有扩展后的近似本体子图未进行分布式搜索,如果有,则跳到步 ...
【技术特征摘要】
1.一种结合Redis内存数据库的分布式RDF关键词近似搜索方法,其特征在于,包括以下步骤:步骤S1:对RDF本体和RDF实例数据进行预处理,并生成相应的文件;步骤S2:结合Redis分布式数据库集群的特点,将步骤S1中生成的文件内容分门别类地存储在Redis数据库集群的Set集合中;步骤S3:根据RDF本体信息和输入的关键词集合Q,先把关键词映射成对应的类或属性,然后在本体图上找到类或属性匹配的模式三元组,对所述模式三元组进行三元组连接,生成关键词集合对应的本体子图;步骤S4:利用语义评分函数对构建的本体子图进行打分并排序,得分高的优先进行分布式搜索,跳到步骤S5;步骤S5:Map阶段搜索本体子图中各个模式三元组对应的实例三元组;步骤S6:Reduce阶段则将接收到的实例三元组进行连接,得到结果子图,并返回结果子图;步骤S7:判断结果子图...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。