【技术实现步骤摘要】
改进RDF的互联网大数据关键字词搜索方法
[0001]本申请涉及一种网络大数据关键字词检索方法,特别涉及一种改进RDF的互联网大数据关键字词搜索方法,属于网络信息语义检索
技术介绍
[0002]当前互联网规模越来越大,伴之而来的就是信息量急剧增加的问题,大量的信息让管理人员组织起来毫无头绪,根本原因就是网上的信息基本都呈现在HTML网页上,而这些网页组织松散、结构简单,并没有形成统一的结构化网页。这能够使得网站创建者更加容易的创建网站,设计网页,但同时在Web上的查询和精确定位的工作很难进行。为解决信息的结构化问题,推出了XML,并提出了辅助语言XSL用来展示XML,这使得网上的信息结构化并且可以多样化的显示出来。仅仅是为了将网页信息结构化,XML只包含了相关结构信息,并没有对语义的陈述,这对于计算机在网上的查询工作并没有作用。计算机能够通过XML分析网页信息结构,但并不能够自行理解具体的语义,所以让互联网自动化分析网页信息是很容易出错误的。如果网页信息除了采用XML带来的结构化之外还拥有让计算机读懂的语义信息,这种语义属性就能够让计算机有所依据,将能够搜索到的符合查询关键字词语义的网页信息整理在一起,那么返回的查询结果就更能匹配用户输入的关键字词需求。
[0003]语义网的最终目的就是让计算机领会Web上的信息语义,就要给计算机提供用来表述Web 数据的元数据,而RDF作为通用的元数据模型正好符合要求。当今计算机产物中语义网领域极速发展,随之而来的就是语义数据数量的极度扩张。目前对于所有的用本体语 ...
【技术保护点】
【技术特征摘要】
1.改进RDF的互联网大数据关键字词搜索方法,其特征在于,首先对RDF数据的三元组提取,并通过提取出来的资源、属性、属性值建立图数据;然后基于向后拓展算法进行改进,用双向拓展算法来实现在RDF图数据上的关键字词搜索,并解析数据结构和特有活力值;最后对向后拓展算法和双向拓展算法进行分析融合并在此基础上利用增加索引和图分割在RDF图数据上的关键字词搜索,并实现图搜索策略、索引和算法,包括:一是大数据关键字词搜索定义,二是最佳图RDF搜索策略,三是单级索引关键字词探索,四是二级索引大数据探索,具体包括:块内关键字词索引、大数据块索引、RDF图分割、二级索引搜索算法;1)基于RDF文件实例修改RDF数据的规则、元素、容器,定义RDF数据的结构特征以方便解决RDF数据三元组提取问题;采用提取出来的三元组中的主语、宾语建点,谓语建边,实现RDF数据三元组的提取和建图;2)针对向后拓展算法会访问大量不必要访问图结点的缺点,提出双向拓展算法,在查询模型上采用入迭代器、出迭代器,生成结果集,并采用扩散活力值的方式将搜索优先处理;3)改进融合向后拓展搜索和双向拓展搜索策略,提出最佳向后拓展搜索策略的簇间花费平衡拓展策略,在数据图中加索引以达到显著减少实现最佳向后拓展搜索策略的运行花费的目的;最后针对大图提出图分割策略,采用二级索引搜索算法,并实现块内关键字词搜索和块间关键字词搜索。2.根据权利要求1所述改进RDF的互联网大数据关键字词搜索方法,其特征在于,大数据关键字词搜索定义:网络大数据查询:把查询放在一个有向图G=(V,E)上进行,每个属于V的结点v带有一些文本标记,一次关键字词查询q包含一系列查询关键字词(w1,w2,
…
,w
m
),定义一个q的答案如下:定义1:给定一个查询q=(w1,w2,
…
,w
m
)和一个有向图G,q的一个答案是一对<r,(n1,n2,
…
,n
m
)>,i和n
i
是图G中满足下列特征的结点:1)覆盖范围:对于每一个i,结点n包含关键字词w
i
;2)连通性:对于每一个i,在图G中存在一条有向路径从i到n
i
;r为这个答案的根,n
i
是答案的匹配项,连通性答案是一个根结点能够到达所有关键字词的子树;Top
‑
k查询:改进后的算法考虑到对于一个查询,找到排名靠前的答案,答案的好坏通过得分模型衡量,得分模型给每个答案匹配一个数字分数,得到的分数越高表明这个答案更好;定义2:给定一个查询和一个得分模型S,一个结点r的得分是所有以r为根结点的所有答案T中的最高得分S(T),把r当作根结点的拥有最高得分的答案是做把r当作根结点的一个最优答案,一个top
‑
k查询返回图中最高得分的k个结点并且对于每个被返回的结点,都对应一个最高得分和一个最优答案树,k个最优答案有不同的根结点;得分模型:形式上定义查询q=(w1,w2,
…
,w
m
)的一个答案T=<r,(n1,n2,
…
,n
m
)>的得分S(T)是由三部分决定,分别是答案根结点r、匹配项n
i
、从根结点r到每一个匹配关键字词结点n
i
的最短路径距离,得分模型采用匹配
‑
分布式语义论,对S(T)的定义中由匹配项和根结点到匹配项路径对于最后得分的净贡献通过所有匹配项求和的分布式方式计算,所有根结
点到匹配项路径对于最后得分的贡献独立;得分模型基于图
‑
距离语义论,在S(T)的定义中,根结点到匹配项路径的得分贡献在数据图中从根结点到匹配项的最短路径。3.根据权利要求1所述改进RDF的互联网大数据关键字词搜索方法,其特征在于,最佳图RDF搜索策略:首先分析向后拓展算法和双向拓展算法的特征并考虑在此基础上进行改进,目的是找到趋向最佳图RDF搜索策略;向后搜索:图的连通性信息只能提供一段单跳,完成查询通过从包含至少一个查询关键字词的结点开始探索这个图,这样的结点很容易通过结点信息列表被找到,形成向后搜索拓展算法;双向搜索:在向后拓展的基础上新增了沿着前进边探索图的选择,算法被允许从结点u向前拓展到k2,更快地确定结点u就是一个答案的根结点,通过探索的活力因素给结点赋予优先次序,评估一个结点有多大的可能是根结点;最佳图搜索改进两个方面:一是改进簇间的拓展策略,为最坏情况性能提供可证明边界的策略,即花费平衡策略;然后采用预计算提供的索引为查询中的向前拓展提供支持,基于直接得出一个结点能否扩展到某个关键字词而且得到相应的最短距离,消除一步一步向前拓展的不确定性和低效率;二是簇间花费平衡拓展,尝试平衡每个簇访问结点的数量,下一个要扩展的簇E
i
是基数最小的簇,这个策略用来与簇中等距离拓展结合采用,一旦选择要拓展的最小的簇,就在这个簇中选择距离簇最短距离的结点进行拓展。4.根据权利要求1所述改进RDF的互联网大数据关键字词搜索方法,其特征在于,单级索引关键字词探索:对于每一个关键字词,对数据图中每一个结点到关键字词的最短距离进行预计算,结果是一组关键字词
‑
结点列表,针对用户列举出来的所有关键字词w,L
KN
(w)归纳出达到关键字词w的结点列表,并且所有结点是按照到达w的距离排序,列表中的每一项都有距离、结点、邻接结点、关键字词结点四个字段,其中距离是该结点到一个包含w的结点的最短距离;关键字词结点是包含w的结点;邻接结点从结点到关键字词结点路径上经过的第一个结点,对于每一个结点u,预计算从u到每一个关键字词的最短距离,并且将这些信息总结在一个哈希表M
KN
中,给定一个结点u和一个关键字词w,M
KN
(u,w)返回从结点u到关键字词w的最短距离,如果u不能到达任何包含w的关键字词结点,那么返回无穷大。5.根据权利要求4所述改进RDF的互联网大数据关键字词搜索方法,其特征在于,单级索引关键字词探索算法流程:给定一个查询q=(w1,w2,
…
,w
m
),采用一个游标来横穿每个关键字词
‑
结点列表L
KN
(w
i
),游标c
i
在列表L
KN
(w
i
)上通过调用next函数前进,next函数返回列表中下一个列表中保存的最短距离,该结构列表满足簇中等距离拓展,在簇间采用游标以轮询调度的方式实现了簇间花费平衡拓展,另外,采用M
KN
以一种直接方式来执行向前拓展的部分,当一到达某个结点就查找它到所有除了当前关键字词的距离,用这种方式立即确定是否发现答案的根结点,对于每个在访问的结点构造一个结构体(root,dist1,dist2,
…
,dist
m
),其中root是在访问的结点,dist
i
是这个结点到关键字词w
i
的距离,如果有dist
i
无穷大,那么这个结点就不是答案根结点,它不能到达w
i
,如果所有距离都不是无穷大,那么就已找到答案根结点,通过一个临界值T
prune
来实现找到top
‑
k结果,临界值T
prune
是当前所有得到的结果树距离和中第k小的值,对于每一个新的答案,必须小于这个临界值,同时对于每个簇内的扩展,如果现有的距离和已经大于这个临界值,不再继续拓展。6.根据权利要求1所述改进RDF的互联网大数据关键字词搜索方法,其特征在于,二级
索引大数据探索:采用分而治之的方法创建一个二级索引结构,首先将一张数据图划分为多个子图,一个二级索引包含一个上层大数据块索引和对应每一个块的块内索引,分别用来储存关键字词和结点对块的映射,和用来储存...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。