当前位置: 首页 > 专利查询>孟祥坤专利>正文

改进RDF的互联网大数据关键字词搜索方法技术

技术编号:35445269 阅读:16 留言:0更新日期:2022-11-03 11:57
本申请提出基于RDF图数据的关键字词查询搜索的步骤及每个步骤的算法流程,首先是对RDF数据的三元组提取,然后是对向后拓展算法的优缺点进行分析并在缺点上进行改进,用双向拓展算法来实现在RDF图数据上的关键字词搜索,并对算法中的数据结构和特有的活力值以及算法流程进行分析和解释;最后对向后拓展算法和双向拓展算法共有的缺点进行分析并在此基础上利用增加索引和图分割在RDF图数据上的关键字词搜索,并对图搜索策略、索引和算法进行分析。通过大数据关键字词搜索定义、最佳图RDF搜索策略、单级索引关键字词探索、二级索引大数据探索关键步骤和算法的改进,满足RDF海量数据关键字词搜索需求,查询检索高效准确。查询检索高效准确。查询检索高效准确。

【技术实现步骤摘要】
改进RDF的互联网大数据关键字词搜索方法


[0001]本申请涉及一种网络大数据关键字词检索方法,特别涉及一种改进RDF的互联网大数据关键字词搜索方法,属于网络信息语义检索


技术介绍

[0002]当前互联网规模越来越大,伴之而来的就是信息量急剧增加的问题,大量的信息让管理人员组织起来毫无头绪,根本原因就是网上的信息基本都呈现在HTML网页上,而这些网页组织松散、结构简单,并没有形成统一的结构化网页。这能够使得网站创建者更加容易的创建网站,设计网页,但同时在Web上的查询和精确定位的工作很难进行。为解决信息的结构化问题,推出了XML,并提出了辅助语言XSL用来展示XML,这使得网上的信息结构化并且可以多样化的显示出来。仅仅是为了将网页信息结构化,XML只包含了相关结构信息,并没有对语义的陈述,这对于计算机在网上的查询工作并没有作用。计算机能够通过XML分析网页信息结构,但并不能够自行理解具体的语义,所以让互联网自动化分析网页信息是很容易出错误的。如果网页信息除了采用XML带来的结构化之外还拥有让计算机读懂的语义信息,这种语义属性就能够让计算机有所依据,将能够搜索到的符合查询关键字词语义的网页信息整理在一起,那么返回的查询结果就更能匹配用户输入的关键字词需求。
[0003]语义网的最终目的就是让计算机领会Web上的信息语义,就要给计算机提供用来表述Web 数据的元数据,而RDF作为通用的元数据模型正好符合要求。当今计算机产物中语义网领域极速发展,随之而来的就是语义数据数量的极度扩张。目前对于所有的用本体语言表述,用主语、谓语、宾语结合体构成的数据,统称为RDF数据。
[0004]RDF能够给互联网上的一切应用定义相应的信息表述标准,对互联网中信息实行全方位表示的框架。RDF采用统一的主谓宾形式来表述网络上的资源信息,主语大都用统一资源标识符来代表互联网上的资源实体,用谓语来表示资源具备的一切属性,而用宾语来表示资源实体指向当前属性的属性值。这种标准下的表现方式能够让RDF描述互联网上所有带有统一资源标识符的资源信息,而且能够赋予RDF数据信息能够在互联网上各种应用之间交流但是并不失去其储存的语义的特性。由于上述原因,RDF就被列为该领域的规范,非结构化的数据数量成倍增加,对互联网上信息的语义要求增高,很多领域对于RDF的大量采用导致互联网上的RDF数据极速增多,相应的就衍生出许多数据量过大的RDF数据集。如此大规模的RDF 数据自然而然就会衍生出处理和查询的重要问题,而未来的数据量只会越来越大,这两个问题就会越来越显现出来。
[0005]随着RDF数据的涉及领域也不断扩张,越来越多的用户可能需要对网络文件进行查询,然而这些人并没有进行过查询语言和结构的相关学习,甚至一些相对简单的专门为非专业人员设计的查询语言对于这些用户来说都过于复杂,对于半结构化、XML、RDF数据的查询语言就更加复杂,那么怎样为非专业用户提供基于关键字词查询的方法是当下计算机相关领域学者急需解决的重大问题。所以改变专业人士采用过于复杂的查询语言来对RDF数据进行查询的传统方式,这样用户就没有必要为了完成网页查询而专门去学习并掌握查
询语言的语法规则和RDF数据的结构信息,用户只需要向计算机传达自己想要查询的关键字词就可以得到查询想要的结果,目前万维网的搜索引擎中采用关键字词进行查询的方法得到用户的青睐证明了用户更喜欢用简单易操作的查询方式。所以,对于越来越多的普通用户,基于关键字词的 RDF数据查询方法是万维网查询的必然趋势。
[0006]目前,在RDF数据中进行关键字查询获取信息的方法分为两类,一类由关键字查询构造形式化查询语句再得到查询结果,称为查询转换方法;另一类由关键字词查询直接从RDF数据中构造查询结果,称为直接查询方法。查询转换方法关注将关键字查询转换为形式化查询的过程。这类方法不需要建立大规模的结构索引而是依赖RDF模式信息确定查询关键字词之间的关联,但目前万维网上RDF数据大部分没有或者缺少模式信息。IQTQA抽取结构信息的时间开销大,并且,由于其响应时间等于查询转换时间加查询结果生成时间,实时响应速度并不理想。BLINKS不支持对边标签的图进行关键字词查询,无法处理用户将属性或者关系名作为关键字词进行查询的情况。
[0007]综上,网络大数据关键字词检索具有广泛的应用前景,但当前的网络信息语义检索方法,同时存在着亟待解决的技术难点,包括:
[0008](1)当前非结构化的数据数量成倍增加,对互联网上信息的语义要求增高,现有技术 RDF的大量使用导致互联网上的RDF数据极速增多,相应衍生出许多数据量过大的RDF数据集,如此大规模的RDF数据就会衍生出处理和查询的重要问题,而未来的数据量只会越来越大,这个问题就会越来越显现出来,现有技术缺少一种能够高效准确的应对大规模的RDF数据衍生出的处理和查询方法,现有技术复杂的查询语言对RDF数据关键字词检索带来较高困难,非专业人士几乎无法操作,造成RDF的互联网大数据关键字词搜索实用性很低。
[0009](2)RDF数据的涉及领域也不断扩张,越来越多的用户需要对网络文件进行查询,然而这些人并没有进行过查询语言和结构的学习,甚至专门为非专业人员设计的查询语言对于这些用户来说都过于复杂,对于半结构化、XML、RDF数据的查询语言就更加复杂,现有技术无法为非专业用户提供基于关键字词查询,需要采用过于复杂的查询语言来对RDF数据进行查询,用户需要为了完成网页查询而专门去学习并掌握查询语言的语法规则和RDF数据的结构信息,当前亟需一种用户只需要向计算机传达自己想要查询的关键字词就可以得到查询想要的结果,采用关键字词进行简单易操作的查询方式。
[0010](3)现有技术查询转换方法关注将关键字查询转换为形式化查询的过程,但目前万维网上RDF数据大部分没有或者缺少模式信息。现有技术IQTQA抽取结构信息的时间开销大,并且其响应时间等于查询转换时间加查询结果生成时间,实时响应速度并不理想。现有技术 BLINKS不支持对边标签的图进行关键字词查询,无法处理用户将属性或者关系名作为关键字词进行查询的情况,应用范围受限。现有技术缺少对RDF数据的规则、元素、容器等进行分析,RDF数据的结构特征不方便解决RDF数据三元组的提取问题;针对向后拓展算法可能会访问大量没必要访问的图结点的缺点,缺少对应的改进方案。在数据图中缺少索引造成最佳向后拓展搜索策略的运行花费大,针对大图的图分割策略效果较差,速度很慢。
[0011](4)现有技术缺少二级索引的关键字词搜索,无法一个对于在带有标签结点的有向图中的实现排名的关键字词搜索的索引和查询处理,搜索策略落后,缺少融合簇间花费平衡拓展策略和向后拓展搜索策略,向后拓展搜索策略存在问题。搜索未结合索引,实现最佳向后拓展搜索策略的运行花费大,双向拓展效率低。缺少基于图分割的索引,无法将一个
数据图分割为多个子图(块),不能利用增加索引和图分割在RDF图数据上的关键字词搜索,缺少对图搜索策略、索引和算法进行分析,网络信息语义本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.改进RDF的互联网大数据关键字词搜索方法,其特征在于,首先对RDF数据的三元组提取,并通过提取出来的资源、属性、属性值建立图数据;然后基于向后拓展算法进行改进,用双向拓展算法来实现在RDF图数据上的关键字词搜索,并解析数据结构和特有活力值;最后对向后拓展算法和双向拓展算法进行分析融合并在此基础上利用增加索引和图分割在RDF图数据上的关键字词搜索,并实现图搜索策略、索引和算法,包括:一是大数据关键字词搜索定义,二是最佳图RDF搜索策略,三是单级索引关键字词探索,四是二级索引大数据探索,具体包括:块内关键字词索引、大数据块索引、RDF图分割、二级索引搜索算法;1)基于RDF文件实例修改RDF数据的规则、元素、容器,定义RDF数据的结构特征以方便解决RDF数据三元组提取问题;采用提取出来的三元组中的主语、宾语建点,谓语建边,实现RDF数据三元组的提取和建图;2)针对向后拓展算法会访问大量不必要访问图结点的缺点,提出双向拓展算法,在查询模型上采用入迭代器、出迭代器,生成结果集,并采用扩散活力值的方式将搜索优先处理;3)改进融合向后拓展搜索和双向拓展搜索策略,提出最佳向后拓展搜索策略的簇间花费平衡拓展策略,在数据图中加索引以达到显著减少实现最佳向后拓展搜索策略的运行花费的目的;最后针对大图提出图分割策略,采用二级索引搜索算法,并实现块内关键字词搜索和块间关键字词搜索。2.根据权利要求1所述改进RDF的互联网大数据关键字词搜索方法,其特征在于,大数据关键字词搜索定义:网络大数据查询:把查询放在一个有向图G=(V,E)上进行,每个属于V的结点v带有一些文本标记,一次关键字词查询q包含一系列查询关键字词(w1,w2,

,w
m
),定义一个q的答案如下:定义1:给定一个查询q=(w1,w2,

,w
m
)和一个有向图G,q的一个答案是一对<r,(n1,n2,

,n
m
)>,i和n
i
是图G中满足下列特征的结点:1)覆盖范围:对于每一个i,结点n包含关键字词w
i
;2)连通性:对于每一个i,在图G中存在一条有向路径从i到n
i
;r为这个答案的根,n
i
是答案的匹配项,连通性答案是一个根结点能够到达所有关键字词的子树;Top

k查询:改进后的算法考虑到对于一个查询,找到排名靠前的答案,答案的好坏通过得分模型衡量,得分模型给每个答案匹配一个数字分数,得到的分数越高表明这个答案更好;定义2:给定一个查询和一个得分模型S,一个结点r的得分是所有以r为根结点的所有答案T中的最高得分S(T),把r当作根结点的拥有最高得分的答案是做把r当作根结点的一个最优答案,一个top

k查询返回图中最高得分的k个结点并且对于每个被返回的结点,都对应一个最高得分和一个最优答案树,k个最优答案有不同的根结点;得分模型:形式上定义查询q=(w1,w2,

,w
m
)的一个答案T=<r,(n1,n2,

,n
m
)>的得分S(T)是由三部分决定,分别是答案根结点r、匹配项n
i
、从根结点r到每一个匹配关键字词结点n
i
的最短路径距离,得分模型采用匹配

分布式语义论,对S(T)的定义中由匹配项和根结点到匹配项路径对于最后得分的净贡献通过所有匹配项求和的分布式方式计算,所有根结
点到匹配项路径对于最后得分的贡献独立;得分模型基于图

距离语义论,在S(T)的定义中,根结点到匹配项路径的得分贡献在数据图中从根结点到匹配项的最短路径。3.根据权利要求1所述改进RDF的互联网大数据关键字词搜索方法,其特征在于,最佳图RDF搜索策略:首先分析向后拓展算法和双向拓展算法的特征并考虑在此基础上进行改进,目的是找到趋向最佳图RDF搜索策略;向后搜索:图的连通性信息只能提供一段单跳,完成查询通过从包含至少一个查询关键字词的结点开始探索这个图,这样的结点很容易通过结点信息列表被找到,形成向后搜索拓展算法;双向搜索:在向后拓展的基础上新增了沿着前进边探索图的选择,算法被允许从结点u向前拓展到k2,更快地确定结点u就是一个答案的根结点,通过探索的活力因素给结点赋予优先次序,评估一个结点有多大的可能是根结点;最佳图搜索改进两个方面:一是改进簇间的拓展策略,为最坏情况性能提供可证明边界的策略,即花费平衡策略;然后采用预计算提供的索引为查询中的向前拓展提供支持,基于直接得出一个结点能否扩展到某个关键字词而且得到相应的最短距离,消除一步一步向前拓展的不确定性和低效率;二是簇间花费平衡拓展,尝试平衡每个簇访问结点的数量,下一个要扩展的簇E
i
是基数最小的簇,这个策略用来与簇中等距离拓展结合采用,一旦选择要拓展的最小的簇,就在这个簇中选择距离簇最短距离的结点进行拓展。4.根据权利要求1所述改进RDF的互联网大数据关键字词搜索方法,其特征在于,单级索引关键字词探索:对于每一个关键字词,对数据图中每一个结点到关键字词的最短距离进行预计算,结果是一组关键字词

结点列表,针对用户列举出来的所有关键字词w,L
KN
(w)归纳出达到关键字词w的结点列表,并且所有结点是按照到达w的距离排序,列表中的每一项都有距离、结点、邻接结点、关键字词结点四个字段,其中距离是该结点到一个包含w的结点的最短距离;关键字词结点是包含w的结点;邻接结点从结点到关键字词结点路径上经过的第一个结点,对于每一个结点u,预计算从u到每一个关键字词的最短距离,并且将这些信息总结在一个哈希表M
KN
中,给定一个结点u和一个关键字词w,M
KN
(u,w)返回从结点u到关键字词w的最短距离,如果u不能到达任何包含w的关键字词结点,那么返回无穷大。5.根据权利要求4所述改进RDF的互联网大数据关键字词搜索方法,其特征在于,单级索引关键字词探索算法流程:给定一个查询q=(w1,w2,

,w
m
),采用一个游标来横穿每个关键字词

结点列表L
KN
(w
i
),游标c
i
在列表L
KN
(w
i
)上通过调用next函数前进,next函数返回列表中下一个列表中保存的最短距离,该结构列表满足簇中等距离拓展,在簇间采用游标以轮询调度的方式实现了簇间花费平衡拓展,另外,采用M
KN
以一种直接方式来执行向前拓展的部分,当一到达某个结点就查找它到所有除了当前关键字词的距离,用这种方式立即确定是否发现答案的根结点,对于每个在访问的结点构造一个结构体(root,dist1,dist2,

,dist
m
),其中root是在访问的结点,dist
i
是这个结点到关键字词w
i
的距离,如果有dist
i
无穷大,那么这个结点就不是答案根结点,它不能到达w
i
,如果所有距离都不是无穷大,那么就已找到答案根结点,通过一个临界值T
prune
来实现找到top

k结果,临界值T
prune
是当前所有得到的结果树距离和中第k小的值,对于每一个新的答案,必须小于这个临界值,同时对于每个簇内的扩展,如果现有的距离和已经大于这个临界值,不再继续拓展。6.根据权利要求1所述改进RDF的互联网大数据关键字词搜索方法,其特征在于,二级
索引大数据探索:采用分而治之的方法创建一个二级索引结构,首先将一张数据图划分为多个子图,一个二级索引包含一个上层大数据块索引和对应每一个块的块内索引,分别用来储存关键字词和结点对块的映射,和用来储存...

【专利技术属性】
技术研发人员:孟祥坤
申请(专利权)人:孟祥坤
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1