一种基于多样性和比例特性的关键词检索方法技术

技术编号:13620169 阅读:264 留言:0更新日期:2016-08-31 11:46
本发明专利技术涉及一种基于多样性和比例特性的关键词检索方法,对用户所输入的关键词和自然数l,然后根据关键词与各元组信息之间的链接关系,运用算法返回给用户l条最全面的基于关键词的元组信息。步骤一:受链接分析算法PageRank的启发,设计静态离线排序评价分数,生成所有节点的初始值;步骤二:输入关键词生成备选的OS;步骤三:输入自然数l根据得到的OS用k‑LASP算法生成最终含有l个节点的以DS为根的树。经实验结果证明,本方法得到的实验效果显著。

【技术实现步骤摘要】

本专利技术属于数据挖掘领域,涉及一种基于多样性和比例特性的关键词检索方法
技术介绍
随着互联网的发展,搜索引擎作为一种新型的网络检索技术给用户带来了巨大的方便。但是由于近几年网络的迅速发展,互联网的信息量出现大幅度的增长,大数据作为一个新兴的领域充斥着生活,这就使得用户在面临这大量的信息时,搜索引擎可能无法推荐出基于关键词检索的多样化的、按重要程度排列的信息。解决这个问题的一个非常有潜利的方法就是给出一个排列系统,它能按照用户给出的关键词来返回l条重要信息(其中l为自然数),并且是按多样性和比例特性排列的。该技术引入了元组集合(ObjectSummaries,缩写为OS),它是在包含关键词的数据库中生成的基于关键词的信息元组的集合。一个OS可以是以关键词为根,以关键词的相邻节点为它的子孙节点的树形结构。为了生成OS,一是要拥有关于查询数据主体(Data Subjects,缩写为DS)信息的关系,把这个关系简写为RDS,即是树形结构的根;另一个需要与RDS链接的关系,也就是生成RDS的子孙。对于每个RDS来说都能够形成一个DS模式图,也就是GDS。此技术是根据生成的OS来不断地进行剪枝优化最终得出重要的信息。一个完整的OS中可能有成千上万条元组信息,将这些信息全部列举出来不但会消耗更多的时间,而且对用户在其中选取对自己来说有用的信息也是非常困难的,所以选择选取l条最有用的元组信息;对输入的自然数l,将在整个的OS中运用k-LASP算法(详见步骤3.3)得到l条重要信息(即size-l OS),若光运用PageRank或是ValueRank计算的静态值来返回信息,则可能会使多条相似的信息重复出现,所以为了使这l条信息能够在最大限度上呈现给用户更多样化的信息,使用户能够更全面的了解信息,引入多样性(Dsize-l)和比例特性(Psize-l)两种权衡信息重要性的方法。这种方法不仅能够大大减少时间的消耗,提高返回信息的效率,而且能够满足用户对搜索信息的多样化需求,在一定程度上优化了基于关键词的搜索。
技术实现思路
本专利技术提供一种基于多样性和比例特性的关键词检索方法,对用户所输入的关键词和自然数l,然后根据关键词与各元组信息之间的链接关系,运用算法返回给用户l条最全面的基于关键词的元组信息。一种基于多样性和比例特性的关键词检索方法,其步骤为:步骤一:受链接分析算法PageRank的启发,设计静态离线排序评价分数,生成所有节点的初始值;步骤1.1:收集并整理数据集,构建数据关系。这时定义有向图G(V,E),其中V(v1,...,vn)是节点(顶点)集,这里的节点代表各类信息,E是代表边(弧)的集合,E={<vi,vj>|vi,vj∈V本文档来自技高网
...

【技术保护点】
一种基于多样性和比例特性的关键词检索方法,其特征在于:该方法的实施步骤如下,步骤一:受链接分析算法PageRank的启发,设计静态离线排序评价分数,生成所有节点的初始值;步骤1.1:收集并整理数据集,构建数据关系;这时定义有向图G(V,E),其中V(v1,...,vn)是节点集,这里的节点代表各类信息,E是代表边的集合,E={<vi,vj>|vi,vj∈V},<vi,vj>表示从vi到vj的一条边,即vi的信息能够链接到vj;步骤1.2:r是一个矢量即各个的页面的评价分数的队列,其中每个节点vi都存在相应的ri,则通过以下公式来迭代计算矢量r的评价分数:r=dAr+(1-d)e|V|---(1)]]>其中d是一个(0,1)的阻尼系数,此系数能够保证得到更精确的结果,一般取值为0.85;A是一个n*n矩阵,n代表顶点个数,其中若存在从vi到vj的边(弧),则表示vj的出度),否则为0,也就是说若有三个节点,则A是一个3*3矩阵,v0到v1和v2都有边且v1到v2有边,则且A21=1,其余都为0;e=[1....1]T;|V|为顶点个数;综上,迭代计算出数据集中各个节点的评价分数,这时将这个值称作为全局权值,即gi(vi)代表vi节点的初始值;全局权值global importance,缩写为gi;步骤二:输入关键词生成备选的OS;步骤2.1:输入关键词(即DS),系统生成一个以DS顶点为根节点(即RDS),以能与RDS链接的关系为子孙的树,即OS;在生成OS的过程中为了区分OS中的每个元组节点vi的重要性,将一个局部权值(local importance,缩写为li)是由这个元组在数据库中的全局权值(gi)和这个元组在OS中的与RDS的亲和度两部分所决定的;亲和度为Affinity,缩写为Af;步骤2.2:在生成OS中,GDS中与RDS有较高亲和力的关系将被加入到OS中,Ri到RDS的亲和度Af(Ri)由以下公式迭代计算:Af(Ri)=Σjwjmj·Af(RParent)---(2)]]>其中j是一个范围,这个范围为指标集合(m1,m2,...,mn)和它的相应的权值集合(w1,w2,...,wn),这里考虑四个指标:指标m1为Ri到RDS的距离,也就是两个关系之间的距离越小,亲和度就越高;指标m2为关系的相对基数,也就是Ri与RPatent中每个元组相连的平均元组的数量;指标m3为关系的反相对基数,即RPatent与Ri中的一个元组相连的平均数量;指标m4为Ri的模式的连通性,即Ri在关系图中的链接的数量;Af(RParent)是指Ri的父亲节点与RDS的亲和度,初始值为1,即RDS本身的亲和度为1;指标的分数范围是[0,1],相应的权值的总和为1(上述四个指标相应的权值都为0.25);而且在OS的生成中,所有关系节点的亲和度都应该高于一个临界值θ;步骤2.3:计算出备选的size‑l OS S的重要性Im(S)的公式为:Im(S)=Σni∈SIm(OS,Ri)---(3)]]>其中Im(OS,Ri)是OS中节点Ri的li值,Im(OS,Ri)可以由以下公式算出:Im(OS,Ri)=Im(Ri)·Af(Ri)   (4)其中,Im(Ri)是Ri的gl值,Af(Ri)为Ri到RDS的亲和度;综上根据输入的关键词计算出Im值,生成备选的OS;步骤三:输入自然数l根据得到的OS用k‑LASP算法(详见步骤3.3)生成最终含有l个节点的以DS为根的树;在此步骤中将考虑三个因素:多样性削弱量(dv)、比例特性增量(pv)和静态值(li),最终将他们分别结合来得出最后的一个分数(即dw,pw);步骤3.1:多样性(Dsize‑l)为了避免重要性过高的相似信息的重复出现,应选择输出l条多样化的信息,所以给出一个如下多样性削弱量的计算方法:dv(vi)=1-z(g(vi))-1l-1---(5)]]>其中,g(vi)是指与vi相似的元组节点;z(g(vi))‑1是指在size‑l OS内与vi节点相似的元组节点的总和;z(g(vi))是指g(vi)要出现在size‑l OS中的次数;dv(vi)的值域是[0,1];定义dv[z]为节点在size‑l OS中出现z次的多样性削弱量值,例令l=10,“Marry”出现2次,即z=2,则然后,Dsize‑lOS中的一个节点静态值与多样性削弱量值结合的多样性权值由如下公式计算:dw(vi)=li(vi)·dv(vi)   (6)综上,给出一个OS和l,生成一个Dsize‑l OS需要满足以下条件:1.Dsize‑lOS中的元组个数为l(l≤|OS|);2.这l个节点都必须与根节点相连;3.每一个节点vi都有与之对应的多...

【技术特征摘要】
1.一种基于多样性和比例特性的关键词检索方法,其特征在于:该方法的实施步骤如下,步骤一:受链接分析算法PageRank的启发,设计静态离线排序评价分数,生成所有节点的初始值;步骤1.1:...

【专利技术属性】
技术研发人员:才智兰许曹阳
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1