一种基于多样性和比例特性的关键词检索方法技术

技术编号：13620169 阅读：264 留言：0更新日期：2016-08-31 11:46

本发明专利技术涉及一种基于多样性和比例特性的关键词检索方法，对用户所输入的关键词和自然数l，然后根据关键词与各元组信息之间的链接关系，运用算法返回给用户l条最全面的基于关键词的元组信息。步骤一：受链接分析算法PageRank的启发，设计静态离线排序评价分数，生成所有节点的初始值；步骤二：输入关键词生成备选的OS；步骤三：输入自然数l根据得到的OS用k‑LASP算法生成最终含有l个节点的以DS为根的树。经实验结果证明，本方法得到的实验效果显著。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据挖掘领域，涉及一种基于多样性和比例特性的关键词检索方法。
技术介绍
随着互联网的发展，搜索引擎作为一种新型的网络检索技术给用户带来了巨大的方便。但是由于近几年网络的迅速发展，互联网的信息量出现大幅度的增长，大数据作为一个新兴的领域充斥着生活，这就使得用户在面临这大量的信息时，搜索引擎可能无法推荐出基于关键词检索的多样化的、按重要程度排列的信息。解决这个问题的一个非常有潜利的方法就是给出一个排列系统，它能按照用户给出的关键词来返回l条重要信息(其中l为自然数)，并且是按多样性和比例特性排列的。该技术引入了元组集合(ObjectSummaries，缩写为OS)，它是在包含关键词的数据库中生成的基于关键词的信息元组的集合。一个OS可以是以关键词为根，以关键词的相邻节点为它的子孙节点的树形结构。为了生成OS，一是要拥有关于查询数据主体(Data Subjects，缩写为DS)信息的关系，把这个关系简写为RDS，即是树形结构的根；另一个需要与RDS链接的关系，也就是生成RDS的子孙。对于每个RDS来说都能够形成一个DS模式图，也就是GDS。此技术是根据生成的OS来不断地进行剪枝优化最终得出重要的信息。一个完整的OS中可能有成千上万条元组信息，将这些信息全部列举出来不但会消耗更多的时间，而且对用户在其中选取对自己来说有用的信息也是非常困难的，所以选择选取l条最有用的元组信息；对输入的自然数l，将在整个的OS中运用k-LASP算法(详见步骤3.3)得到l条重要信息(即size-l OS)，若光运用PageRank或是ValueRank计算的静态值来返...

【技术保护点】
一种基于多样性和比例特性的关键词检索方法，其特征在于：该方法的实施步骤如下，步骤一：受链接分析算法PageRank的启发，设计静态离线排序评价分数，生成所有节点的初始值；步骤1.1：收集并整理数据集，构建数据关系；这时定义有向图G(V，E)，其中V(v1,...,vn)是节点集，这里的节点代表各类信息，E是代表边的集合，E＝{<vi,vj>|vi,vj∈V}，<vi,vj>表示从vi到vj的一条边，即vi的信息能够链接到vj；步骤1.2：r是一个矢量即各个的页面的评价分数的队列，其中每个节点vi都存在相应的ri，则通过以下公式来迭代计算矢量r的评价分数：r=dAr+(1-d)e|V|---(1)]]>其中d是一个(0,1)的阻尼系数，此系数能够保证得到更精确的结果，一般取值为0.85；A是一个n*n矩阵，n代表顶点个数，其中若存在从vi到vj的边(弧)，则表示vj的出度)，否则为0，也就是说若有三个节点，则A是一个3*3矩阵，v0到v1和v2都有边且v1到v2有边，则且A21＝1，其余都为0；e＝[1....1]T；|V|为顶点个数；综上，迭代计算出数据集中各个...

【技术特征摘要】
1.一种基于多样性和比例特性的关键词检索方法，其特征在于：该方法的实施步骤如下，步骤一：受链接分析算法PageRank的启发，设计静态离线排序评价分数，生成所有节点的初始值；步骤1.1：...

【专利技术属性】
技术研发人员：才智，兰许，曹阳，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人