一种基于改进谱聚类的搜索引擎排序方法与系统技术方案

技术编号:11603511 阅读:127 留言:0更新日期:2015-06-15 17:12
本发明专利技术公开了一种基于改进谱聚类的搜索引擎排序方法与系统,其中,该方法包括:计算每两个初始网页文本内容之间基于密度的相似度,确定谱聚类的最佳类别数目;计算所述谱聚类的类中心向量与类均值,计算所述新网页文本内容与现有谱聚类之间的连接度,判断是否将所述新网页文本内容加入谱聚类中,判断所述谱聚类是否需要与其他谱聚类进行合并;接收使用者的查询向量,计算所述查询向量与所述现有谱聚类之间的相关度,建立网页链接的初始结果集,并将所述初始结果集中每个网页的相关度与PageRank值归一加权计算平均值,按照所述相关度与PageRank值归一加权平均值的大小进行排序呈献给使用者。

【技术实现步骤摘要】

本专利技术涉及搜索引擎排序方法,特别地,涉及一种基于改进谱聚类的搜索引擎排序方法与系统
技术介绍
随着搜索引擎技术的发展,使用者对搜索引擎的要求也越来越高。搜索引擎虽然能够根据使用者查询搜索出成千上万条结果,但是一般情况下,使用者只浏览前30条甚至前10条结果,如果搜索引擎中排在前面的结果和使用者查询无关,使用者的查询效率会显著降低。传统的排序方法包括基于分类目录的排序方法、基于文本检索的排序方法与基于链接整合分析的排序方法。其中,基于分类目录的排序方法是已经被舍弃不用的人工分类方法;只关注网页内容的基于文本检索的排序方法会导致效率低下的问题;而只关注网页链接的基于链接整合的排序方法会导致返回的内容可能与使用者查询不相关的问题。现有技术中缺乏一种同时能克服效率问题和结果相关性问题的排序算法。针对现有技术中缺乏一种同时能克服效率问题和结果相关性问题的解决方案的问题,目前尚未有有效的解决方案。
技术实现思路
针对现有技术中缺乏一种同时能克服效率问题和结果相关性问题的解决方案的问题,本专利技术的目的在于提出一种基于改进谱聚类的搜索引擎排序方法与系统,能够把文本内容和文本链接有效结合,提出一种结合内容与链接的搜索引擎排序方法与系统,提高使用者的搜索效率。基于上述目的,本专利技术提供的技术方案如下:根据本专利技术的一个方面,提供了一种基于改进谱聚类的搜索引擎排序方法。根据本专利技术提供的一种基于改进谱聚类的搜索引擎排序方法包括:沿着网页中的链接搜寻初始网页信息,将初始网页信息中的文本信息以向量形式提取出至少一个初始网页文本内容,并将初始网页文本内容、网页的链接与搜寻时间以向关联的方式存储;计算每两个初始网页文本内容之间基于密度的相似度,并根据初始网页文本内容之间基于密度的相似度确定谱聚类的最佳类别数目;按照网页的链接重新访问更新过的网页并搜寻更新过的网页信息,并按照更新过的网页信息中的文本信息新网页文本内容,并将新网页文本内容、网页的链接与更新时间以关联的方式存储;计算谱聚类的类中心向量与类均值,计算新网页文本内容与现有谱聚类类别之间的连接度,并根据新网页文本内容与现有所有谱聚类类别之间的连接度判断是否将新网页文本内容加入根据谱聚类方法建立的已有类别中,并根据各谱聚类类别的类中心向量与类均值判断谱聚类是否需要与其他谱聚类进行合并;接收使用者的查询向量,计算查询向量与现有谱聚类类别之间的相关度,建立网页链接的初始结果集,并将初始结果集中每个网页的相关度与PageRank值计算归一加权值,按照相关度与PageRank值的归一加权值的大小进行排序呈献给使用者。其中,计算每两个初始网页文本内容之间基于密度的相似度包括:定义谱聚类方法的局部一致性与全局一致性;根据谱聚类方法的局部一致性与全局一致性,得到基于密度的线段长度距离表达式;根据基于密度的线段长度距离表达式,计算出两初始网页文本内容之间基于密度的距离;根据两初始网页文本内容之间基于密度的数据距离,获得两初始网页文本内容之间基于密度的相似度。并且,根据每两个初始网页文本内容之间基于密度的相似度确定谱聚类的最佳类别数目包括:根据每两个初始网页文本内容之间基于密度的相似度建立相似矩阵,其中,相似矩阵的行向量代表初始网页文本内容、列向量代表初始网页文本内容特征项的权值;计算相似矩阵中,所有初始网页文本内容特征项权值的平均值、任一谱聚类内初始网页文本内容特征项的平均值、所有初始网页文本内容数据集的总体方差、任一谱聚类内数据集的方差、任一谱聚类间数据集的方差;根据任一谱聚类内数据集的方差与任一谱聚类间数据集的方差,用C-H指数定义方差比标准计算出谱聚类的最佳类别数目。其中,根据新网页文本内容与现有所有谱聚类之间的连接度判断是否将新网页文本内容加入谱聚类中包括:将每个新网页文本内容与现有所有谱聚类类别之间的连接度按大小顺序进行排序;若该新网页文本内容最大的连接度大于第一阈值,且最大的连接度与第二大的连接度的绝对值之差大于第二阈值,则将新网页文本内容加入最大的连接度所对应的谱聚类中,并更新该谱聚类的类中心向量与类均值;若该新网页文本内容最大的连接度大于第一阈值,但最大的连接度与第二大的连接度的绝对值之差不大于第二阈值,则将新网页文本内容暂时存入最大的连接度所对应的谱聚类中,并对新网页文本内容进行标记,但不更新该谱聚类的类中心向量与类均值;若该新网页文本内容最大的连接度不大于第一阈值,则将该新网页文本内容划分到一个新的谱聚类类别中,并计算出新谱聚类类别的类中心向量与类均值。并且,根据各谱聚类类别的类中心向量与类均值判断谱聚类类别是否需要与其他谱聚类类别进行合并,为当所有新网页文本内容都划分到任意谱聚类类别中时,重新计算谱聚类的最佳类别数目:若重新计算的谱聚类的最佳类别数目小于等于上次计算的谱聚类的最佳类别数目,则将被标记的新网页文本内容合并到其暂存的谱聚类中,并更新该谱聚类的类中心向量与类均值;若重新计算的谱聚类的最佳类别数目大于上次计算的谱聚类的最佳类别数目,则将被标记的新网页文本内容独立进行重新聚类,并计算出新谱聚类的类中心向量与类均值。同时,计算上述查询向量与现有谱聚类类别之间的相关度,建立网页链接的初始结果集包括:将查询向量分解为至少一个查询分量;分别将每个查询分量视为关键词,依次计算每个查询分量关键词与每个谱聚类类别之间的连接度;根据每个查询分量关键词与每个谱聚类类别之间的连接度,计算出查询向量与每个谱聚类类别之间的相关度;根据查询向量与每个谱聚类之间的连接度与每个查询分量的绝对值,计算出查询向量的初始结果集,初始结果集为各谱聚类类别中与查询向量距离较近的网页集合。并且,将初始结果集中每个网页的相关度与PageRank值归一加权计算平均值,为将拓展结果集的相关度和PageRank值分别进行归一化,进行加权得到每个与查询向量的相关度。根据本专利技术的另一个方面,还提供了一种基于改进谱聚类的搜索引擎排序系统。根据本专利技术提供的一种基于改进谱聚类的搜索引擎排序系统如上所述。从上面所述可以看出,本专利技术提供的技术方案通过使用改进的谱聚类方法对网页内容进行分析,利用网页链接结构对根据使用者查询选出初始的结果集进行拓展,并计算拓展结果集与使用者查询的距离作为网页内容相似度,然后结合本文档来自技高网...
一种基于改进谱聚类的搜索引擎排序方法与系统

【技术保护点】
一种基于改进谱聚类的搜索引擎排序方法,其特征在于,包括:沿着网页中的链接搜寻初始网页信息,将所述初始网页信息中的文本信息以向量形式提取出至少一个初始网页文本内容,并将所述初始网页文本内容、所述网页的链接与搜寻时间以向关联的方式存储;计算每两个初始网页文本内容之间基于密度的相似度,并根据所述初始网页文本内容之间基于密度的相似度确定谱聚类的最佳类别数目;按照所述网页的链接重新访问更新过的网页并搜寻更新过的网页信息,并按照所述更新过的网页信息中的文本信息新网页文本内容,并将所述新网页文本内容、所述网页的链接与更新时间以关联的方式存储;计算所述谱聚类的类中心向量与类均值,计算所述新网页文本内容与现有谱聚类类别之间的连接度,并根据所述新网页文本内容与现有所有谱聚类类别之间的连接度判断是否将所述新网页文本内容加入根据谱聚类方法建立的已有类别中,并根据所述各谱聚类类别的类中心向量与类均值判断所述谱聚类是否需要与其他谱聚类进行合并;接收使用者的查询向量,计算所述查询向量与所述现有谱聚类类别之间的相关度,建立网页链接的初始结果集,并将所述初始结果集中每个网页的相关度与PageRank值计算归一加权值,按照所述相关度与PageRank值的归一加权值的大小进行排序呈献给使用者。...

【技术特征摘要】
1.一种基于改进谱聚类的搜索引擎排序方法,其特征在于,包括:
沿着网页中的链接搜寻初始网页信息,将所述初始网页信息中的文本信
息以向量形式提取出至少一个初始网页文本内容,并将所述初始网页文本内
容、所述网页的链接与搜寻时间以向关联的方式存储;
计算每两个初始网页文本内容之间基于密度的相似度,并根据所述初始
网页文本内容之间基于密度的相似度确定谱聚类的最佳类别数目;
按照所述网页的链接重新访问更新过的网页并搜寻更新过的网页信息,
并按照所述更新过的网页信息中的文本信息新网页文本内容,并将所述新网
页文本内容、所述网页的链接与更新时间以关联的方式存储;
计算所述谱聚类的类中心向量与类均值,计算所述新网页文本内容与现
有谱聚类类别之间的连接度,并根据所述新网页文本内容与现有所有谱聚类
类别之间的连接度判断是否将所述新网页文本内容加入根据谱聚类方法建立
的已有类别中,并根据所述各谱聚类类别的类中心向量与类均值判断所述谱
聚类是否需要与其他谱聚类进行合并;
接收使用者的查询向量,计算所述查询向量与所述现有谱聚类类别之间
的相关度,建立网页链接的初始结果集,并将所述初始结果集中每个网页的
相关度与PageRank值计算归一加权值,按照所述相关度与PageRank值的归
一加权值的大小进行排序呈献给使用者。
2.根据权利要求1所述的一种基于改进谱聚类的搜索引擎排序方法,其
特征在于,计算每两个初始网页文本内容之间基于密度的相似度包括:
定义谱聚类方法的局部一致性与全局一致性;
根据所述谱聚类方法的局部一致性与全局一致性,得到基于密度的线段
长度距离表达式;
根据所述基于密度的线段长度距离表达式,计算出两初始网页文本内容
之间基于密度的距离;
根据所述两初始网页文本内容之间基于密度的数据距离,获得所述两初
始网页文本内容之间基于密度的相似度。
3.根据权利要求2所述的一种基于改进谱聚类的搜索引擎排序方法,其
特征在于,所述根据所述每两个初始网页文本内容之间基于密度的相似度确

\t定谱聚类的最佳类别数目包括:
根据所述每两个初始网页文本内容之间基于密度的相似度建立相似矩阵,
其中,所述相似矩阵的行向量代表初始网页文本内容、列向量代表初始网页
文本内容特征项的权值;
计算所述相似矩阵中,所有初始网页文本内容特征项权值的平均值、任
一谱聚类内初始网页文本内容特征项的平均值、所有初始网页文本内容数据
集的总体方差、任一谱聚类内数据集的方差、任一谱聚类间数据集的方差;
根据所述任一谱聚类内数据集的方差与任一谱聚类间数据集的方差,用
C-H指数定义方差比标准计算出所述谱聚类的最佳类别数目。
4.根据权利要求1所述的一种基于改进谱聚类的搜索引擎排序方法,其
特征在于,根据所述新网页文本内容与现有所有...

【专利技术属性】
技术研发人员:于天元白亮郭金林杨征
申请(专利权)人:中国人民解放军国防科学技术大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1