【技术实现步骤摘要】
本专利技术涉及搜索引擎排序方法,特别地,涉及一种基于改进谱聚类的搜索引擎排序方法与系统。
技术介绍
随着搜索引擎技术的发展,使用者对搜索引擎的要求也越来越高。搜索引擎虽然能够根据使用者查询搜索出成千上万条结果,但是一般情况下,使用者只浏览前30条甚至前10条结果,如果搜索引擎中排在前面的结果和使用者查询无关,使用者的查询效率会显著降低。传统的排序方法包括基于分类目录的排序方法、基于文本检索的排序方法与基于链接整合分析的排序方法。其中,基于分类目录的排序方法是已经被舍弃不用的人工分类方法;只关注网页内容的基于文本检索的排序方法会导致效率低下的问题;而只关注网页链接的基于链接整合的排序方法会导致返回的内容可能与使用者查询不相关的问题。现有技术中缺乏一种同时能克服效率问题和结果相关性问题的排序算法。针对现有技术中缺乏一种同时能克服效率问题和结果相关性问题的解决方案的问题,目前尚未有有效的解决方案。
技术实现思路
针对现有技术中缺乏一种同时能克服效率问题和结果相关性问题的解决方案的问题,本专利技术的目的在于提出一种基于改进谱聚类的搜索引擎排序方法与系统,能够把文本内容和文本链接有效结合,提出一种结合内容与链接的搜索引擎排序方法与系统,提高使用者的搜索效率。基于上述目的,本专利技术提供的技术方案如下:根据本专利技术的一个方面,提供了一种基于改进谱聚类的搜索引擎排序方法。根据本专利 ...
【技术保护点】
一种基于改进谱聚类的搜索引擎排序方法,其特征在于,包括:沿着网页中的链接搜寻初始网页信息,将所述初始网页信息中的文本信息以向量形式提取出至少一个初始网页文本内容,并将所述初始网页文本内容、所述网页的链接与搜寻时间以向关联的方式存储;计算每两个初始网页文本内容之间基于密度的相似度,并根据所述初始网页文本内容之间基于密度的相似度确定谱聚类的最佳类别数目;按照所述网页的链接重新访问更新过的网页并搜寻更新过的网页信息,并按照所述更新过的网页信息中的文本信息新网页文本内容,并将所述新网页文本内容、所述网页的链接与更新时间以关联的方式存储;计算所述谱聚类的类中心向量与类均值,计算所述新网页文本内容与现有谱聚类类别之间的连接度,并根据所述新网页文本内容与现有所有谱聚类类别之间的连接度判断是否将所述新网页文本内容加入根据谱聚类方法建立的已有类别中,并根据所述各谱聚类类别的类中心向量与类均值判断所述谱聚类是否需要与其他谱聚类进行合并;接收使用者的查询向量,计算所述查询向量与所述现有谱聚类类别之间的相关度,建立网页链接的初始结果集,并将所述初始结果集中每个网页的相关度与PageRank值计算归一加权值,按 ...
【技术特征摘要】
1.一种基于改进谱聚类的搜索引擎排序方法,其特征在于,包括:
沿着网页中的链接搜寻初始网页信息,将所述初始网页信息中的文本信
息以向量形式提取出至少一个初始网页文本内容,并将所述初始网页文本内
容、所述网页的链接与搜寻时间以向关联的方式存储;
计算每两个初始网页文本内容之间基于密度的相似度,并根据所述初始
网页文本内容之间基于密度的相似度确定谱聚类的最佳类别数目;
按照所述网页的链接重新访问更新过的网页并搜寻更新过的网页信息,
并按照所述更新过的网页信息中的文本信息新网页文本内容,并将所述新网
页文本内容、所述网页的链接与更新时间以关联的方式存储;
计算所述谱聚类的类中心向量与类均值,计算所述新网页文本内容与现
有谱聚类类别之间的连接度,并根据所述新网页文本内容与现有所有谱聚类
类别之间的连接度判断是否将所述新网页文本内容加入根据谱聚类方法建立
的已有类别中,并根据所述各谱聚类类别的类中心向量与类均值判断所述谱
聚类是否需要与其他谱聚类进行合并;
接收使用者的查询向量,计算所述查询向量与所述现有谱聚类类别之间
的相关度,建立网页链接的初始结果集,并将所述初始结果集中每个网页的
相关度与PageRank值计算归一加权值,按照所述相关度与PageRank值的归
一加权值的大小进行排序呈献给使用者。
2.根据权利要求1所述的一种基于改进谱聚类的搜索引擎排序方法,其
特征在于,计算每两个初始网页文本内容之间基于密度的相似度包括:
定义谱聚类方法的局部一致性与全局一致性;
根据所述谱聚类方法的局部一致性与全局一致性,得到基于密度的线段
长度距离表达式;
根据所述基于密度的线段长度距离表达式,计算出两初始网页文本内容
之间基于密度的距离;
根据所述两初始网页文本内容之间基于密度的数据距离,获得所述两初
始网页文本内容之间基于密度的相似度。
3.根据权利要求2所述的一种基于改进谱聚类的搜索引擎排序方法,其
特征在于,所述根据所述每两个初始网页文本内容之间基于密度的相似度确
\t定谱聚类的最佳类别数目包括:
根据所述每两个初始网页文本内容之间基于密度的相似度建立相似矩阵,
其中,所述相似矩阵的行向量代表初始网页文本内容、列向量代表初始网页
文本内容特征项的权值;
计算所述相似矩阵中,所有初始网页文本内容特征项权值的平均值、任
一谱聚类内初始网页文本内容特征项的平均值、所有初始网页文本内容数据
集的总体方差、任一谱聚类内数据集的方差、任一谱聚类间数据集的方差;
根据所述任一谱聚类内数据集的方差与任一谱聚类间数据集的方差,用
C-H指数定义方差比标准计算出所述谱聚类的最佳类别数目。
4.根据权利要求1所述的一种基于改进谱聚类的搜索引擎排序方法,其
特征在于,根据所述新网页文本内容与现有所有...
【专利技术属性】
技术研发人员:于天元,白亮,郭金林,杨征,
申请(专利权)人:中国人民解放军国防科学技术大学,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。