当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于大数据Solr网页排序优化方法技术

技术编号:13448333 阅读:83 留言:0更新日期:2016-08-01 16:45
本发明专利技术涉及一种基于大数据的Solr网页排序优化方法。该方法利用Solr外部域的概念,在Solr现有排序算法中添加了网页重要度和网页时间因素。该方法有效解决了Solr原有排序算法只考虑检索词与网页文本内容匹配度,造成网页排序不够准确的问题,使文本相关度高、权威性高而且更具时效性的网页排在较前位置。改进后的排序算法在Solr搜索引擎中应用良好,提高了网页排序质量和用户体验。

【技术实现步骤摘要】

【技术保护点】
一种基于大数据的Solr网页排序优化方法,其特征在于,包括步骤如下:1)搭建Solr搜索引擎,所述Solr搜索引擎包括信息提取模块、存储模块、索引模块和检索模块;信息提取模块通过Nutch从互联网中进行网页爬取和解析;存储模块将上述爬取并解析后的网页存储于数据库中;索引模块将所述数据库中的文件信息传递给Solr搜索引擎中的索引工具并建立索引;检索模块响应用户查询请求,并以Solr搜索引擎自带的Browse界面显示给用户;2)网页重要度计算:通过KMeans聚类对PageRank算法的权值分配进行改进,得到Cluster‑PageRank算法;2‑1)从所述数据库中提取网页链接关系,创建链接拓扑图;将网页链接关系的格式统一为:<源网页srcURL,所有链出网页list{destURL}>;2‑2)对网页链接关系进行KMeans聚类,根据聚类结果对网页进行主题标识,输出网页URL及网页所属主题类别;2‑3)利用MapReduce计算模型进行Cluster‑PageRank算法并行化计算,通过Cluster‑PageRank算法计算得到网页重要度;3)网页时间因素:Wt(A)=1+12×ln(Current-Pubdate)]]>其中,Pubdate为网页发布时间,Current为网页搜索时间;4)将文本相关度得分与网页重要度、网页时间因素结合,对Solr网页排序进行优化:4‑1)在Solr搜索引擎中建立第一外部域field(rank),域内容为“网页URL=网页重要度”;4‑2)建立第二外部域field(time),域内容为“网页URL=网页时间因素”;4‑3)将第一外部域field(rank)和第二外部域field(time)引入Solr搜索引擎提供的bf函数中,则Solr网页排序由文本相关度得分、网页重要度以及网页时间因素的加权值决定。...

【技术特征摘要】

【专利技术属性】
技术研发人员:袁东风张艳徐秀珊
申请(专利权)人:山东大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1