【技术实现步骤摘要】
【技术保护点】
一种基于大数据的Solr网页排序优化方法,其特征在于,包括步骤如下:1)搭建Solr搜索引擎,所述Solr搜索引擎包括信息提取模块、存储模块、索引模块和检索模块;信息提取模块通过Nutch从互联网中进行网页爬取和解析;存储模块将上述爬取并解析后的网页存储于数据库中;索引模块将所述数据库中的文件信息传递给Solr搜索引擎中的索引工具并建立索引;检索模块响应用户查询请求,并以Solr搜索引擎自带的Browse界面显示给用户;2)网页重要度计算:通过KMeans聚类对PageRank算法的权值分配进行改进,得到Cluster‑PageRank算法;2‑1)从所述数据库中提取网页链接关系,创建链接拓扑图;将网页链接关系的格式统一为:<源网页srcURL,所有链出网页list{destURL}>;2‑2)对网页链接关系进行KMeans聚类,根据聚类结果对网页进行主题标识,输出网页URL及网页所属主题类别;2‑3)利用MapReduce计算模型进行Cluster‑PageRank算法并行化计算,通过Cluster‑PageRank算法计算得到网页重要度;3)网页时间因素:Wt(A)=1 ...
【技术特征摘要】
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。