【技术实现步骤摘要】
基于改良云平台的网页蜘蛛主题式搜索系统
本专利技术涉及一种网页蜘蛛主题式搜索系统,特别涉及一种基于改良云平台的网页蜘蛛主题式搜索系统,属于主题式搜索系统
技术介绍
随着互联网技术的日益普以及和飞速发展,面对如此庞大而又种类繁多的信息数据,通用的搜索引擎作为获得信息的主要手段已经远远不能满足人们对特定领域或主题关联信息的检索需求。鉴于此,针对特定领域或主题的主题式搜索引擎及网页蜘蛛技术得到了广泛应用,但随着网络信息量呈指数级增长,仅依赖单台计算机进行爬取的传统网页蜘蛛已不能适应大数据环境下的主题式搜索对性能、可扩展性方面的需求,而Hadoop云平台计算框架能很好的解决这个问题。近年来,有关主题型搜索引挚的研发正在成为热点,主题式搜索引擎专业化个性化和针对性强的特点使其成为目前搜索引擎领域中的热点和趋势,现有技术出现了一些主题式搜索引擎,有道是网易公司结束与谷歌的合作后自行研发的搜索引擎,它提供了视频、网页、音乐、词典等不同主题的搜索,其中最具特点的是词典主题式搜索,对用户输入的关键词英汉互译,有基本释义、网络 ...
【技术保护点】
1.基于改良云平台的网页蜘蛛主题式搜索系统,其特征在于,主要包括:一是针对基于链接结构的网页分析算法HITS算法及基于VSM向量空间模型的主题相似度计算的网页分析算法进行改进,提出一种改进的网页蜘蛛模型算法,对网页信息的综合价值进行评估;二是在对云平台网页蜘蛛进行云平台实现的过程中,提出了一种改进的任务分配算法,兼顾均匀分配及各个爬取子结点负载情况,提高云平台网页蜘蛛系统的爬取放率和准确性;三是提出一种基于Hadoop的云平台网页蜘蛛的总体框架模型,在文件系统HDFS上设计实现了云平台网页蜘蛛的存储结构,并基于模块划分对各个功能模块进行MapReduce算法实现;四是实现基 ...
【技术特征摘要】
1.基于改良云平台的网页蜘蛛主题式搜索系统,其特征在于,主要包括:一是针对基于链接结构的网页分析算法HITS算法及基于VSM向量空间模型的主题相似度计算的网页分析算法进行改进,提出一种改进的网页蜘蛛模型算法,对网页信息的综合价值进行评估;二是在对云平台网页蜘蛛进行云平台实现的过程中,提出了一种改进的任务分配算法,兼顾均匀分配及各个爬取子结点负载情况,提高云平台网页蜘蛛系统的爬取放率和准确性;三是提出一种基于Hadoop的云平台网页蜘蛛的总体框架模型,在文件系统HDFS上设计实现了云平台网页蜘蛛的存储结构,并基于模块划分对各个功能模块进行MapReduce算法实现;四是实现基于Hadoop的云平台网页蜘蛛系统并进行测试;
本发明的云平台网页蜘蛛系统的基本执行流程为:
第一,用户根据想要获得的关联主题信息挑选一些质量较高的初始URL种子集合并放入到种子URL文件中,初始URL种子集合作为系统添加搜索的起点,系统挑选种子URL文件中的URL链接进行网页信息的爬取;
第二,系统在获得相应的URL链接之后,与URL链接所对应的Web服务器进行网络连接,若网络连接建立失败且等待超过一定的时间,系统放弃该网络连接并标记此URL链接,从URL链接队列中选择下一个URL链接进行访问;
第三,如果和Web服务器成功建立了网络通信,系统应用MapReduce云平台计算模型基于http协议对网页内的信息进行爬取,并将爬取得到的信息存储到文件系统HDFS中;
第四,在网页爬取完成后,系统对网页信息进行进一步的分析,把解析得到的网页内容信息存储在文件系统HDFS中的解析网页库中;
第五,将网络页面中包含的URL链接解析出来进行链接的去重过滤操作;
第六,将经过链接去重过滤后的URL链接存储在文件系统HDFS中的链出URL库中,以便以后的爬取工作的进行;
第七,若没有满足网页蜘蛛停止的条件,系统根据改进的网页蜘蛛模型对每个URL链接进行综合价值的评估,选择一个优先级最高的URL链接即和指定的主题最相关的网页进行下一步的爬取工作;
改进的网页蜘蛛模型主要设计为:
第1,云平台网页蜘蛛系统给定一个种子URL集合,然后URL切分模块提取出种子URL集合中的URL链接进行URL切分操作,再然后存放在云平台文件系统HDFS中的未抓取URL库中;
第2,网页抓取模块从未抓取URL库中读取相应的URL链接进行爬取,并将抓取到的网页信息存放到位于云平台文件系统HDFS中的Web初始网页库中;
第3,网页解析模块将网络页面中包含的URL链接解析出来并存储在云平台文件系统HDFS中的链出URL库中,并把解析得到的网页内容信息存储在云平台文件系统HDFS中的解析网页库中;
第4,超链接评价器读取云平台文件系统HDFS中的链出URL库,基于HITS算法计算每一个URL链接的Hub权重值及Authority权重值,与此同时,构建主题描述矩阵并由主题描述矩阵和主题网页集合求得主题的向量表示形式,结合词频统计信息和内容结构信息对网页进行向量表示,对主题向量和网页向量使用余弦夹角定理求得关联度值,页面关联度评价器基于关联的主题特征词库将解析得到的网页内容信息进行分词处理并统计特征主题词频之后,基于VSM向量空间模型对网页内容的主题关联度进行计算;
第5,网页蜘蛛综合价值评价器采取改进后的网页蜘蛛模型算法基于链接价值和内容主题关联度价值计算每一个URL链接的综合价值,对待爬取队列中的网页链接进行比较,确定网页蜘蛛下一步爬取URL的次序。
2.基于权利要求1所述的基于改良云平台的网页蜘蛛主题式搜索系统,其特征在于,本发明的云平台网页蜘蛛系统的总体框架模型:
第一,JobTracker进程在Master结点上进行创建生成,它将种子URL集合切分,然后基于各个Slave结点的运行状态将URL爬取任务分发给各个Slave结点,JobTracker进程还负责实时监控系统的关联运行状态,JobTracker部署在集群中单独的一台计算机结点上,不参与具体的爬取工作;
第二,JobTracker进程将切分后的网页链接URL分配给各个TaskTracker进程,各个TaskTracker进程分别运行在各个Slave结点上,TaskTracker进程在收到JobTracker进程分发给自己的爬取子任务之后,启动相应的Map任务执行对网页信息的爬取工作,相应的Map任务启动多个线程进行网页信息的爬取,Map任务完成之后,将爬取到的信息以<链接URL,内容数据>键值对的方式以中间结果传送给Reduce任务;
第三,在Map任务输出中间结果之后,TaskTracker进程会开启Reduce任务完成网页分析、链接去重过滤及归并操作,并将基于网页内容进行解析得到的链接URL和网页内容信息分别存储到文件系统HDFS中的链出URL库和解析网页库中,TaskTracker进程还会一直通过RPC向JobTracker进程发送心跳heartbeat报告各个结点上的资源使用和任务运行情况。
3.基于权利要求1所述的基于改良云平台的网页蜘蛛主题式搜索系统,其特征在于,改进的网页蜘蛛模型采用超链接分析算法HITS对每个候选URL进行超链接结构价值的计算,对每一个URL链接计算其Hub权重值和Authority权重值,这两个值将在网页综合价值的计算中用到,基于HITS算法对每个URL链接vi,它的Hub权重值和Authority权重值的计算公如式1和式2所示:
其中,vi,vj∈B表示vi存在到vj的超链接,vj,vi∈C表示vj存在到vi的超链接,A[vi]、H[vi]表示vi的Hub权重值和Authority权重值,它们是通过不断迭代而计算得到的,在迭代计算的第一步,首先对每个URL链接都赋初值:
A[Vi]=1,H[Vi]=1式3
最后,在迭代计算出结果之后,对A[vi]、H[vi]规格化,计算式为式4和式5:
其中,vi,vj∈B表示vj存在到vi的超链接,vj,vi∈C表示vj存在到vi的超链接。
4.基于权利要求1所述的基于改良云平台的网页蜘蛛主题式搜索系统,其特征在于,本发明改进的网页蜘蛛模型采用基于VSM向量空间模型的TF-IDF公式计算网页信息内容的主题关联度,依据向量空间模型描述,对于一个网络页面q来说,它被形式化的表示为一个特征词加权向量Q,计算式为式6:
Q={q1,q2,…,qi,…,qm)
其中,q1表示特征词di在页面Q中加权值,是通过TF-IDF公式计算而得到的结果,加权值的计算式为式7,n是主题的特征词向量空间的维数:
qi=tfi*idfi式7
其中,tfi表示特征词di在文档Q中的词频,idfi表示特征词di的倒文档频度,倒文档频度的计算式为式8:
其中,mi表示样本页面集中出现的特征词di的页面数,M表示样本页面集的页面总数,页面q的主题关联度则通过计算该页面的特征词加权向量Q与主题特征向量U+两个向量的内积得出结果,计算式为式9:
其中,m表示特征向量U+的维数,sim(q)表示页面q的主题关联度,它的值越大就表示页面q的网页信息与主题关联的概率越大,本发明提出的改进的网页蜘蛛模型不将页面q直接定义为是否关联,而是通过计算网页信息与主题关联的概率,然后再基于这个概率值来完成对URL链接综合价值的计算。
5.基于权利要求4所述的基于改良云平台的网页蜘蛛主题式搜索系统,其特征在于,评估网页综合价值:在Shark-Search算法使用向量空间模型计算网页信息内容主题关联度的基础上进行改进,在其中加入链接结构的关联信息,计算式为式10:
其中sim(i)代表网页i的主题关联度,fa(i)表示所有链向网页i的网页集合,Inde(i)表示网页i的反向链接数量,即fa(i)中的网页数量,变量q的取值范围是O到l之间,变量q调整链接结构及网页正文二者的比重,te_sim(i)是网页内容与主题的相似度,具体计算如式11所示:
te_sim(i)=Sim(Q_Text(i),Th)xp+Sim(Q_Tit(i),Th)×(1-p)式11
Q_Text(i)是网页i的正文内容,Q_Tit(i)是网页i的标题信息,Th表示主题的关键词集合,变量p与q一样,它的取值范围是O到1之间,Sim的计算采用基于向量空间模型的TF-IDF算法计算文档的特征向量,再采用余弦定理求相似度,如式9所示;
依据对超链接结构价值的计算和内容的主题关联度计算,本发明改进的网页蜘蛛模型算法综合考虑网页q的链接价值和内容的主题关联度,并给出了计算网页的综合价值的计算公式,计算式为式12:
Value(i)=(H[i]+A[i])×(s+sim(i))式12
其中,Value(i)即是要最终获得的网页q的综合价值,H[i]与A[i]分别表示网页i的Hub权重值和Authority权重值,是基于HITS算法采用式4和式5计算得到的结果,sim(i)表示网页i的主题关联度,采用式10计算得到的结果;另外,在式12中添加一个控制因子s,它的取值范围是O到1之间,这样设计是因为存在一种特殊情况,有些Hub权重值和Authority权重值很高的页面可能指向的另一个主题页面集合,但其本身的网页内容与主题并不关联,这时需要添加一个控制因子来使网页蜘蛛能抓取到更多的主题关联页面。
6.基于权利要求1所述的基于改良云平台的网页蜘蛛主题式搜索系统,其特征在于,基于系统总体框架模型,提出本系统采用的未抓取链接库、初始网页库、解析链接库、解析网页库:
未抓取链接...
【专利技术属性】
技术研发人员:扆亮海,
申请(专利权)人:荆门汇易佳信息科技有限公司,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。