基于WEB内容和结构挖掘的智能网络信息采集系统、方法技术方案

技术编号:14014708 阅读:124 留言:0更新日期:2016-11-17 20:27
本发明专利技术公开了基于WEB内容和结构挖掘的智能网络信息采集系统,包括,协议处理器,与协议处理器连接的网页标记提取器,URL处理器,与URL处理器连接的前沿分析器,与网页标记提取器连接的URL数据库,还包括,与URL数据库连接的采集监视器。本系统利用Web内容和超链接结构分析,来判断网页与休闲出行领域的相关性,从而决定采集的顺序,实现智能网络信息的采集。本发明专利技术还公开了采集方法,提取得到网页中的元数据;检测新的URL链接时分析上述网页中检测到的新的URL与采集主题的关联性,生成待访问的URL列表;采集过程中,监控多线程采集进程,同时通过评估采集进程,对采集进行优化,大大提高相关网页的识别率,优化整个采集过程。

【技术实现步骤摘要】

本专利技术涉及数据采集处理领域,特别涉及基于WEB内容和结构挖掘的智能网络信息采集、方法。
技术介绍
在网络信息爆炸的时代,信息量变得极度庞大,在铺天盖地的信息海洋中搜索到有价值的信息变得越来越困难。因此,为了解决这一问题,现在已经有很多利用到一些机器的学习方法,比如可以基于用户的请求来预测的网页排序方法等。但即使使用非常复杂的排名算法,但如果没有设定主题索引,即使是再好的信息抓取工具也可能无法检索到该网页中有效的信息。而随着WEB端信息的迅速扩展,各项基于WEB的服务也逐渐繁荣起来。作为这些信息服务的基础和重要组成部分,WEB信息采集正应用于搜索引擎、站点结构分析、页面有效性分析、WEB图进化、用户兴趣挖掘以及个性化信息获取等多种应用和研究中。然而,随着人们对提供的各项信息服务要求越来越高,传统的基于整个WEB的信息采集也越来越力不从心,它无法及时地采集到足够的WEB信息,也不能满足人们日益增长的个性化需求。
技术实现思路
本专利技术要解决的技术问题是,利用Web内容和超链接结构分析,来判断网页与休闲出行领域的相关性,从而决定采集的顺序,实现智能网络信息的采集。解决上述技术问题,本专利技术提供了智能网络信息采集系统,包括:协议处理器,用以根据WEB协议获取网页中的数据;与协议处理器连接的网页标记提取器,用以提取所述网页中的元数据;URL处理器,用以检测新的URL,并分析上述网页中检测到的新的URL与采集主题的关联性;以及根据关联性分析结果对新的URL进行过滤和分类,然后作为待访问的URL存入前沿分析器中;与URL处理器连接的前沿分析器,用以存储待访问的URL列表;与网页标记提取器连接的URL数据库,用以存放所述元数据,以及所述前沿分析器中的URL链接;还包括,与URL数据库连接的采集监视器,用以制定与监控多线程采集,以及通过评估采集进程,对采集进行优化。更进一步,所述前沿分析器还用以,首先初始化URL作为种子URL列表;其次在每个采集循环包中从上述的URL列表中提取下得到一个待采集的URL;根据HTTP协议提取与所述待采集的URL对应的目标页面;对所述目标页面进行解析后提取其中所有的URL链接和信息;最后将未访问的URL链接继续添加到前沿分析器中。更进一步,在协议处理器中,通过至少HTTP,FTP,Gopher以及BBS中的一种或者多种方式的Web协议获取网页数据。更进一步,所述URL处理器基于神经网络模型,用以将URL链接和页面文本一同作为目标信息进行采集。更进一步,所述URL处理器基于Hopfield网络,进行WEB网页的并行搜索。基于上述本专利技术还提供了智能网络信息采集方法,包括如下步骤:根据WEB协议获取网页中的数据,提取得到所述网页中的元数据,并对所述元数据进行储存;检测新的URL链接时分析上述网页中检测到的新的URL与采集主题的关联性,并根据关联性分析结果对新的URL进行过滤和分类,然后将所述新的URL作为待访问的URL,生成待访问的URL列表,并对所述URL列表进行储存;上述采集过程中,监控多线程采集进程,同时通过评估采集进程,对采集进行优化。更进一步,监控多线程采集进程的具体方法为:多线程采集进程中的每个线程首先锁定待访问的URL列表,从所述待访问的URL列表中提取下一个URL;当提取得到URL对应的网址后,解锁待访问的URL列表;若有新的URL加入待访问的URL列表时,再次锁定所述待访问的URL列表,当添加成功后再次解锁。更进一步,所述多线程采集时,将已被抓取的网页作为日志进行备份。更进一步,分析上述网页中检测到的新的URL与采集主题的关联性的方法为:基于加强学习模型,通过激励值的形式评判相关性的权重,并根据激励值的结果进行学习并优化之后的选择;多线程采集进程中的采集线程中每次行为,收到相应的激励值反馈,并按照最大化的激励值制定进程。更进一步,所述激励值具体为:初始化种子URL集合,设所有的种子权重的初始值为1;进入下一次迭代,得到每个节点的权重;根据权重对节点进行删剪和排序,遍历上述步骤,直到收集到了设定阈值的Web网页。本专利技术的有益效果:1)与传统的基于整个WEB的信息采集系统相比,本专利技术中基于主题的WEB信息采集系统的目标是在特定的主题内提供比基于整个WEB的信息采集系统质量好而且数量全的相关页面。具体地,通过URL处理器,用以检测新的URL,并分析上述网页中检测到的新的URL与采集主题的关联性;以及根据关联性分析结果对新的URL进行过滤和分类,然后作为待访问的URL存入前沿分析器中,这样一来,本专利技术中的智能网络信息采集系并不采集那些与主题无关的页面,从而极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,也就更加地接近当前最新的WEB信息。2)本专利技术中的智能网络采集系统,充分利用的神经网络和并行计算的优势,在协议处理器,用以根据WEB协议获取网页中的数据;在与协议处理器连接的网页标记提取器,用以提取所述网页中的元数据;并通过“加强学习”技术,在URL处理器中,用以检测新的URL,并分析上述网页中检测到的新的URL与采集主题的关联性;以及根据关联性分析结果对新的URL进行过滤和分类,然后作为待访问的URL存入前沿分析器中计算抓取的网页和主题之间的相关性。由于在爬行过程中不需对全文文本进行分析,仅利用URL页面的超链接结构和元标记信息,来获得采集优先级,可以显著提高信息采集的效率和准确性。3)本专利技术中的智能网络信息采集方法,包括步骤:根据WEB协议获取网页中的数据,提取得到所述网页中的元数据,并对所述元数据进行储存;检测新的URL链接时分析上述网页中检测到的新的URL与采集主题的关联性,并根据关联性分析结果对新的URL进行过滤和分类,然后将所述新的URL作为待访问的URL,生成待访问的URL列表,并对所述URL列表进行储存;上述采集过程中,监控多线程采集进程,同时通过评估采集进程,对采集进行优化。实践证明通过分析网页文本中关键词的词频,并通过对标题、关键词和描述中的关键词进行加权、超链接分析,可以大大提高相关网页的识别率,从而避免对整个Web进行爬行,在有效的时间内,可以发现更多的特定主题的相关文档。附图说明图1是本专利技术一实施例中的智能网络信息采集系统结构示意图。图2是图1中的前沿分析器的处理流程示意图。图3是本专利技术一实施例中的智能网络信息采集方法流程示意图。图4是图3中的监控多线程采集进程的具体方法流程示意图。图5是图3中分析关联性的方法流程示意图。图6是图5中激励值获取方法流程示意图。具体实施方式图1是本专利技术一实施例中的智能网络信息采集系统结构示意图。在本实施例中的智能网络信息采集系统,包括如下的结构:协议处理器1,用以根据WEB协议获取网页中的数据;在一些实施例中,所述协议处理器的任务是通过所有Web协议进行协议处理。在一些实施例中,所述Web协议如HTTP、FTP、Gopher和BBS获取网页数据。HTTP协议是指,超文本传送协议(HTTP-Hypertext transfer protocol),其定义了浏览器怎样向万维网服务器请求万维网文档,以及服务器怎样把文档传送给浏览器。从层次的角度看,HTTP是面向(transaction-oriented)应用层协议,本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201610499521.html" title="基于WEB内容和结构挖掘的智能网络信息采集系统、方法原文来自X技术">基于WEB内容和结构挖掘的智能网络信息采集系统、方法</a>

【技术保护点】
智能网络信息采集系统,其特征在于,包括:协议处理器,用以根据WEB协议获取网页中的数据;与协议处理器连接的网页标记提取器,用以提取所述网页中的元数据;URL处理器,用以检测新的URL,并分析上述网页中检测到的新的URL与采集主题的关联性;以及根据关联性分析结果对新的URL进行过滤和分类,然后作为待访问的URL存入前沿分析器中;与URL处理器连接的前沿分析器,用以存储待访问的URL列表;与网页标记提取器连接的URL数据库,用以存放所述元数据,以及所述前沿分析器中的URL链接;还包括,与URL数据库连接的采集监视器,用以制定与监控多线程采集,以及通过评估采集进程,对采集进行优化。

【技术特征摘要】
1.智能网络信息采集系统,其特征在于,包括:协议处理器,用以根据WEB协议获取网页中的数据;与协议处理器连接的网页标记提取器,用以提取所述网页中的元数据;URL处理器,用以检测新的URL,并分析上述网页中检测到的新的URL与采集主题的关联性;以及根据关联性分析结果对新的URL进行过滤和分类,然后作为待访问的URL存入前沿分析器中;与URL处理器连接的前沿分析器,用以存储待访问的URL列表;与网页标记提取器连接的URL数据库,用以存放所述元数据,以及所述前沿分析器中的URL链接;还包括,与URL数据库连接的采集监视器,用以制定与监控多线程采集,以及通过评估采集进程,对采集进行优化。2.根据权利要求1所述的智能网络信息采集系统,其特征在于,所述前沿分析器还用以,首先初始化URL作为种子URL列表;其次在每个采集循环包中从上述的URL列表中提取下得到一个待采集的URL;根据HTTP协议提取与所述待采集的URL对应的目标页面;对所述目标页面进行解析后提取其中所有的URL链接和信息;最后将未访问的URL链接继续添加到前沿分析器中。3.根据权利要求1所述的智能网络信息采集系统,其特征在于,在协议处理器中,通过至少HTTP,FTP,Gopher以及BBS中的一种或者多种方式的Web协议获取网页数据。4.根据权利要求3所述的智能网络信息采集系统,其特征在于,所述URL处理器基于神经网络模型,用以将URL链接和页面文本一同作为目标信息进行采集。5.根据权利要求4所述的智能网络信息采集系统,其特征在于,所述URL处理器基于Hopfield网络,进行WEB网页的并行搜索。6.智能网络信息采集...

【专利技术属性】
技术研发人员:黄杨
申请(专利权)人:厦门趣处网络科技有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1