基于WEB内容和结构挖掘的智能网络信息采集系统、方法技术方案

技术编号：14014708 阅读：124 留言：0更新日期：2016-11-17 20:27

本发明专利技术公开了基于WEB内容和结构挖掘的智能网络信息采集系统，包括，协议处理器，与协议处理器连接的网页标记提取器，URL处理器，与URL处理器连接的前沿分析器，与网页标记提取器连接的URL数据库，还包括，与URL数据库连接的采集监视器。本系统利用Web内容和超链接结构分析，来判断网页与休闲出行领域的相关性，从而决定采集的顺序，实现智能网络信息的采集。本发明专利技术还公开了采集方法，提取得到网页中的元数据；检测新的URL链接时分析上述网页中检测到的新的URL与采集主题的关联性，生成待访问的URL列表；采集过程中，监控多线程采集进程，同时通过评估采集进程，对采集进行优化，大大提高相关网页的识别率，优化整个采集过程。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据采集处理领域，特别涉及基于WEB内容和结构挖掘的智能网络信息采集、方法。
技术介绍
在网络信息爆炸的时代，信息量变得极度庞大，在铺天盖地的信息海洋中搜索到有价值的信息变得越来越困难。因此，为了解决这一问题，现在已经有很多利用到一些机器的学习方法，比如可以基于用户的请求来预测的网页排序方法等。但即使使用非常复杂的排名算法，但如果没有设定主题索引，即使是再好的信息抓取工具也可能无法检索到该网页中有效的信息。而随着WEB端信息的迅速扩展，各项基于WEB的服务也逐渐繁荣起来。作为这些信息服务的基础和重要组成部分，WEB信息采集正应用于搜索引擎、站点结构分析、页面有效性分析、WEB图进化、用户兴趣挖掘以及个性化信息获取等多种应用和研究中。然而，随着人们对提供的各项信息服务要求越来越高，传统的基于整个WEB的信息采集也越来越力不从心，它无法及时地采集到足够的WEB信息，也不能满足人们日益增长的个性化需求。
技术实现思路
本专利技术要解决的技术问题是，利用Web内容和超链接结构分析，来判断网页与休闲出行领域的相关性，从而决定采集的顺序，实现智能网络信息的采集。解决上述技术问题，本专利技术提供了智能网络信息采集系统，包括：协议处理器，用以根据WEB协议获取网页中的数据；与协议处理器连接的网页标记提取器，用以提取所述网页中的元数据；URL处理器，用以检测新的URL，并分析上述网页中检测到的新的URL与采集主题的关联性；以及根据关联性分析结果对新的URL进行过滤和分类，然后作为待访问的URL存入前沿分析器中；与URL处理器连接的前沿分析器，用以存储待访问的UR...
<a href="http://www.xjishu.com/zhuanli/55/201610499521.html" title="基于WEB内容和结构挖掘的智能网络信息采集系统、方法原文来自X技术">基于WEB内容和结构挖掘的智能网络信息采集系统、方法</a>

【技术保护点】
智能网络信息采集系统，其特征在于，包括：协议处理器，用以根据WEB协议获取网页中的数据；与协议处理器连接的网页标记提取器，用以提取所述网页中的元数据；URL处理器，用以检测新的URL，并分析上述网页中检测到的新的URL与采集主题的关联性；以及根据关联性分析结果对新的URL进行过滤和分类，然后作为待访问的URL存入前沿分析器中；与URL处理器连接的前沿分析器，用以存储待访问的URL列表；与网页标记提取器连接的URL数据库，用以存放所述元数据，以及所述前沿分析器中的URL链接；还包括，与URL数据库连接的采集监视器，用以制定与监控多线程采集，以及通过评估采集进程，对采集进行优化。

【技术特征摘要】
1.智能网络信息采集系统，其特征在于，包括：协议处理器，用以根据WEB协议获取网页中的数据；与协议处理器连接的网页标记提取器，用以提取所述网页中的元数据；URL处理器，用以检测新的URL，并分析上述网页中检测到的新的URL与采集主题的关联性；以及根据关联性分析结果对新的URL进行过滤和分类，然后作为待访问的URL存入前沿分析器中；与URL处理器连接的前沿分析器，用以存储待访问的URL列表；与网页标记提取器连接的URL数据库，用以存放所述元数据，以及所述前沿分析器中的URL链接；还包括，与URL数据库连接的采集监视器，用以制定与监控多线程采集，以及通过评估采集进程，对采集进行优化。2.根据权利要求1所述的智能网络信息采集系统，其特征在于，所述前沿分析器还用以，首先初始化URL作为种子URL列表；其次在每个采集循环包中从上述的URL列表中提取下得到一个待采集的URL；根据HTTP协议提取与所述待采集的URL对应的目标页面；对所述目标页面进行解析后提取其中所有的URL链接和信息；最后将未访问的URL链接继续添加到前沿分析器中。3.根据权利要求1所述的智能网络信息采集系统，其特征在于，在协议处理器中，通过至少HTTP，FTP，Gopher以及BBS中的一种或者多种方式的Web协议获取网页数据。4.根据权利要求3所述的智能网络信息采集系统，其特征在于，所述URL处理器基于神经网络模型，用以将URL链接和页面文本一同作为目标信息进行采集。5.根据权利要求4所述的智能网络信息采集系统，其特征在于，所述URL处理器基于Hopfield网络，进行WEB网页的并行搜索。6.智能网络信息采集...

【专利技术属性】
技术研发人员：黄杨，
申请(专利权)人：厦门趣处网络科技有限公司，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人