基于垂直搜索引擎的数据抓取方法技术

技术编号：16427941 阅读：43 留言：0更新日期：2017-10-21 22:52

本发明专利技术提供了一种基于垂直搜索引擎的数据抓取方法，该方法包括：通过网页爬取和分析确定每个网页的关联度；根据关联度阈值将相关联的网页和网址进行存储。本发明专利技术提出了一种基于垂直搜索引擎的数据抓取方法，实现了多线程的网页爬取，提高采集和存储效率。

Data grabbing method based on vertical search engine

The invention provides a data capture method based on vertical search engines, the method includes: through the web crawling and analysis to determine the correlation degree of each page is stored; according to the degree of association threshold related web pages and web site. The invention provides a data grabbing method based on a vertical search engine, which realizes the crawling of multi thread web pages and improves the collection and storage efficiency.

全部详细技术资料下载

【技术实现步骤摘要】
基于垂直搜索引擎的数据抓取方法
本专利技术涉及大数据，特别涉及一种基于垂直搜索引擎的数据抓取方法。
技术介绍
搜索引擎中用户是信息的发布者，用户如果对某方面的信息感兴趣，实时的相关信息就会通过搜索引擎传播到该用户那里。搜索引擎中传播的信息，例如，在微博中，用户的转发行为引发了微博信息在网络中传播，用于市场营销、广告投放和谣言控制等多个方面。由此可见，信息在搜索引擎中的传播对帮助用户获取信息起着至关重要的作用。现有技术中的信息传播跟踪方法通常只考虑了比较单一的影响信息传播的因素，方法中虚拟的参数通常是任意指定的，不具备预测信息传播的能力。此外，当给定一个搜索引擎后，对于如何在搜索引擎上选取一个指定规模的节点集合以达到影响力最大化的效果方面，已有方法只适用于小型网络，对于大规模的站点，只能得到近似的较优结果。
技术实现思路
为解决上述现有技术所存在的问题，本专利技术提出了一种基于垂直搜索引擎的数据抓取方法，包括：通过网页爬取和分析确定每个网页的关联度；根据关联度阈值将相关联的网页和网址进行存储。优选地，所述关联度阈值是通过预先根据训练集对所抓网页进行训练，然后依据输入网页与训练结果进行计算而确定的关联度阈值。优选地，所述关联度包括主题关联度和文本关联度。优选地，所述网页爬取进一步包括：访问爬取目录，并读取目录下的被爬取URL任务，触发网页爬取事件，将页面内容爬取下来，并保存到相应的爬取目录下；使用多线程爬取页面，同时爬取多个页面信息。优选地，所述使用多线程爬取页面，进一步包括：通过调用网页解析器，实现整个爬取过程的标准化；每个线程都执行MapReduce框架中的异...
基于垂直搜索引擎的数据抓取方法

【技术保护点】
一种基于垂直搜索引擎的数据抓取方法，其特征在于，包括：通过网页爬取和分析确定每个网页的关联度；根据关联度阈值将相关联的网页和网址进行存储。

【技术特征摘要】
1.一种基于垂直搜索引擎的数据抓取方法，其特征在于，包括：通过网页爬取和分析确定每个网页的关联度；根据关联度阈值将相关联的网页和网址进行存储。2.根据权利要求1所述的方法，其特征在于，所述关联度阈值是通过预先根据训练集对所抓网页进行训练，然后依据输入网页与训练结果进行计算而确定的关联度阈值。3.根据权利要求1所述的方法，其特征在于，所述关联度包括主题关联度和文本关联度。4.根据权利要求1所述的方法，其特征在于，所述网页爬取进一步包括：访问爬取目录，并读取目录下的被爬取URL任务，触发网页爬取事件，将页面内容爬取下来，并保存到相应的爬取目录下；使用多线程爬取页面，同时爬取多个页面信息。5.根据权利要求4所述的方法，其特征在于，所述使用多线程爬取页面，进一步包括：通过调用网页解析器，实现整个爬取过程的标准化；每个线程都执行MapReduce框架中的异步调用Map操作，所述Map操作预先定义了多线程的网页内容爬取逻辑与算法。6.根据权利要求4所述的方法，其特征在于，还包括：在开始爬取时，启动读取相关流程参数，读取一条URL，通过判断是否为空，然后调用运行函数，实现程序的逐个实例化爬取，在执行一个操作后到爬取任务列表中获取下一个URL，通过采集目录读取爬取列表，通过实例化HTTP方法，实现相关程序的逐步运行，通过配置代理服务器的IP和端口从而获取目标对象的程序爬取，在代理服务器设置完毕后，爬取进程会调用Post的方法，通过对Post...

【专利技术属性】
技术研发人员：张鹏，
申请(专利权)人：成都布林特信息技术有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人