基于垂直搜索引擎的数据抓取方法技术

技术编号:16427941 阅读:43 留言:0更新日期:2017-10-21 22:52
本发明专利技术提供了一种基于垂直搜索引擎的数据抓取方法,该方法包括:通过网页爬取和分析确定每个网页的关联度;根据关联度阈值将相关联的网页和网址进行存储。本发明专利技术提出了一种基于垂直搜索引擎的数据抓取方法,实现了多线程的网页爬取,提高采集和存储效率。

Data grabbing method based on vertical search engine

The invention provides a data capture method based on vertical search engines, the method includes: through the web crawling and analysis to determine the correlation degree of each page is stored; according to the degree of association threshold related web pages and web site. The invention provides a data grabbing method based on a vertical search engine, which realizes the crawling of multi thread web pages and improves the collection and storage efficiency.

【技术实现步骤摘要】
基于垂直搜索引擎的数据抓取方法
本专利技术涉及大数据,特别涉及一种基于垂直搜索引擎的数据抓取方法。
技术介绍
搜索引擎中用户是信息的发布者,用户如果对某方面的信息感兴趣,实时的相关信息就会通过搜索引擎传播到该用户那里。搜索引擎中传播的信息,例如,在微博中,用户的转发行为引发了微博信息在网络中传播,用于市场营销、广告投放和谣言控制等多个方面。由此可见,信息在搜索引擎中的传播对帮助用户获取信息起着至关重要的作用。现有技术中的信息传播跟踪方法通常只考虑了比较单一的影响信息传播的因素,方法中虚拟的参数通常是任意指定的,不具备预测信息传播的能力。此外,当给定一个搜索引擎后,对于如何在搜索引擎上选取一个指定规模的节点集合以达到影响力最大化的效果方面,已有方法只适用于小型网络,对于大规模的站点,只能得到近似的较优结果。
技术实现思路
为解决上述现有技术所存在的问题,本专利技术提出了一种基于垂直搜索引擎的数据抓取方法,包括:通过网页爬取和分析确定每个网页的关联度;根据关联度阈值将相关联的网页和网址进行存储。优选地,所述关联度阈值是通过预先根据训练集对所抓网页进行训练,然后依据输入网页与训练结果进行计算而确定的关联度阈值。优选地,所述关联度包括主题关联度和文本关联度。优选地,所述网页爬取进一步包括:访问爬取目录,并读取目录下的被爬取URL任务,触发网页爬取事件,将页面内容爬取下来,并保存到相应的爬取目录下;使用多线程爬取页面,同时爬取多个页面信息。优选地,所述使用多线程爬取页面,进一步包括:通过调用网页解析器,实现整个爬取过程的标准化;每个线程都执行MapReduce框架中的异步调用Map操作,所述Map操作预先定义了多线程的网页内容爬取逻辑与算法。优选地,在开始爬取时,启动读取相关流程参数,读取一条URL,通过判断是否为空,然后调用运行函数,实现程序的逐个实例化爬取,在执行一个操作后到爬取任务列表中获取下一个URL,通过采集目录读取爬取列表,通过实例化HTTP方法,实现相关程序的逐步运行,通过配置代理服务器的IP和端口从而获取目标对象的程序爬取,在代理服务器设置完毕后,爬取进程会调用Post的方法,通过对Post方法处理实现程序信息的获取,将设置的Post参数到对应URL网站上进行爬取操作,并返回爬取状态的状态码,接下来根据这个返回的状态码来执行爬取进程的爬取操作,根据HTTP中定义的状态码来判断下一步流程节点,如果执行相关网页数据,暂时将相关的信息存放于爬取目录中,通过格式的不同判断这个信息是否是该流程节点处理的操作,下一流程节点将当前格式的文件读取随着网页分析模块进行处理。优选地,所述文本关联度通过以下方式来确定:首先装入已训练出的n个关键词,并将其形成一个n维坐标中的一个质点,其坐标为全1向量A,表明位置为1的维度上出现一个关键词,称为主题参考坐标;然后接受待检测网页,将网页解析后进行分词,划分后的词与主题关键词相比对,将出现相应关键词的维度置为1,形成一个待检测坐标;计算网页与主题的关联度得到两个点的坐标,分别是主题参考坐标A和待检测坐标B;根据两点之间的距离公式得到距离|AB|,并将距离|AB|量化为0~1之间的数值|AB|/|AO|,|AO|为主题点与坐标原点O之间的距离,二者的比值为待检测点与主题之间的关联度,调整关联度系数使之与主题的关联度呈现正相关形式:本专利技术相比现有技术,具有以下优点:本专利技术提出了一种基于垂直搜索引擎的数据抓取方法,实现了多线程的网页爬取,提高采集和存储效率。附图说明图1是根据本专利技术实施例的基于垂直搜索引擎的数据抓取方法的流程图。具体实施方式下文与图示本专利技术原理的附图一起提供对本专利技术一个或者多个实施例的详细描述。结合这样的实施例描述本专利技术,但是本专利技术不限于任何实施例。本专利技术的范围仅由权利要求书限定,并且本专利技术涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本专利技术的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本专利技术。本专利技术的一方面提供了一种基于垂直搜索引擎的数据抓取方法。图1是根据本专利技术实施例的基于垂直搜索引擎的数据抓取方法流程图。本专利技术的方法通过对爬取网页的分析,确定该网页的主题关联度。预先根据训练集对所抓网页进行训练,然后依据输入网页与训练结果进行计算,确定一个关联度阈值,以此阈值作为衡量主题相关与否的标准,将符合要求的网页和网址进行存储。该方法通过访问爬取目录,并读取目录下的被爬取URL任务,触发网页爬取事件,将页面内容爬取下来,并保存到相应的爬取目录下。使用多线程爬取页面,同时爬取多个页面信息,通过调用网页解析器,实现整个爬取过程的标准化。爬取进程在网络爬取模块能够运用多线程管理的机制,进行的每个线程都执行MapReduce框架中的异步调用Map操作,Map中定义了多线程的网页内容爬取逻辑与算法。在开始爬取时,启动读取相关流程参数,读取一条URL,通过判断是否为空,然后调用运行函数,实现程序的逐个实例化爬取,在执行一个操作后到爬取任务列表中获取下一个URL,通过采集目录读取爬取列表,通过实例化HTTP方法,实现相关程序的逐步运行,通过配置代理服务器的IP和端口从而获取目标对象的程序爬取,在代理服务器设置完毕后,爬取进程会调用Post的方法,通过对Post方法处理实现程序信息的获取,将设置的Post参数到对应URL网站上进行爬取操作,并返回爬取状态的状态码,接下来根据这个返回的状态码来执行爬取进程的爬取操作,判断方法根据HTTP中定义的状态码来判断下一步流程节点。如果执行相关网页数据,暂时将相关的信息存放于爬取目录中,通过格式的不同判断这个信息是否是该流程节点处理的操作,下一流程节点将当前格式的文件读取随着网页分析模块进行处理。首先爬取进程通过HTTP连接获取云端的网页。在网页的处理过程中,首先由网页解析器对网页进行解析,解析的结果包括两种,一种是网页中所有的URL以及网页标题的标签,这些URL和标题标签将要进行网址关联度检测;另一种是网页的正文文本,用于文本关联度检测模块。文本关联度检测模块检测的结果作为网址关联度检测的输入参数。经过文本关联度检测模块输出的网页,即为主题相关的网页;网址关联度检测的输出即为主题相关的网址。文本关联度检测模块的输入包括网页的文本,以及领域关键词训练模块。领域关键词训练模块向文本关联度检测模块提供关键词,生成标志爬取主题的关键词。领域关键词训练模块的实现机制为:a)从训练集中读出相应网页;b)解析相应网页;c)对解析的数据进行分词;d)选出各网页中同时出现的词作为该类网页的关键词,结果输出。文本关联度检测模块对网页主题相关性判断是基于领域关键词同时出现而建立。具体设计流程如下。首先装入领域关键词训练模块训练出的n个关键词,并将其形成一个n维坐标中的一个质点,其坐标为A(1,1,1,1,...,1),表明位置为1的维度上出现一个关键词,称为主题参考坐标。然后接受待检测网页,将网页解析后进行分词,划分后的词与主题关键词相比对,将出现相应关键词的维度置为1,形成一个待检测坐标。计算网页与主题的关联度。即得到两个点的坐标,分别是主题参考坐标A和待检测坐标B。根据两点之间的距离公本文档来自技高网...
基于垂直搜索引擎的数据抓取方法

【技术保护点】
一种基于垂直搜索引擎的数据抓取方法,其特征在于,包括:通过网页爬取和分析确定每个网页的关联度;根据关联度阈值将相关联的网页和网址进行存储。

【技术特征摘要】
1.一种基于垂直搜索引擎的数据抓取方法,其特征在于,包括:通过网页爬取和分析确定每个网页的关联度;根据关联度阈值将相关联的网页和网址进行存储。2.根据权利要求1所述的方法,其特征在于,所述关联度阈值是通过预先根据训练集对所抓网页进行训练,然后依据输入网页与训练结果进行计算而确定的关联度阈值。3.根据权利要求1所述的方法,其特征在于,所述关联度包括主题关联度和文本关联度。4.根据权利要求1所述的方法,其特征在于,所述网页爬取进一步包括:访问爬取目录,并读取目录下的被爬取URL任务,触发网页爬取事件,将页面内容爬取下来,并保存到相应的爬取目录下;使用多线程爬取页面,同时爬取多个页面信息。5.根据权利要求4所述的方法,其特征在于,所述使用多线程爬取页面,进一步包括:通过调用网页解析器,实现整个爬取过程的标准化;每个线程都执行MapReduce框架中的异步调用Map操作,所述Map操作预先定义了多线程的网页内容爬取逻辑与算法。6.根据权利要求4所述的方法,其特征在于,还包括:在开始爬取时,启动读取相关流程参数,读取一条URL,通过判断是否为空,然后调用运行函数,实现程序的逐个实例化爬取,在执行一个操作后到爬取任务列表中获取下一个URL,通过采集目录读取爬取列表,通过实例化HTTP方法,实现相关程序的逐步运行,通过配置代理服务器的IP和端口从而获取目标对象的程序爬取,在代理服务器设置完毕后,爬取进程会调用Post的方法,通过对Post...

【专利技术属性】
技术研发人员:张鹏
申请(专利权)人:成都布林特信息技术有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1