一种主题网络爬虫方法、电子设备、存储介质、系统技术方案

技术编号:17705074 阅读:76 留言:0更新日期:2018-04-14 18:00
本发明专利技术提供一种主题网络爬虫方法,包括步骤获取主题爬虫的起始URL,将起始URL加载入种子任务队列,主题爬虫从任务队列中依次获取起始URL进行爬取,将起始URL对应的网络文档下载至本地,对网络文档进行主题相关性分类,获得主题相关文本,将主题相关文本结构化存储至数据仓库;本发明专利技术涉及电子设备与可读存储介质,用于执行一种主题网络爬虫方法;本发明专利技术还涉及一种主题网络爬虫系统;本发明专利技术通过采用word2vec的CBOW模型获得文本分词结果的词向量,采用PCA主成分分析算法对词向量进行降维,采用LSTM模型对降维的词向量进行分类,通过对爬取文档先进行分类,然后针对特定主题有选择性的对文档进行存储,提高主题与爬取文档的相关程度,增加搜索引擎覆盖率。

【技术实现步骤摘要】
一种主题网络爬虫方法、电子设备、存储介质、系统
本专利技术涉及网络爬虫
,尤其涉及一种主题网络爬虫方法、电子设备、存储介质、系统。
技术介绍
网络规模的迅速增长给人们带来极其丰富信息的同时,也给对信息的检索带来很大的挑战,网络爬虫是一种“自动化浏览网络”的程序,或者说是一种网络机器人,目前网络爬虫已被广泛用于互联网搜索引擎或其他类似网站,其可以自动采集所有搜索引擎或网站中其能够访问到的页面内容,使得用户能够更快的通过网络爬虫检索到需要的信息,并且通过网络爬虫采集到的页面内容可以供搜索引擎或者网站做进一步处理,以使搜索引擎或网站可以基于采集到的页面内容进行训练。目前,即使是规模十分庞大的搜索引擎对互联网信息的覆盖率不足50%,检索服务器资源远远跟不上网络规模不断增长的速度。如果依旧采用传统的信息爬取方法会使信息检索的覆盖面越来越小。为解决上述问题,根据在信息检索时用户只对某一主题信息感兴趣的特点,本专利技术通过使用文本分类的方法,针对特定主题网页,提出一种主题网络爬虫方法。
技术实现思路
为了克服现有技术的不足,本专利技术的目的之一在于提供一种主题网络爬虫方法,通过对爬取文档进行分类,提高主题与爬取文档的相关程度,增加搜索引擎覆盖率。本专利技术的目的之一采用以下技术方案实现:一种主题网络爬虫方法,包括以下步骤:初始化主题爬虫,获取主题爬虫的起始URL,将所述起始URL加载入种子任务队列;文档内容爬取,所述主题爬虫从任务队列中依次获取所述起始URL进行爬取,将所述起始URL对应的网络文档下载至本地;文本分类,对所述网络文档进行主题相关性分类,获得主题相关文本;文本存储,将所述主题相关文本结构化存储至数据仓库。进一步地,所述步骤文本分类包括以下步骤:文档预处理,对所述网络文档进行分词和去除停用词处理;文本数据转换,采用word2vec的CBOW模型将分词后的文本数据转换为词向量;词向量降维,采用PCA主成分分析算法对所述词向量进行降维,获得降维词向量;文本分类,采用LSTM模型对所述降维词向量进行分类,获得所述分类结果。进一步地,在所述步骤文档内容爬取和所述步骤文本分类之间还包括步骤未爬取URL收集,获取所述网络文档的URL,当所述网络文档的URL未爬取时,将未爬取的URL加入所述种子任务队列。进一步地,所述步骤文档预处理具体为采用正向最大匹配算法和CRF分词算法对所述网络文档进行分词。一种电子设备,包括:处理器;存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行上述一种主题网络爬虫方法。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行上述一种主题网络爬虫方法。一种主题网络爬虫系统,包括初始化模块、文档爬取模块、文本分类模块、文本存储模块,所述初始化模块获取主题爬虫的起始URL,将所述起始URL加载入种子任务队列,并维护所述种子任务队列的爬取顺序;所述文档爬取模块从任务队列中依次获取所述起始URL进行爬取,将所述起始URL对应的网络文档下载至本地,所述文本分类模块对所述网络文档进行主题相关性分类,获得主题相关文本,所述文本存储模块将所述主题相关文本结构化存储至数据仓库。进一步地,所述文本分类模块还包括文档预处理模块、文本数据转换模块、词向量降维模块,所述文档预处理模块对所述网络文档进行分词和去除停用词处理;所述文本数据转换模块采用word2vec的CBOW模型将分词后的文本数据转换为词向量;所述词向量降维模块采用PCA主成分分析算法对所述词向量进行降维,获得降维词向量;所述文本分类模块采用LSTM模型对所述降维词向量进行分类,获得所述分类结果。进一步地,还包括未爬取URL收集模块,所述未爬取URL收集模块获取所述网络文档的URL,将未爬取的URL加入所述种子任务队列。进一步地,所述文档预处理模块采用正向最大匹配算法和CRF分词算法对所述网络文档进行分词。相比现有技术,本专利技术的有益效果在于:本专利技术通过采用word2vec的CBOW模型获得文本分词结果的词向量,采用PCA主成分分析算法对词向量进行降维,采用LSTM模型对降维的词向量进行分类,通过对爬取文档先进行分类,然后针对特定主题有选择性的对文档进行存储,提高主题与爬取文档的相关程度,在全面爬取主题相关文档和对文档内容结构化提取后,进一步提取文档中与主题相关的未爬取URL,并将未爬取URL传入种子任务队列,增加搜索引擎覆盖率。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,并可依照说明书的内容予以实施,以下以本专利技术的较佳实施例并配合附图详细说明如后。本专利技术的具体实施方式由以下实施例及其附图详细给出。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术的一种主题网络爬虫方法流程图;图2为本专利技术实施例的文本分类流程图;图3为本专利技术实施例的LSTM模型示意图;图4为本专利技术的一种主题网络爬虫系统结构框图。具体实施方式下面,结合附图以及具体实施方式,对本专利技术做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。一种主题网络爬虫方法,如图1所示,包括以下步骤:初始化主题爬虫,采用传统爬虫对互联网上与主题相关的导航类页面内容进行收集,获取大量URL作为主题爬虫的起始URL,获取主题爬虫的起始URL,将起始URL加载入种子任务队列;优选地,步骤初始化主题爬虫还包括根据爬虫需求将单个起始URL弹出种子任务队列,种子任务队列主要对种子URL进行维护,包括初始化加载URL,爬取时对单个URL的出队列操作,单文档爬取后提取的URL入队列操作。在一实施例中,文档内容爬取,主题爬虫从任务队列中依次获取起始URL进行爬取,将起始URL对应的网络文档下载至本地,本实施例中采用顺序爬取种子任务队列中的URL,爬取种子任务队列中当前URL对应网络文档,并将网络文档下载至本地,对当前URL对应的网络文档进行下述未爬取URL收集、文本分类和数据存储处理,获取种子任务队列中下一URL,重复上述步骤,直至爬取完种子任务队列中全部URL。在一实施例中,优选地,在步骤文档内容爬取和步骤文本分类之间还包括步骤未爬取URL收集,获取网络文档的URL,当网络文档的URL未爬取时,将未爬取的URL加入种子任务队列,增加搜索引擎覆盖率。文本分类,对网络文档进行主题相关性分类,获得主题相关文本。如图2所示,优选地,步骤文本分类包括以下步骤:文档预处理,对网络文档进行分词和去除停用词处理;优选地,步骤文档预处理具体为采用sougou语料的正向最大匹配算法和CRF分词算法结合的中文分词算法对网络文档进行分词,去除停用词处理主要包括取出文档中被广泛使用和频繁地出现在文档所有的类,如“哦”,“啊”,“嗯”,“而且”,“但是”,“这个”等,停用词主要包括语气副词,助词,连词,介词等词性的词。文本数据转换,采用word2vec的CBOW模型将分词后的文本数据转换为词向量;CBOW模型是一种利用周围词预测中间词的概率模型,对于中间词Wt,利用周围的2K个词Wt-k,本文档来自技高网...
一种主题网络爬虫方法、电子设备、存储介质、系统

【技术保护点】
一种主题网络爬虫方法,其特征在于包括以下步骤:初始化主题爬虫,获取主题爬虫的起始URL,将所述起始URL加载入种子任务队列;文档内容爬取,所述主题爬虫从任务队列中依次获取所述起始URL进行爬取,将所述起始URL对应的网络文档下载至本地;文本分类,对所述网络文档进行主题相关性分类,获得主题相关文本;文本存储,将所述主题相关文本结构化存储至数据仓库。

【技术特征摘要】
1.一种主题网络爬虫方法,其特征在于包括以下步骤:初始化主题爬虫,获取主题爬虫的起始URL,将所述起始URL加载入种子任务队列;文档内容爬取,所述主题爬虫从任务队列中依次获取所述起始URL进行爬取,将所述起始URL对应的网络文档下载至本地;文本分类,对所述网络文档进行主题相关性分类,获得主题相关文本;文本存储,将所述主题相关文本结构化存储至数据仓库。2.如权利要求1所述的一种主题网络爬虫方法,其特征在于,所述步骤文本分类包括以下步骤:文档预处理,对所述网络文档进行分词和去除停用词处理;文本数据转换,采用word2vec的CBOW模型将分词后的文本数据转换为词向量;词向量降维,采用PCA主成分分析算法对所述词向量进行降维,获得降维词向量;文本分类,采用LSTM模型对所述降维词向量进行分类,获得所述分类结果。3.如权利要求1所述的一种主题网络爬虫方法,其特征在于:在所述步骤文档内容爬取和所述步骤文本分类之间还包括步骤未爬取URL收集,获取所述网络文档的URL,当所述网络文档的URL未爬取时,将未爬取的URL加入所述种子任务队列。4.如权利要求1所述的一种主题网络爬虫方法,其特征在于:所述步骤文档预处理具体为采用正向最大匹配算法和CRF分词算法对所述网络文档进行分词。5.一种电子设备,其特征在于包括:处理器;存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行权利要求1-4任意一项所述的方法。6.一种计算机可读存...

【专利技术属性】
技术研发人员:石忠民徐叶强钟力殷长涛
申请(专利权)人:广州索答信息科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1