一种主题网络爬虫方法、电子设备、存储介质、系统技术方案

技术编号：17705074 阅读：76 留言：0更新日期：2018-04-14 18:00

本发明专利技术提供一种主题网络爬虫方法，包括步骤获取主题爬虫的起始URL，将起始URL加载入种子任务队列，主题爬虫从任务队列中依次获取起始URL进行爬取，将起始URL对应的网络文档下载至本地，对网络文档进行主题相关性分类，获得主题相关文本，将主题相关文本结构化存储至数据仓库；本发明专利技术涉及电子设备与可读存储介质，用于执行一种主题网络爬虫方法；本发明专利技术还涉及一种主题网络爬虫系统；本发明专利技术通过采用word2vec的CBOW模型获得文本分词结果的词向量，采用PCA主成分分析算法对词向量进行降维，采用LSTM模型对降维的词向量进行分类，通过对爬取文档先进行分类，然后针对特定主题有选择性的对文档进行存储，提高主题与爬取文档的相关程度，增加搜索引擎覆盖率。

全部详细技术资料下载

【技术实现步骤摘要】
一种主题网络爬虫方法、电子设备、存储介质、系统
本专利技术涉及网络爬虫
，尤其涉及一种主题网络爬虫方法、电子设备、存储介质、系统。
技术介绍
网络规模的迅速增长给人们带来极其丰富信息的同时，也给对信息的检索带来很大的挑战，网络爬虫是一种“自动化浏览网络”的程序，或者说是一种网络机器人，目前网络爬虫已被广泛用于互联网搜索引擎或其他类似网站，其可以自动采集所有搜索引擎或网站中其能够访问到的页面内容，使得用户能够更快的通过网络爬虫检索到需要的信息，并且通过网络爬虫采集到的页面内容可以供搜索引擎或者网站做进一步处理，以使搜索引擎或网站可以基于采集到的页面内容进行训练。目前，即使是规模十分庞大的搜索引擎对互联网信息的覆盖率不足50％，检索服务器资源远远跟不上网络规模不断增长的速度。如果依旧采用传统的信息爬取方法会使信息检索的覆盖面越来越小。为解决上述问题，根据在信息检索时用户只对某一主题信息感兴趣的特点，本专利技术通过使用文本分类的方法，针对特定主题网页，提出一种主题网络爬虫方法。
技术实现思路
为了克服现有技术的不足，本专利技术的目的之一在于提供一种主题网络爬虫方法，通过对爬取文档进行分类，提高主题与爬取文档的相关程度，增加搜索引擎覆盖率。本专利技术的目的之一采用以下技术方案实现：一种主题网络爬虫方法，包括以下步骤：初始化主题爬虫，获取主题爬虫的起始URL，将所述起始URL加载入种子任务队列；文档内容爬取，所述主题爬虫从任务队列中依次获取所述起始URL进行爬取，将所述起始URL对应的网络文档下载至本地；文本分类，对所述网络文档进行主题相关性分类，获得主题相关文本...
一种主题网络爬虫方法、电子设备、存储介质、系统

【技术保护点】
一种主题网络爬虫方法，其特征在于包括以下步骤：初始化主题爬虫，获取主题爬虫的起始URL，将所述起始URL加载入种子任务队列；文档内容爬取，所述主题爬虫从任务队列中依次获取所述起始URL进行爬取，将所述起始URL对应的网络文档下载至本地；文本分类，对所述网络文档进行主题相关性分类，获得主题相关文本；文本存储，将所述主题相关文本结构化存储至数据仓库。

【技术特征摘要】
1.一种主题网络爬虫方法，其特征在于包括以下步骤：初始化主题爬虫，获取主题爬虫的起始URL，将所述起始URL加载入种子任务队列；文档内容爬取，所述主题爬虫从任务队列中依次获取所述起始URL进行爬取，将所述起始URL对应的网络文档下载至本地；文本分类，对所述网络文档进行主题相关性分类，获得主题相关文本；文本存储，将所述主题相关文本结构化存储至数据仓库。2.如权利要求1所述的一种主题网络爬虫方法，其特征在于，所述步骤文本分类包括以下步骤：文档预处理，对所述网络文档进行分词和去除停用词处理；文本数据转换，采用word2vec的CBOW模型将分词后的文本数据转换为词向量；词向量降维，采用PCA主成分分析算法对所述词向量进行降维，获得降维词向量；文本分类，采用LSTM模型对所述降维词向量进行分类，获得所述分类结果。3.如权利要求1所述的一种主题网络爬虫方法，其特征在于：在所述步骤文档内容爬取和所述步骤文本分类之间还包括步骤未爬取URL收集，获取所述网络文档的URL，当所述网络文档的URL未爬取时，将未爬取的URL加入所述种子任务队列。4.如权利要求1所述的一种主题网络爬虫方法，其特征在于：所述步骤文档预处理具体为采用正向最大匹配算法和CRF分词算法对所述网络文档进行分词。5.一种电子设备，其特征在于包括：处理器；存储器；以及程序，其中所述程序被存储在所述存储器中，并且被配置成由处理器执行，所述程序包括用于执行权利要求1-4任意一项所述的方法。6.一种计算机可读存...

【专利技术属性】
技术研发人员：石忠民，徐叶强，钟力，殷长涛，
申请(专利权)人：广州索答信息科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人