【技术实现步骤摘要】
网页数据采集方法、装置、存储介质及电子设备
本申请属于网页数据采集
,具体涉及网页数据采集方法、装置、存储介质及电子设备。
技术介绍
互联网的快速发展及大数据时代的来临,越来越多的数据在网络上产生,从海量数据中收集数据技术变得越来越重要。在数据采集的相关技术中,比如,通过数据采集工具从指定网站开始,利用横向或纵向方法不断遍历、采集页面的数据并进行数据存储。但是存在的问题是,采集到的数据中存在大量多余数据,比如,不相干数据、冗余数据等等,导致在对采集到的数据清洗方面,用户需要花费大量的精力和时间。
技术实现思路
为至少在一定程度上克服相关技术中存在的问题,本申请提供网页数据采集方法、装置、存储介质及电子设备,有助于解决采集到的数据中存在大量多余数据的问题。为实现以上目的,本申请采用如下技术方案:第一方面,本申请提供了一种网页数据采集方法,包括:获取第一网址集合;对所述第一网址集合中的网址进行清理,以得到第二网址集合;根据所述第二网址集合对网页数据进行采集。 >进一步地,本文档来自技高网...
【技术保护点】
1.一种网页数据采集方法,其特征在于,包括:/n获取第一网址集合;/n对所述第一网址集合中的网址进行清理,以得到第二网址集合;/n根据所述第二网址集合对网页数据进行采集。/n
【技术特征摘要】
1.一种网页数据采集方法,其特征在于,包括:
获取第一网址集合;
对所述第一网址集合中的网址进行清理,以得到第二网址集合;
根据所述第二网址集合对网页数据进行采集。
2.根据权利要求1所述的方法,其特征在于,
所述获取第一网址集合,包括:
接收用户输入的搜索信息;
根据所述搜索信息进行搜索,得到包含所述搜索信息的网页,获取所述包含所述搜索信息的网页所对应的网址以形成所述第一网址集合。
3.根据权利要求1所述的方法,其特征在于,
所述对所述第一网址集合中的网址进行清理,包括:
对所述第一网址集合中的网址进行如下项中的一项或多项处理:
筛选、去重、分类。
4.根据权利要求3所述的方法,其特征在于,所述筛选包括:
根据预设域名对所述第一网址集合中的网址进行域名匹配,并匹配出与所述预设域名相关的网址。
5.根据权利要求4所述的方法,其特征在于,所述根据预设域名对所述第一网址集合中的网址进行域名匹配,包括:
根据所述预设域名设置正则表达式;
通过所述正则表达式对所述第一网址集合中的网址进行域名匹配。
6.根据权利要求3所述的方法,其特征在于,所述去重包括:
获取所述第一网址集合中的网址所对应网页的标题;
对获取的标题是否为空进行判断,并基于不为空的标题对网址进行去重。
7.根据权利要求6所述的方法,其特征在于,所述基于不为空的标题对网址进行去重,包括:
仅基于所述不为空的标题对网址进行去重;或者,
获取标题不为空的网址所对应网页的发布时间和作者信息,根据获取的标题、发布时间和作者信息,对网址进行去重。
8.根据权利要求3所述的方法,其特征在于,所述分类包括:
获取所述第一网址集合中的网址所对应网页的标题;
对获取的标题是否为空进行判断,并基于不为空的标题对网址进行分类。
9.根据权利要求8所述的方法,其特征在于,所述基于不为空的标题对网址进行分类,包括:
计算所述不为空的标题之间的语义相似度,根据语义相似度对网址进行分类。
10.根据权利要求8所述的方法,其特征在于,
所述根据所述第二网址集合对网页数据进行采集,包括:
根据分好类的网址对网页数据进行采集,并将同类网址所对应的网页数据存储为一类。
11.根据权利要求1-10任一项所述的方法,其特征在于,所述根据所述第二网址集合对网页数据进行采集,包括:
采用分布式采集方式对所述第二网址集合中的各个网址所对应的网页数据进行采集。
12.根据权利要求1-9任一项所述的方法,其特征在于,所述方法还包括:
将所述第二网址集合存储在预先构建好的网址池中。
13.一种网页数据采集装置,其特征在于,包括:
获取模块,用于获取第一网址集合;
清理模块,用于对所述第一网址集合中的网址进行清理,以得到第二网址集合;
采集...
【专利技术属性】
技术研发人员:张诗茹,李春光,谭泽汉,孙秀丹,仲丽君,
申请(专利权)人:珠海格力电器股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。