The invention discloses a method for eliminating duplicate data in an Internet data collection system. S1: Provides designated words in an existing designated lexicon, collects URLs on search engines, and provides user-defined collection of designated words; S2: The system uses URL checking to remove duplicated URLs; S3: URL collection crawler includes vertical and horizontal calculation algorithms; S4: Determine grasp; To get the target address, first find the address containing the required data, judge the reliability of the data and the feasibility and difficulty of crawling; S5: analyze the content of the page and its organization, determine the crawling rules; S6: Regular expression matching for each level of text, according to the defined identification string, matching search for the text of the page to extract the required data. Reprocessing the captured data can change the traditional problem of large amount of data capturing.
【技术实现步骤摘要】
互联网数据收集系统的重复数据剔除方法
本专利技术属于数据抓取
,更具体地说,尤其涉及一种互联网数据收集系统的重复数据剔除方法。
技术介绍
互联网数据抓取系统在数据抓取中有很大的发展潜力,数据抓取方法比较固定,无法对抓取的数据进行去重处理,造成数据抓取量大,需要进一步优化和完善,后期的去重处理费时费力。
技术实现思路
为解决上述问题,本专利技术提出了一种互联网数据收集系统的重复数据剔除方法,具体包括如下步骤:S1:提供现有指定词库内的指定词,在搜索引擎上URL采集,并提供用户自定义关键词的采集;S2:系统利用URL校验的方式将获取到的URL进行去重;S3:URL采集爬虫包含纵向计算和横向计算算法,并可配置爬取深度和用户权限,提供对URL标签解析功能,包含标题、日期、作者、正文特定标签下的内容提取并分类,提供对搜索出结果的特定标签内指定信息进行抽取,有新闻资讯类网页的正文信息抽取功能;S4:确定抓取目标网址,先找到含有所需数据的网址,判断数据的可靠性以及抓取的可行性和难度;S5:分析目标页面构成,确定抓取规则;S6:正则表达式匹配对每个层次的文本,根据定义的标识串,对网页文本进行匹配搜索以提取所需数据。优选的,所述步骤S4中,注意避免应用了防采集措施的网站,如:限定IP地址在一定时间内对页面的访问次数、用javascript加密内容页面、只允许用户登陆后才可以浏览和只允许通过本站页面连接查看的网站。优选的,所述步骤S5中,由于网页是半结构化文档,除了数据内容之外,还包括大量格式和其它多媒体信息,抓取前务必了解网页数据的组织特点,确定目标数据项的识别规则,通过 ...
【技术保护点】
1.一种互联网数据收集系统的重复数据剔除方法,其特征在于:具体包括如下步骤:S1:提供现有指定词库内的指定词,在搜索引擎上URL采集,并提供用户自定义指定词的采集;S2:系统利用URL校验的方式将获取到的URL进行去重;S3:URL采集爬虫包含纵向计算和横向计算算法,并可配置爬取深度和用户权限,提供对URL标签解析功能,包含标题、日期、作者、正文特定标签下的内容提取并分类,提供对搜索出结果的特定标签内指定信息进行抽取,有新闻资讯类网页的正文信息抽取功能;S4:确定抓取目标网址,先找到含有所需数据的网址,判断数据的可靠性以及抓取的可行性和难度;S5:分析目标页面构成,确定抓取规则;S6:正则表达式匹配对每个层次的文本,根据定义的标识串,对网页文本进行匹配搜索以提取所需数据。
【技术特征摘要】
1.一种互联网数据收集系统的重复数据剔除方法,其特征在于:具体包括如下步骤:S1:提供现有指定词库内的指定词,在搜索引擎上URL采集,并提供用户自定义指定词的采集;S2:系统利用URL校验的方式将获取到的URL进行去重;S3:URL采集爬虫包含纵向计算和横向计算算法,并可配置爬取深度和用户权限,提供对URL标签解析功能,包含标题、日期、作者、正文特定标签下的内容提取并分类,提供对搜索出结果的特定标签内指定信息进行抽取,有新闻资讯类网页的正文信息抽取功能;S4:确定抓取目标网址,先找到含有所需数据的网址,判断数据的可靠性以及抓取的可行性和难度;S5:分析目标页面构成,确定抓取规则;S6:正则表...
【专利技术属性】
技术研发人员:韩金花,
申请(专利权)人:河南大瑞物联网科技有限公司,
类型:发明
国别省市:河南,41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。