互联网数据收集系统的重复数据剔除方法技术方案

技术编号:20916750 阅读:32 留言:0更新日期:2019-04-20 09:44
本发明专利技术公开了一种互联网数据收集系统的重复数据剔除方法,S1:提供现有指定词库内的指定词,在搜索引擎上URL采集,并提供用户自定义指定词的采集;S2:系统利用URL校验的方式将获取到的URL进行去重;S3:URL采集爬虫包含纵向计算和横向计算算法;S4:确定抓取目标网址,先找到含有所需数据的网址,判断数据的可靠性以及抓取的可行性和难度;S5:分析页面内容及其组织方式,确定抓取规则;S6:正则表达式匹配对每个层次的文本,根据定义的标识串,对网页文本进行匹配搜索以提取所需数据。对抓取到的数据进行去重处理,改变传统的数据抓取量大问题。

Duplicate Data Elimination in Internet Data Collection System

The invention discloses a method for eliminating duplicate data in an Internet data collection system. S1: Provides designated words in an existing designated lexicon, collects URLs on search engines, and provides user-defined collection of designated words; S2: The system uses URL checking to remove duplicated URLs; S3: URL collection crawler includes vertical and horizontal calculation algorithms; S4: Determine grasp; To get the target address, first find the address containing the required data, judge the reliability of the data and the feasibility and difficulty of crawling; S5: analyze the content of the page and its organization, determine the crawling rules; S6: Regular expression matching for each level of text, according to the defined identification string, matching search for the text of the page to extract the required data. Reprocessing the captured data can change the traditional problem of large amount of data capturing.

【技术实现步骤摘要】
互联网数据收集系统的重复数据剔除方法
本专利技术属于数据抓取
,更具体地说,尤其涉及一种互联网数据收集系统的重复数据剔除方法。
技术介绍
互联网数据抓取系统在数据抓取中有很大的发展潜力,数据抓取方法比较固定,无法对抓取的数据进行去重处理,造成数据抓取量大,需要进一步优化和完善,后期的去重处理费时费力。
技术实现思路
为解决上述问题,本专利技术提出了一种互联网数据收集系统的重复数据剔除方法,具体包括如下步骤:S1:提供现有指定词库内的指定词,在搜索引擎上URL采集,并提供用户自定义关键词的采集;S2:系统利用URL校验的方式将获取到的URL进行去重;S3:URL采集爬虫包含纵向计算和横向计算算法,并可配置爬取深度和用户权限,提供对URL标签解析功能,包含标题、日期、作者、正文特定标签下的内容提取并分类,提供对搜索出结果的特定标签内指定信息进行抽取,有新闻资讯类网页的正文信息抽取功能;S4:确定抓取目标网址,先找到含有所需数据的网址,判断数据的可靠性以及抓取的可行性和难度;S5:分析目标页面构成,确定抓取规则;S6:正则表达式匹配对每个层次的文本,根据定义的标识串,对网页文本进行匹配搜索以提取所需数据。优选的,所述步骤S4中,注意避免应用了防采集措施的网站,如:限定IP地址在一定时间内对页面的访问次数、用javascript加密内容页面、只允许用户登陆后才可以浏览和只允许通过本站页面连接查看的网站。优选的,所述步骤S5中,由于网页是半结构化文档,除了数据内容之外,还包括大量格式和其它多媒体信息,抓取前务必了解网页数据的组织特点,确定目标数据项的识别规则,通过查看源文件进行分析。优选的,所述步骤S6中匹配搜索过程中,为了尽可能的增强灵活性,采用了正则表达式。本专利技术的一种互联网数据收集系统的重复数据剔除方法,首先通过资金管理平台确定可操作资金,根据博弈论的均衡策略确定买入比例,市场处于下跌行情时,对股票组合最小价值的一个保全措施安排,当价格上涨时,股票组合仍不失去盈利的机会,利用两类产品在不同市场上出现的瞬间定价的不同来迅速实现贱买贵卖的交易,并从中获得价差收益,将股票分类为价值被高估的股票和价值被低估的股票,在预定成本价位的一定波动范围内建仓,最终使综合成本等于预定成本,在账面出现盈利时,按以利博利的手段达到控制阶段性盈利,从而最终实现战略盈利。具体实施方式一种互联网数据收集系统的重复数据剔除方法,具体包括如下步骤:S1:提供现有指定词库内的指定词,在搜索引擎上URL采集,并提供用户自定义关键词的采集;S2:系统利用URL校验的方式将获取到的URL进行去重;S3:URL采集爬虫包含纵向计算和横向计算算法,并可配置爬取深度和用户权限,提供对URL标签解析功能,包含标题、日期、作者、正文特定标签下的内容提取并分类,提供对搜索出结果的特定标签内指定信息进行抽取,有新闻资讯类网页的正文信息抽取功能;S4:确定抓取目标网址,先找到含有所需数据的网址,判断数据的可靠性以及抓取的可行性和难度;S5:分析目标页面构成,确定抓取规则;S6:正则表达式匹配对每个层次的文本,根据定义的标识串,对网页文本进行匹配搜索以提取所需数据。优选的,所述步骤S4中,注意避免应用了防采集措施的网站,如:限定IP地址在一定时间内对页面的访问次数、用javascript加密内容页面、只允许用户登陆后才可以浏览和只允许通过本站页面连接查看的网站。优选的,所述步骤S5中,由于网页是半结构化文档,除了数据内容之外,还包括大量格式和其它多媒体信息,抓取前务必了解网页数据的组织特点,确定目标数据项的识别规则,通过查看源文件进行分析。优选的,所述步骤S6中匹配搜索过程中,为了尽可能的增强灵活性,采用了正则表达式。以上所述仅为本专利技术的优选实施例而已,并不用于限制本专利技术,尽管参照前述实施例对本专利技术进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本专利技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本专利技术的保护范围之内。本文档来自技高网...

【技术保护点】
1.一种互联网数据收集系统的重复数据剔除方法,其特征在于:具体包括如下步骤:S1:提供现有指定词库内的指定词,在搜索引擎上URL采集,并提供用户自定义指定词的采集;S2:系统利用URL校验的方式将获取到的URL进行去重;S3:URL采集爬虫包含纵向计算和横向计算算法,并可配置爬取深度和用户权限,提供对URL标签解析功能,包含标题、日期、作者、正文特定标签下的内容提取并分类,提供对搜索出结果的特定标签内指定信息进行抽取,有新闻资讯类网页的正文信息抽取功能;S4:确定抓取目标网址,先找到含有所需数据的网址,判断数据的可靠性以及抓取的可行性和难度;S5:分析目标页面构成,确定抓取规则;S6:正则表达式匹配对每个层次的文本,根据定义的标识串,对网页文本进行匹配搜索以提取所需数据。

【技术特征摘要】
1.一种互联网数据收集系统的重复数据剔除方法,其特征在于:具体包括如下步骤:S1:提供现有指定词库内的指定词,在搜索引擎上URL采集,并提供用户自定义指定词的采集;S2:系统利用URL校验的方式将获取到的URL进行去重;S3:URL采集爬虫包含纵向计算和横向计算算法,并可配置爬取深度和用户权限,提供对URL标签解析功能,包含标题、日期、作者、正文特定标签下的内容提取并分类,提供对搜索出结果的特定标签内指定信息进行抽取,有新闻资讯类网页的正文信息抽取功能;S4:确定抓取目标网址,先找到含有所需数据的网址,判断数据的可靠性以及抓取的可行性和难度;S5:分析目标页面构成,确定抓取规则;S6:正则表...

【专利技术属性】
技术研发人员:韩金花
申请(专利权)人:河南大瑞物联网科技有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1