一种匹配度高的互联网数据采集方法技术

技术编号:20916703 阅读:32 留言:0更新日期:2019-04-20 09:43
本发明专利技术公开了一种匹配度高的互联网数据采集方法,其实现过程为:首先爬取url列表,为web爬虫提供需要抽取数据的网站url地址,即将需要抽取数据的网站url存入爬取url列表中;web爬虫从爬取url列表中获取需要抽取数据的网站的url信息;web爬虫从对应的url页面中获取对应的页面内容并抽取出用户需要的关键字信息;web爬虫把抽取到的数据写入数据库中;设计数据处理模块,通过该数据分析和比对模块对数据库中的数据进行处理。该匹配度高的互联网数据采集方法与现有技术相比,通过链接过滤、数据排重和整合的数据处理方式,将数据进行处理,剔除重复的数据,避免重复抓取,数据相互之间整合匹配度高,从而更好的满足用户需求,实用性强,适用范围广泛,易于推广。

An Internet Data Acquisition Method with High Matching Degree

The invention discloses an Internet data acquisition method with high matching degree, and its implementation process is as follows: first, crawling URL list to provide web crawlers with URL addresses that need to extract data, namely, putting the URL of Web sites that need to extract data into the crawling URL list; web crawlers get URL information of websites that need to extract data from the crawling URL list; web crawlers get URL information of websites that need to extract data from the corresponding URL pages; The web crawler writes the extracted data into the database, designs the data processing module, and processes the data in the database through the data analysis and comparison module. Compared with the existing technology, the Internet data acquisition method with high matching degree can process the data through link filtering, data rearrangement and integrated data processing, eliminate duplicate data, avoid duplicate grasping, and integrate the data with high matching degree, so as to better meet the needs of users, with strong practicability, wide application range and easy promotion.

【技术实现步骤摘要】
一种匹配度高的互联网数据采集方法
本专利技术涉及计算机应用
,具体地说是一种实用性强、对互联网数据进行采集的方法。
技术介绍
互联网网页数据采集就是一个获取互联网网页内容的过程,一般通过网络爬虫抓取,但是现有的抓取过程中经常会出现重复抓取相同URL、抓取后的数据重复、抓取数据之间匹配度不高的情况,基于此,现提供一种匹配度高的互联网数据采集方法,通过分析从网页中抽取出用户需要的数据内容,并对抽取出来的数据内容通过内容和格式的转换和加工处理,存储用以满足用户的需求。
技术实现思路
本专利技术的技术任务是针对以上不足之处,提供一种实用性强、匹配度高的互联网数据采集方法。一种匹配度高的互联网数据采集方法,其实现过程为:首先爬取url列表,为web爬虫提供需要抽取数据的网站url地址,即将需要抽取数据的网站url存入爬取url列表中;web爬虫从爬取url列表中获取需要抽取数据的网站的url信息;web爬虫从对应的url页面中获取对应的页面内容并抽取出用户需要的关键字信息;web爬虫把抽取到的数据写入数据库中;设计数据分析和比对模块,通过该数据分析和比对模块对数据库中的数据进行处理。Web爬虫依据用户事前配置好的规则进行数据采集工作,该配置好的规则包括网页下载规则、网页解析规则以及内容抽取规则。数据分析和比对模块对数据进行处理的过程包括:链接过滤,判断当前链接是否在已经抓取过的链接集合里;数据排重,排重即排除掉重复项,网页排重通过比较两个页面之间的相似度来排除重复项;数据整合,将采集到的数据通过关键字建立对应关系,即关键字之间的匹配。链接过滤的具体实现过程为:对于每一个抓取过的url,通过i个hash函数计算,得到i个值,然后与一个bit数组的i个位置的元素相互对应,在判断某个url是否被抓取过时,首先用i个hash函数对该url计算得到i个值,再查询大型的bit数组内的i个位置的值,若全为1说明已经被抓取过,否则为未抓取过。数据排重通过以下算法实现:输入一个N维向量V,输出一个C位的二进制签名S;初始化一个C维向量Q为零,C位的二进制签名S为零;对向量V中的每一个特征用Hash算法得到一个C位的散列值H;若H第i位是1,则Q的第i个元素加该元素的权重,否则,减去该元素的权重;若Q的第i个元素大于0,则S的第i位为l否则为0;返回签名S;通过计算并判断两个签名的海明距离,小于3则可认为相似度比较高。数据整合就是将处理后的网页内容用一组关键字进行描述,这些关键字可以使用该网页使用频率最高的若干个词汇,经过关键字处理后进行匹配达到数据整合的目的。本专利技术的一种匹配度高的互联网数据采集方法,具有以下优点:本专利技术提供的一种匹配度高的互联网数据采集方法,在正常爬取网络数据时,通过链接过滤、数据排重和整合的数据处理方式,将数据进行处理,剔除重复的数据,避免重复抓取,数据相互之间整合匹配度高,从而更好的满足用户需求,实用性强,适用范围广泛,易于推广。具体实施方式一种匹配度高的互联网数据采集方法,其实现过程为:首先爬取url列表,为web爬虫提供需要抽取数据的网站url地址,即将需要抽取数据的网站url存入爬取url列表中;web爬虫从爬取url列表中获取需要抽取数据的网站的url信息;web爬虫从对应的url页面中获取对应的页面内容并抽取出用户需要的关键字信息;web爬虫把抽取到的数据写入数据库中;设计数据分析和比对模块,通过该数据分析和比对模块对数据库中的数据进行处理。Web爬虫依据用户事前配置好的规则进行数据采集工作,该配置好的规则包括网页下载规则、网页解析规则以及内容抽取规则。数据分析和比对模块对数据进行处理的过程包括:链接过滤,判断当前链接是否在已经抓取过的链接集合里;数据排重,排重即排除掉重复项,网页排重通过比较两个页面之间的相似度来排除重复项;数据整合,将采集到的数据通过关键字建立对应关系,即关键字之间的匹配。链接过滤的具体实现过程为:对于每一个抓取过的url,通过i个hash函数计算,得到i个值,然后与一个bit数组的i个位置的元素相互对应,在判断某个url是否被抓取过时,首先用i个hash函数对该url计算得到i个值,再查询大型的bit数组内的i个位置的值,若全为1说明已经被抓取过,否则为未抓取过。数据排重通过以下算法实现:输入一个N维向量V,输出一个C位的二进制签名S;初始化一个C维向量Q为零,C位的二进制签名S为零;对向量V中的每一个特征用Hash算法得到一个C位的散列值H;若H第i位是1,则Q的第i个元素加该元素的权重,否则,减去该元素的权重;若Q的第i个元素大于0,则S的第i位为l否则为0;返回签名S;通过计算并判断两个签名的海明距离,小于3则可认为相似度比较高。数据整合就是将处理后的网页内容用一组关键字进行描述,这些关键字可以使用该网页使用频率最高的若干个词汇,经过关键字处理后进行匹配达到数据整合的目的。上述具体实施方式仅是本专利技术的具体个案,本专利技术的专利保护范围包括但不限于上述具体实施方式,任何符合本专利技术的一种匹配度高的互联网数据采集方法的权利要求书的且任何所述
的普通技术人员对其所做的适当变化或替换,皆应落入本专利技术的专利保护范围。本文档来自技高网
...

【技术保护点】
1.一种匹配度高的互联网数据采集方法,其特征在于,其实现过程为:首先爬取url列表,为web爬虫提供需要抽取数据的网站url地址,即将需要抽取数据的网站url存入爬取url列表中;web爬虫从爬取url列表中获取需要抽取数据的网站的url信息;web爬虫从对应的url页面中获取对应的页面内容并抽取出用户需要的关键字信息;web爬虫把抽取到的数据写入数据库中;设计数据分析和比对模块,通过该数据分析和比对模块对数据库中的数据进行处理。

【技术特征摘要】
1.一种匹配度高的互联网数据采集方法,其特征在于,其实现过程为:首先爬取url列表,为web爬虫提供需要抽取数据的网站url地址,即将需要抽取数据的网站url存入爬取url列表中;web爬虫从爬取url列表中获取需要抽取数据的网站的url信息;web爬虫从对应的url页面中获取对应的页面内容并抽取出用户需要的关键字信息;web爬虫把抽取到的数据写入数据库中;设计数据分析和比对模块,通过该数据分析和比对模块对数据库中的数据进行处理。2.根据权利要求1所述的一种匹配度高的互联网数据采集方法,其特征在于,Web爬虫依据用户事前配置好的规则进行数据采集工作,该配置好的规则包括网页下载规则、网页解析规则以及内容抽取规则。3.根据权利要求1所述的一种匹配...

【专利技术属性】
技术研发人员:韩金花
申请(专利权)人:河南大瑞物联网科技有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1