一种互联网信息发掘方法技术

技术编号:18525997 阅读:26 留言:0更新日期:2018-07-25 12:47
本发明专利技术公开了一种互联网信息发掘方法,包括:针对互联网站点,归纳其发布网页的规律;针对存在网页发布规律、且发布规律可预测的站点,生成相应的发掘算法,计算当前时刻网页URL生成规则中动态部分的最新值,并输出待采集的URL集合;发布网页URL生成规则,规则包含静态部分与动态部分;发掘行为逻辑,通过网页URL生成规则输出有效的网页URL;采集已生成发掘算法的站点数据,以发掘算法计算生成对应站点的新发布网页URL;网页信息采集程序以发掘算法生成的新发布网页URL为输入进行数据采集。本发明专利技术通过一种全新的算法来弥补广度优先搜索算法的缺点,提高互联网采集数据的及时性、完整性和经济性。

【技术实现步骤摘要】
一种互联网信息发掘方法
本专利技术公开了一种互联网信息发掘方法,涉及互联网信息

技术介绍
随着科技的进步,互联网信息进入一个爆炸式、多元式的时代,互联网成为一个巨大的信息库,互联网信息采集可以使您在信息采集、资源整合、资金利用、人力投入等方面节约大量资源,广泛应用于行业门户网站信息采集、竞争对手情报数据搜集、网站内容系统建设、垂直搜索、舆情监测、科研等领域。常规的互联网信息采集程序工作时,发现新的网页是通过分析已知网页的HTML代码,获取网内的超级链接信息,使用广度优先搜索算法和增量存储算法,实现自动地连续分析链接、抓取文件、处理和保存数据。现有的互联网采集程序基于广度优先搜索算法发现新的互联网网页存在大量不确定性,主要表现在:1、不能够及时发现最新的页面,使得采集及时性不确定。2、不确定是否能够发现目标站点所有页面,不能够做到目标站点全覆盖采集。3、由于互联网网页内超链接信息庞大,再好的广度优先算法也不能够有效减少网页超链接路径,所以发现新页面的资源开销相对较大。
技术实现思路
本专利技术所要解决的技术问题是:针对现有技术的缺陷,提供一种互联网信息发掘方法,通过一种全新的算法来弥补广度优先搜索算法的缺点,提高互联网采集数据的及时性、完整性和经济性。本专利技术为解决上述技术问题采用以下技术方案:一种互联网信息发掘方法,所述方法包括如下步骤:一、针对互联网站点,归纳其发布网页的规律;二、针对存在网页发布规律、且发布规律可预测的站点,生成相应的发掘算法,计算当前时刻网页URL生成规则中动态部分的最新值,并输出待采集的网页URL集合;三、发布网页URL生成规则,规则包含静态部分与动态部分;发掘行为逻辑,通过网页URL生成规则输出有效的网页URL;四、采集已生成发掘算法的站点数据,以发掘算法计算生成对应站点的新发布网页URL;五、网页信息采集程序以发掘算法生成的新发布网页URL为输入进行数据采集。作为本专利技术的进一步优选方案,所述步骤二具体包括如下步骤:201、读取URL生成规则以及该规则当前动态部分数值N;202、估算当前时刻动态部分预估值M;数值上M>N,且以序列方式递增,包括按日期递增,或者按自然数递增。所述预估值M在按自然数递增的情况下,其增长的跨度为固定值或在某一区间内的随机值。203、生成预估值M后,按URL生成规则生成预估URL;204、请求预估URL,通过预估URL请求结果判断预估值M是否合理;如果请求成功,预估URL存在,则认为预估值M合理;如果请求不成功,预估URL不存在,则认为预估值M不合理,返回步骤202重新调整预估值M;205、确定预估值M后,按URL生成规则生成N到M区间内所有URL,并将其输出作为采集程序的输入;206、以本次预估值M作为该URL生成规则动态部分当前值,供下次处理使用。作为本专利技术的进一步优选方案,所述步骤三中,网页URL生成规则的算法处理流程包括:301、选择需要采集的站点,并收集该站点的超链接数据;所述收集方式为广度优先搜索算法,所述超链接数据的数量大于等于1000条。302、对收集到的超链接数据进行分类,按照URL格式进行模式匹配分类;303、计算每个模式分类下的URL静态成分和动态成分;304、分析每个模式分类下的动态成分是否可预测,即动态成分是否在数学上存在时间连续性:若动态部分按时间连续变化或按自然数连续变化,则认为可预测;若动态部分在数学上呈离散变化,则认为不可预测;305、输出网页URL生成规则。所述网页URL生成规则以正则表达式方式输出,一个站点存在复数个不同的网页URL生成规则。本专利技术中的分析站点URL生成规则算法和发掘算法能够处理大多数互联网站点,有着较强的通用性;本专利技术中的分析站点URL生成规则算法和发掘算法极大的提高了互联网数据采集的及时性、全面性,并且极大的降低了互联网数据采集的成本,具有非常高的经济性。附图说明图1是本专利技术中,输出URL生成规则流程图。图2是本专利技术中,发掘算法基本逻辑示意图。具体实施方式下面详细描述本专利技术的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。互联网站点在发布新页面时页面的URL都存在一定的规律,比如:百度贴吧,都是以http://tieba.baidu.com/p/开头,后继跟上流水号:http://tieba.baidu.com/p/2941279456;http://tieba.baidu.com/p/4608373802;又比如:腾讯新闻,都是以http://news.qq.com/a/开头,中间加上日期,后面则是流水号,并以.htm结束:http://news.qq.com/a/20160613/002867.htm;http://news.qq.com/a/20160613/006373.htm。本专利技术所公开的信息挖掘方法,通过对互联网站点发布新页面的行为进行分析,并根据不同站点分别进行分析,尝试发现各个站点的网页发布规律,并判断发布规律是否可预测,若发布规律可预测,则可自动生成对应站点的发掘算法,发掘算法能够及时有效的计算出所对应站点的新发布网页URL,最终通过这些发掘算法替代广度优先搜索算法处理对应站点的数据采集。上述方法的具体步骤包括:一、针对不同站点,尝试发现其发布网页的规律;二、针对存在网页发布规律的、且发布规律可预测的站点,生成有针对性的发掘算法;本专利技术中,发掘算法基本逻辑示意图如图2所示,发掘算法主要是计算当前时刻网页URL生成规则中动态部分的最新值,并输出待采集的网页URL集合,具体包括如下步骤:201、读取网页URL生成规则以及该规则当前动态部分数值N;202、估算当前时刻动态部分预估值M;一般情况下,M>N,且以序列方式递增,如按日期递增或按自然数递增;在自然数情况下预估值M增长的跨度可以为固定值或在某一区间内随机,比如1000或100-500随机;203、生成预估值M后,即可则按网页URL生成规则生成预估URL;204、请求预估URL,通过预估URL请求结果判断预估值M是否合理;一般情况下,如果请求成功,预估URL存在,则认为预估值M合理;若请求不成功,预估URL不存在,则认为预估值M不合理,需要回到步骤02重新调整预估值M;205、确定预估值M后,则按URL生成规则生成N到M区间内所有URL,并将其输出作为采集程序的输入;206、以本次预估值M作为该URL生成规则动态部分当前值,以供下次处理使用。三、所述发掘算法包括:a,发布网页URL生成规则,规则包含静态部分与动态部分;b,发掘行为逻辑,即通过URL生成规则输出有效的网页URL;本专利技术中,输出网页URL生成规则流程图如图1所示,针对具体某个站点,分析其网页URL生成规则的算法处理流程包括:301、选择需要采集的站点,并收集该站点尽可能多的超链接数据;收集方式可以采用传统的广度优先搜索算法,数量应当不低于1000条。302、对收集到的超链接进行分类,分类方式以通过模式匹配方式进行,即按照URL格式进行模式匹配分类;303、计算每个模式分本文档来自技高网...

【技术保护点】
1.一种互联网信息发掘方法,其特征在于,所述方法包括如下步骤:一、针对互联网站点,归纳其发布网页的规律;二、针对存在网页发布规律、且发布规律可预测的站点,生成相应的发掘算法,计算当前时刻网页URL生成规则中动态部分的最新值,并输出待采集的网页URL集合;三、发布网页URL生成规则,规则包含静态部分与动态部分;发掘行为逻辑,通过网页URL生成规则输出有效的网页URL;四、采集已生成发掘算法的站点数据,以发掘算法计算生成对应站点的新发布网页URL;五、网页信息采集程序以发掘算法生成的新发布网页URL为输入进行数据采集。

【技术特征摘要】
1.一种互联网信息发掘方法,其特征在于,所述方法包括如下步骤:一、针对互联网站点,归纳其发布网页的规律;二、针对存在网页发布规律、且发布规律可预测的站点,生成相应的发掘算法,计算当前时刻网页URL生成规则中动态部分的最新值,并输出待采集的网页URL集合;三、发布网页URL生成规则,规则包含静态部分与动态部分;发掘行为逻辑,通过网页URL生成规则输出有效的网页URL;四、采集已生成发掘算法的站点数据,以发掘算法计算生成对应站点的新发布网页URL;五、网页信息采集程序以发掘算法生成的新发布网页URL为输入进行数据采集。2.如权利要求1所述的一种互联网信息发掘方法,其特征在于,所述步骤二具体包括如下步骤:201、读取URL生成规则以及该规则当前动态部分数值N;202、估算当前时刻动态部分预估值M;203、生成预估值M后,按URL生成规则生成预估URL;204、请求预估URL,通过预估URL请求结果判断预估值M是否合理;如果请求成功,预估URL存在,则认为预估值M合理;如果请求不成功,预估URL不存在,则认为预估值M不合理,返回步骤202重新调整预估值M;205、确定预估值M后,按URL生成规则生成N到M区间内所有URL,并将其输出作为采集程序的输入;206、以本次预估值M作为该URL生成规则动态部分当...

【专利技术属性】
技术研发人员:沈文凯李广兵汪洋
申请(专利权)人:南京烽火软件科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1