一种排序型隐藏网数据库数据的获取方法技术

技术编号:18084111 阅读:90 留言:0更新日期:2018-05-31 12:35
本发明专利技术公开了一种排序型隐藏网数据库数据的获取方法。使用本发明专利技术能够避免排序型隐藏网返回限制导致的高冗余现象,以最小花费获取较优效果。本发明专利技术考虑返回限制对排序型隐藏网返回数据的影响,从文档频次出发,利用样本集低文档频次选取爬取关键词,提高爬取数据的覆盖度并降低重复度。本发明专利技术首先从文档样本集中选取低文档频次对应的词作为爬取关键词的备选,提高返回结果的覆盖率;然后利用文档频次估计法估计出所有备选的关键词的在目标数据库中的文档频次,以文档频次小于返回数目限制值的备选词作为爬取关键词,最大化获取目标数据库文档数量,降低爬取结构的重复率,能够在最低耗费的情况下获取隐藏网内大量的数据。

【技术实现步骤摘要】
一种排序型隐藏网数据库数据的获取方法
本专利技术涉及信息检索
,具体涉及一种排序型隐藏网数据库数据的获取方法。
技术介绍
在信息时代的今天,网络和信息存在于我们生产生活的各个领域。万维网不仅包含已被标准搜索引擎索引的表面网,同时还包含一些由网上数据库或者文件系统动态生成但未被搜索引擎索引的网络,称为深网或隐藏网。据2001年相关数据显示,隐藏网网页数量是表面网的500倍(隐藏网5千亿张,表面网10亿张左右),而且,与表面网相比,隐藏网数据库存储着大量的高质量信息。然而,隐藏网数据库无法直接访问,只能通过搜索接口以输入关键词的方式获取,因此,其数据的获取相对困难。在大数据时代,隐藏网数据库成为数据的主要来源,对隐藏网数据获取的研究也已经成为信息科学所关注的热点研究方向,具有一定的理论意义和现实应用价值。爬取(Crawling)是获取隐藏网数据的重要方法之一,其基本思想是向确定的隐藏网数据源提交搜索关键词,然后获得相应的返回结果,从而获取隐藏网数据源中的数据。爬取主要是通过向搜索接口输入关键词进行搜索,从而获取隐藏网数据库中的数据,一般可以分为以下四个步骤:(1)定位和评估隐藏网数本文档来自技高网...
一种排序型隐藏网数据库数据的获取方法

【技术保护点】
一种排序型隐藏网数据库数据的获取方法,利用爬取关键词从排序型隐藏网数据库中爬取数据,其特征在于,爬取关键词的获取方法如下:步骤1,从目标数据库中随机提取文档,组成文档样本集;步骤2,提取文档样本集中所有文档的所有有效词,建立“有效词‑文档”索引关系,获得各有效词对应的文档频次;删除文档频次大于样本集样本总量的20%的有效词,剩下的有效词作为备选关键词,组成备选关键词集合,并将备选关键词集合中的备选关键词按照文档频次从大到小的顺序进行排序;步骤3,从备选关键词集合中抽选部分备选关键词作为探测关键词向目标数据库发送查询,得到目标数据库返回结果;计算探测关键词的在目标数据库返回结果中的文档频次;根据...

【技术特征摘要】
1.一种排序型隐藏网数据库数据的获取方法,利用爬取关键词从排序型隐藏网数据库中爬取数据,其特征在于,爬取关键词的获取方法如下:步骤1,从目标数据库中随机提取文档,组成文档样本集;步骤2,提取文档样本集中所有文档的所有有效词,建立“有效词-文档”索引关系,获得各有效词对应的文档频次;删除文档频次大于样本集样本总量的20%的有效词,剩下的有效词作为备选关键词,组成备选关键词集合,并将备选关键词集合中的备选关键词按照文档频次从大到小的顺序进行排序;步骤3,从备选关键词集合中抽选部分备选关键词作为探测关键词向目标数据库发送查询,得到目标数据库返回结果;计算探测关键词的在目标数据库返回结果中的文档频次;根据探测关键词的在目标数据库返回结果中的文档频次以及探测关键词在备选关键词集合中的排序,采用最大似然估计法、简单图灵估计法、基于Zipf定律的估计法或基于Zipf-Mandelbrot定律的估计法,估计出备选关键词集合中剩余备选关键词的在目标数据库中的文档频次;步骤4,根据步骤3获得的所有备选关键词在目标数据库中的文档频次,选取文档频次低于返回限制值的备选关键词作为爬取关键词,组成爬取关键词集合。2.如权利要求1所述的排序型隐藏网数据库数据的获取方法,其特征在于,所述步骤1中,文档的提取方法如下:步骤1.1,随机选取查询词,发送查询词到目标数据库进行查询,获得查询返回结果;将各查询返回结果对应的url链接地址进行去重处理;步骤1.2,下载各url链接地址对应的网页或者文档;针对下载的各网页或者文档,提取其中的文字部分,将文字部分转换成数据流存入对应的text文档;所有的text文档组成文档样本集。3.如权利要求2所述的排序型隐藏网数据库数据的获取方法,其特征在于,所述步骤1.1中,所述查询词为20~50个。4.如权利要求2所述的排序型隐藏网数据库数据的获取方法,其特征在于,所述步骤1.2中,若...

【专利技术属性】
技术研发人员:王焱谭艳欢陈炜琛肖飞李亚欣
申请(专利权)人:中央财经大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1