一种基于高频字图模型的Deep Web数据爬取方法技术

技术编号：6981146 阅读：331 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种基于高频字图模型的DeepWeb数据爬取方法，其特征是，该方法的实现步骤如下：步骤1：统计获得属性高频字列表和属性高频字覆盖率图；步骤2：将属性高频字列表中的第一个汉字用作查询关键字；步骤3：查询接口向Web数据库提交查询请求；步骤4：Web数据库响应查询请求，将查询结果集合组织为DeepWeb动态页面；步骤5：获取相应的DeepWeb页面，得到结构化数据记录，将这些记录放入本地数据库；步骤6：如果查询覆盖率达到δ则转步骤7；步骤7：选择新数据获取率最高的一个汉字wi用作查询关键字，继续执行步骤3-5获取wi提交之后返回的查询结果，再转步骤7选择下一个查询关键字，直至数据爬取结束。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机应用领域，涉及TOB数据爬取及信息获取，尤其涉及一种基于高频字图模型的De印Web数据爬取方法。
技术介绍
由于Deep Web数据存储在Web数据库中，用户只有向查询表单提交查询，才能访问其中的数据。De印Web数据爬取时，每次使用查询词向其查询接口提交查询后，Web服务器会从后台数据库中获取包含满足查询条件数据，将其组织为查询结果列表页面。Deep Web比Surface Web蕴含了更多有价值的信息，在市场情报分析、舆情分析、电子商务等应用系统中，都需要尽可能全面地爬取De印Web数据，但是De印Web特殊访问方式阻碍了对其内容的获取，因此，为了给分析挖掘提供更为丰富的数据，如何进行Deep Web数据爬取最大限度地获取Deep Web数据页面是一个重要的研究内容，其中关键问题主要集中在如何选择合适查询词，以较少次的数据库查询获得尽可能高的数据覆盖，特别是对于中文环境下的DeepWeb数据获取，查询词选择的难度更大。Raghavan S.等提出了 HiTO框架模型，主要通过手工提供查询词或者从查询结果中手工获取查询词，而没有考虑自动产...

【技术保护点】
１．一种基于高频字图模型的Ｄｅｅｐ　Ｗｅｂ数据爬取方法，其特征是，该方法的实现步骤如下：步骤１：使用采样数据库和汉字频度表作为输入，统计获得属性高频字列表和属性高频字覆盖率图；步骤２：将属性高频字列表中的第一个汉字用作查询关键字；步骤３：根据查询关键字，查询接口向Ｗｅｂ数据库提交查询请求；步骤４：Ｗｅｂ数据库响应查询请求，将查询结果集合组织为Ｄｅｅｐ　Ｗｅｂ动态页面；步骤５：获取相应的Ｄｅｅｐ　Ｗｅｂ页面，得到结构化数据记录，将这些记录放入本地数据库；步骤６：如果查询覆盖率达到δ则转步骤７，否则对每一个候选汉字统计属性高频字覆盖率图模型中已提交字的覆盖率之和，其值最小的为最佳查询汉字，然后继续...

【技术特征摘要】

【专利技术属性】
技术研发人员：禹晓辉，闫中敏，彭朝晖，
申请(专利权)人：山东英佰德信息科技有限公司，
类型：发明
国别省市：88

全部详细技术资料下载我是这个专利的主人