受限Web数据库的数据抽取方法及装置制造方法及图纸

技术编号:11571142 阅读:60 留言:0更新日期:2015-06-10 01:38
本发明专利技术涉及计算机技术领域,提供了一种受限Web数据库的数据抽取方法及装置。方法包括:抽取装置获得Web数据库查询接口中的一个属性值;生成查询请求,发送给受限Web数据库;解析查询反馈的网页页面,抽取出查询数据;根据查询数据更新本地数据库中的数据;通过基于EdaliwdbFCA算法对本地数据库进行分析,产生下一组查询属性值;当查询数据的条数等于预设阈值时,结束数据的抽取。抽取装置包括查询属性值获得单元、查询单元、解析单元、数据更新单元、查询属性值生成单元和查询结束单元。通过结合形式概念分析方法对基于属性值查询接口的受限Web数据库的数据抽取,实现在受限Web数据库中抽取出质量较高的数据,并且具有稳定性好、效率快的特点。

【技术实现步骤摘要】

本专利技术涉及计算机
,具体而言,涉及一种受限Web数据库的数据抽取方 法及装置。
技术介绍
无论是出于技术原因还是应用需求,若Web数据库的查询返回结果被限制在一定 范围内,即使用属性组对Web数据库进行查询,仅仅k个对象能够被程序自动获得,那么具 有这样特点的Web数据库为受限Web数据库。Web网页分为浅网和深网,浅网是由超链接连 接起来的静态网页,据统计,深网资源的规模是静态页面资源的500倍左右,同时拥有更好 的数据质量,而深网中最重要的资源就是Web数据库。如何抽取受限Web数据库中的数据, 且抽取出质量较高的数据一直是被广泛研宄的课题。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种受限Web数据库的数据抽取方法及装置, 能够实现从受限Web数据库中提取出质量较高的数据。 本专利技术是这样实现的: 第一方面,本专利技术实施例提供了一种受限Web数据库的数据抽取方法,应用于受 限Web数据库的数据抽取装置,所述抽取装置包括本地数据库,所述方法包括: 所述抽取装置获得Web数据库查询接口中的一个属性值; 所述抽取装置根据所述属性值生成查询请求,将所述查询请求发送给所述受限 Web数据库; 所述抽取装置解析查询反馈的网页页面,抽取出所述网页页面所包括的查询数 据; 所述抽取装置根据所述查询数据更新本地数据库中的数据; 所述抽取装置通过基于最大子概念受限Web数据库抽取(Extract data from Limited Web Database based on Formal Concept Analysis,EdaliwdbFCA)算法对所述 本地数据库进行分析,产生下一组查询属性值,以便再次对所述受限Web数据库进行查询; 当所述查询数据的条数等于查询后反馈的网页页面每页显示的数据条数的预设 阈值时,所述抽取装置结束数据的抽取。 结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中所 述抽取装置解析查询反馈的网页页面之前,所述方法还包括: 判断预设时间内是否接收到反馈查询的网页页面; 若在预设时间内未反馈查询的网页页面,所述抽取装置再次将所述查询请求发送 给所述受限Web数据库。 该抽取方法面对的是一个复杂多变的互联网,任何突发事件均可能引起抽取过程 中查询失败的现象。因此,每一次查询都需要被管理和维护,失败的查询能够被发现,并且 可以重新进行查询,这样能使得该抽取方法具有更好的鲁棒性,能够保证抽取工作的顺利 进行。 结合第一方面,本专利技术实施例提供了第一方面的第二种可能的实施方式,其中所 述抽取装置根据所述查询数据更新本地数据库中的数据,包括: 所述抽取装置比较抽取出的查询数据和所述本地数据库中的数据; 所述抽取装置将不同于所述本地数据库中的数据的查询数据添加到所述本地数 据库中。 抽取数据是将受限web数据库中的数据按照一定的规则抽取到本地数据库中,让 受限web数据库中的数据能够被利用。若本地数据库中已经存在抽取出的数据,则不需要 再添加进本地数据库中。 结合第一方面,本专利技术实施例提供了第一方面的第三种可能的实施方式,其中所 述抽取装置根据所述属性值生成查询请求,包括: 所述抽取装置将单值属性转化为所述Web数据库查询接口能识别的多值属性。 第二方面,本专利技术实施例还提供了一种受限Web数据库的数据抽取装置,所述抽 取装置包括本地数据库,所述抽取装置还包括: 查询属性值获得单元,用于获得Web数据库查询接口中的一个属性值; 查询单元,用于根据所述属性值生成查询请求,将所述查询请求发送给所述受限 Web数据库; 解析单元,用于解析查询反馈的网页页面,抽取出所述网页页面所包括的查询数 据; 数据更新单元,用于根据所述查询数据更新本地数据库中的数据; 查询属性值生成单元,用于通过基于最大子概念受限Web数据库抽取 EdaliwdbFCA算法对所述本地数据库进行分析,产生下一组查询属性值,以便再次对所述受 限Web数据库进行查询; 查询结束单元,用于当所述查询数据的条数等于查询后反馈的网页页面每页显示 的数据条数的预设阈值时,结束数据的抽取。 结合第二方面,本专利技术实施例提供了第二方面的第一种可能的实施方式,其中所 述解析单元包括: 网页接收判断子单元,用于判断预设时间内是否接收到反馈查询的网页页面; 若在预设时间内未反馈查询的网页页面,所述查询单元再次将所述查询请求发送 给所述受限Web数据库。 该抽取装置应用在复杂多变的互联网中,任何突发事件均能引起抽取过程中查询 失败的现象。因此,每一次查询都需要被管理和维护,失败的查询能够被发现,并且可以重 新进行查询,这样能使得该抽取装置具有更好的鲁棒性,能够保证抽取工作的顺利进行。 结合第二方面,本专利技术实施例提供了第二方面的第二种可能的实施方式,其中所 述数据更新单元包括: 比较子单元,用于比较所述解析单元抽取出的查询数据和所述本地数据库中的数 据; 数据添加子单元,用于将不同于所述本地数据库中的数据的抽取出的查询数据添 加到所述本地数据库中。 抽取数据是将受限web数据库中的数据按照一定的规则抽取到本地数据库中,让 受限web数据库中的数据能够被利用。若本地数据库中已经存在抽取出的数据,则不需要 再添加进本地数据库中。 结合第二方面,本专利技术实施例提供了第二方面的第三种可能的实施方式,其中所 述查询单元包括: 属性转化子单元,用于将单值属性转化为所述Web数据库查询接口能识别的多值 属性。 本专利技术实施例提供一种受限Web数据库的数据抽取方法及装置,通过结合形式概 念分析方法对基于属性值查询接口的受限Web数据库的数据抽取,实现在受限Web数据库 中抽取出质量较高的数据,并且具有稳定性好、效率快的特点。 为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合 所附附图,作详细说明如下。【附图说明】 为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附 图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对 范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这 些附图获得其他相关的附图。 图1示出了本专利技术实施例提供的一种受限Web数据库的数据抽取方法; 图2示出了本专利技术实施例提供的另一种受限Web数据库的数据抽取方法; 图3示出了本专利技术实施例提供的一种受限Web数据库的数据抽取装置; 图4示出了本专利技术实施例提供的另一种受限Web数据库的数据抽取装置。 图中标记:本地数据库301,查询属性值获得单元302,查询单元303,受限Web数 据库304,解析单元305,数据更新单元306,查询属性值生成单元307,查询结束单元308,网 页接收判断子单元309,比较子单元310,数据添加子单元311,属性转化子单元312。【具体实施方式】 下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整 地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在 此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因 此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保本文档来自技高网...
受限Web数据库的数据抽取方法及装置

【技术保护点】
一种受限Web数据库的数据抽取方法,其特征在于,应用于受限Web数据库的数据抽取装置,所述抽取装置包括本地数据库,所述方法包括:所述抽取装置获得Web数据库查询接口中的一个属性值;所述抽取装置根据所述属性值生成查询请求,将所述查询请求发送给所述受限Web数据库;所述抽取装置解析查询反馈的网页页面,抽取出所述网页页面所包括的查询数据;所述抽取装置根据所述查询数据更新本地数据库中的数据;所述抽取装置通过基于最大子概念受限Web数据库抽取EdaliwdbFCA算法对所述本地数据库进行分析,产生下一组查询属性值,以便再次对所述受限Web数据库进行查询;当所述查询数据的条数等于查询后反馈的网页页面每页显示的数据条数的预设阈值时,所述抽取装置结束数据的抽取。

【技术特征摘要】

【专利技术属性】
技术研发人员:杜鹃张卓
申请(专利权)人:黄河水利职业技术学院郑州大学
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1