一种基于XMLH的WEB信息读取方法技术

技术编号:15159849 阅读:71 留言:0更新日期:2017-04-12 12:15
一种基于XMLH的WEB信息读取方法主要适合XML的结构又较为通用的树型结构抽取规则,它能够把Web上的数据抽取出来整合到指定模式的XML中去,最大限度的实现了Web信息的再利用。

【技术实现步骤摘要】

一种基于XMLH的WEB信息读取方法主主要涉及计算机数据库开发方面领域。
技术介绍
随着科学的发展和技术的进步,Web成为流行的信息发布媒介之一,但是Web信息呈爆炸性的增长,人们想要获取一条自己想要的信息却变得像大海捞针一般困难。如何有效、快捷的搜索所需信息成为有待解决的问题。在这种背景下,搜索引擎[1]出现了,它帮助人们通过给定关键词来获取相关的页面。然而,搜索引擎只是部分缓解了信息搜索的问题,结果并不能十分令人满意。不足之处表现在三个方面:1、只给出了相关页面的链接,用户还是需要通过手工浏览网页才能找到相关信息。2、结果不准确,大量的搜索结果都不是用户想要的。3、检索模式简单,无法提供类似SQL这样强大的查询语言。Web信息具有的海量、异构、动态变化等特性使Web信息提取不同于传统信息提取,如何自动高效地处理海量Web信息、如何定位用户所需信息以及保持信息提取的适应性是Web信息提取的一个难点。本方法主要研究如何实现半结构化的Web数据到结构化的XML数据的转换,构造出以XSLT表示的提取规则,并最终应用提取规则对Web数据进行信息提取,从而改进搜索效率,提高搜索准确度。
技术实现思路
通过国家专利检索没有发现关于此系统方面的申请资料。一种基于XMLH的WEB信息读取方法主要分为:1.提取规则:提取规则定义由用户根据自己的需求来进行。在这一阶段,要求用户能够根据样本Web页面完成提取规则的定义任务,即:完成目的表模式设计和数据源到目的表结构的模式映射设计两部分。完成的思路如下:系统首先根据用户指定的URL获取样本网页数据并且将该网页利用HTMLTidy转换为XML(实际为XHTML),并且利用XMLParser将该XML文档解析为DOM(DocumentObjectModel)树,这样DOM树就成为Web网页在系统内部的表示方式。而对于用户而言,只将该样本网页直观地展示给用户。当进行模式定义时,只需对所看到的感兴趣数据进行拖放即可生成模式定义文件,该文件即为待提取网页的提取规则,其中主要应用了XML的相关技术。而提取规则如何生成是系统的核心问题。在进行Web信息提取时,我们使用Web信息提取过程描述文件(IEPDF)来保存提取规则定义等信息。该文件是结构良好的XML文档,主要记录了以下几方面:(1)数据源的定义,包括为访问待提取网站所需要的定制信息。(2)目的表的元数据信息,包括目的库的定义、目的表的结构信息(目的表定义)、表类型信息。(3)映射规则,包括网页数据(用XPath定义其位置)和目的表结构的映射关系(字段级)。实例如下:<DBServer,WebDataTable,Column-1,”/body/table[0]/tr[2]/td[0]/b[0]/text()”)>根据上面的描述,可对该具体实例作以下规定:“依照该XPath所指定的路径取出Web数据,将其保存到服务器DBServer上的WebDataTable表的Column-1字段中”,实际可以用如下的分级限定方式唯一确定该字段:DBGroup.Web2.DataTable.Column-1。网页分析过程。由于只有格式良好的(Well-formed)XML文档才能转换为DOM树,所以本文首先使用HTMLTidy将样本网页的HTML格式清理转换成XML文档,之后生成DOM树,提取出网页的树形模式。2、信息提取步骤:(1)获取网页数据:首先需要获取IEPDF的网站访问信息之后,根据获得的访问信息登录并获取该网页全部页面数据。(2)HTML到XML的转换:采用HTMLTidy直接将HTML文档转换为XHTML文档,而且XHTML文档为XML的子集,符合XML规范,是格式良好的(Well-formed)。(3)目的表结构创建:获取目的表的元数据定义信息,然后执行如下步骤:(a)根据Database-Server信息连接到目的数据库服务器。(b)根据目的表的定义信息(Table-Information)生成SQL建表语句(CREATETABLE)。(c)执行SQL中的CREATETABLE语句。(4)映射规则执行:在连接到Web网站,并且创建了目的模式以后,我们可以将已经获得的XML(从HTML利用Tidy工具转换得到)数据根据已经定义好的映射规则,分块提取,插入到创建好的目的模式中。由于映射规则使用XPath定义,而且它是属于XML相关技术的范畴,我们利用XMLParser,将XPath表达式作为输入获取该XPath指定数据,然后将获得的数据插入到已创建的目的库表中。(5)提取规则执行算法:通过以上论述,我们可以总结出提取规则执行算法。算法首先遍历URL列表,对每一个URL,首先连接该URL,当且仅当对应的目的表模式不存在时创建目的表模式,遍历映射规则定义列表,执行每一个映射。本文档来自技高网...

【技术保护点】
一种基于XMLH的WEB信息读取方法其特征是提取规则定义由用户根据自己的需求来进行。

【技术特征摘要】
1.一种基于XMLH的WEB信息读取方法其特征是提取规则定义由用户根据自己的需求来进行。2.根据权利要求1所述则完成目的表模式设计和数据源到目的表结构的模式映射设计两部分。3.根据权利要求2中首先根据用户指定的URL获取样本网页数据并且将该网页利用HTMLTidy转换为XML(实际为XHTML),并且利用XMLParser将该XML文档解析为DOM(DocumentObjectModel)树,这样DOM树就成为Web网页在系...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:镇江鼎拓科技信息有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1