一种基于XMLH的WEB信息读取方法技术

技术编号：15159849 阅读：71 留言：0更新日期：2017-04-12 12:15

一种基于XMLH的WEB信息读取方法主要适合XML的结构又较为通用的树型结构抽取规则，它能够把Web上的数据抽取出来整合到指定模式的XML中去，最大限度的实现了Web信息的再利用。

全部详细技术资料下载

【技术实现步骤摘要】

一种基于XMLH的WEB信息读取方法主主要涉及计算机数据库开发方面领域。
技术介绍
随着科学的发展和技术的进步，Web成为流行的信息发布媒介之一，但是Web信息呈爆炸性的增长，人们想要获取一条自己想要的信息却变得像大海捞针一般困难。如何有效、快捷的搜索所需信息成为有待解决的问题。在这种背景下，搜索引擎[1]出现了，它帮助人们通过给定关键词来获取相关的页面。然而，搜索引擎只是部分缓解了信息搜索的问题，结果并不能十分令人满意。不足之处表现在三个方面：1、只给出了相关页面的链接，用户还是需要通过手工浏览网页才能找到相关信息。2、结果不准确，大量的搜索结果都不是用户想要的。3、检索模式简单，无法提供类似SQL这样强大的查询语言。Web信息具有的海量、异构、动态变化等特性使Web信息提取不同于传统信息提取，如何自动高效地处理海量Web信息、如何定位用户所需信息以及保持信息提取的适应性是Web信息提取的一个难点。本方法主要研究如何实现半结构化的Web数据到结构化的XML数据的转换，构造出以XSLT表示的提取规则，并最终应用提取规则对Web数据进行信息提取，从而改进搜索效率，提高搜索准确度。
技术实现思路
通过国家专利检索没有发现关于此系统方面的申请资料。一种基于XMLH的WEB信息读取方法主要分为：1.提取规则：提取规则定义由用户根据自己的需求来进行。在这一阶段,要求用户能够根据样本Web页面完成提取规则的定义任务，即：完成目的表模式设计和数据源到目的表结构的模式映射设计两部分。完成的思路如下：系统首先根据用户指定的URL获取样本网页数据并且将该网页利用HTMLTidy...

【技术保护点】
一种基于XMLH的WEB信息读取方法其特征是提取规则定义由用户根据自己的需求来进行。

【技术特征摘要】
1.一种基于XMLH的WEB信息读取方法其特征是提取规则定义由用户根据自己的需求来进行。2.根据权利要求1所述则完成目的表模式设计和数据源到目的表结构的模式映射设计两部分。3.根据权利要求2中首先根据用户指定的URL获取样本网页数据并且将该网页利用HTMLTidy转换为XML(实际为XHTML)，并且利用XMLParser将该XML文档解析为DOM(DocumentObjectModel)树,这样DOM树就成为Web网页在系...

【专利技术属性】
技术研发人员：不公告发明人，
申请(专利权)人：镇江鼎拓科技信息有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人