本发明专利技术提供了一种信息抽取方法和装置。涉及计算机应用领域;解决了现有信息抽取技术无法满足实际应用需要的问题。该方法包括:对HTML文档进行预处理,得到规范的XHTML文档;对所述XHTML文档进行解析,获取样本实例;通过归纳学习所述样本实例,得出公共XPATH;生成XSLT抽取规则;根据所述XSLT抽取规则和所述XPATH,通过输出文件函数进行信息抽取。本发明专利技术提供的技术方案适用于基于网页结构的特征分析,实现了高查全率和查准率的信息抽取。
【技术实现步骤摘要】
本专利技术涉及计算机应用领域,尤其涉及一种信息抽取方法和装置。
技术介绍
随着信息产业和通讯技术的飞速发展,互联网已经成为重要的知识库和信息来源。然而,随着互联网上信息量日益庞大,互联网中数据的组织类型更加多样化并且信息缺乏统一管理,人们对于高效率的信息抽取技术的需求越来越迫切。基于网页结构特征分析的方法,采用统计聚类的思想,查全率较高,但在抽取信息时具有一定的盲目性,经常抽取出大量的无用信息。基于隐马尔科夫模型(Hidden MarkovModel,简称HMM)的信息抽取方法,需要相关领域的专家事先构建出该领域的最优数学模型,且模型参数的制定需要大量的样本数据,抽取效率较低。基于本体实现的表格信息抽取方法,不依赖于所抽取的WEB页面的设计格式,也没有对其内容提出任何表示限制,但该方法只适用于一定的应用领域,当应用领域改变时相应的本体需要重新构造。基于自然语言处理方式的信息抽取方法适用于含有大量自由文本且句子成分完整的Web页面,但该方法没有充分利用Web文档的层次结构,且处理速度慢,导致该方法的适用范围较小。可见,现有的信息抽取技术难以同时满足网页信息自动抽取中查全率与准确率高、抽取信息量大、用户负担轻和无关于应用领域等要求。
技术实现思路
本专利技术提供了一种信息抽取方法和装置,解决了现有信息抽取技术无法满足实际应用需要的问题。一种信息抽取方法,包括:对超文本标记语言(HTML)文档进行预处理,得到规范的可扩展超文本置标语言(XHTML)文档;对所述XHTML文档进行解析,获取样本实例;通过归纳学习所述样本实例,得出公共XML路径语言(XPATH);生成扩展样式表转换语言(XSLT)抽取规则;根据所述XSLT抽取规则和所述XPATH,通过输出文件函数进行信息抽取。优选的,所述对HTML文档进行预处理,得到规范的XHTML文档包括:将所述HTML文档解析成一颗HTML文档对象模块(HTMLDOM)树,并获取该树的根元素;为所述HTML文档添加XML文档声明和XSLT规则转换文件;从所述树的树根开始递归遍历所述HTMLDOM树,形成所述规范的XHTML文件。优选的,从所述树的树根开始递归遍历所述HTMLDOM树,形成所述规范的XHTML文件包括:从树根开始递归遍历所述HTMLDOM树,判断节点类型;对节点类型为文本节点的节点,用实体引用代替文本节点的特殊字符,并打印所述文本节点;对节点类型为有用元素的元素节点,在取出所述元素节点之前先打印“〈”,获得该元素节点的名称,同时将该元素节点的名称小写化;对节点类型为无用元素的元素节点,直接过滤该元素节点。优选的,所述从所述树的树根开始递归遍历所述HTMLDOM树,形成所述规范的XHTML文件还包括:对于有子节点的节点类型为有用元素的元素节点,以同样方式递归打印出所有孩子节点,直到遍历结束,关闭所述元素节点。优选的,所述对所述XHTML文档进行解析,获取样本实例的步骤包括:将页面清洗得到的XHTML文档解析成XMLDOM树,获得该树的根节点(ROOT);深度优先遍历所述XMLDOM树;获得根节点的名称;在所述根节点有孩子节点时递归处理该节点的孩子节点,在所述根节点没有孩子节点时直接加到当前节点下;把所有子节点加载到JTREE的根节点中生成整棵树。优选的,所述通过归纳学习所述样本实例,得出公共XPATH包括:对于两个样本实例的XPATH表达式,从根节点开始比较;如果节点名称和位置序号都一致,则计入公共XPATH表达式;若某个XPATH的节点名称相同,而位置序号不同,则获得该节点及其所有的兄弟节点,将该节点的孩子序号置为0,并写入公共XPATH表达式中;依次比较直到XPATH表达式结束。优选的,所述生成XSLT抽取规则包括:定义三个变量,使用该三个变量保存起始孩子节点序号、孩子节点数以及步长值;设置公共路径里的参数,初始值为起始孩子节点序号;模板运行一次后将起始孩子节点序号按步长值增加,得到的结果作为参数递归调用模板,完成多条记录数的自动抽取。优选的,所述根据所述XSLT抽取规则和所述XPATH,通过输出文件函数进行信息抽取的步骤之后,还包括:将抽取结果存入XML文件中,用于观察数据抽取的正确性和二次处理。本专利技术还提供了一种信息抽取装置,包括: 页面预处理模块,用于对HTML文档进行预处理,得到规范的XHTML文档;网页树构建模块,用于对所述XHTML文档进行解析,获取样本实例;XPATH构建模块,用于通过归纳学习所述样本实例,得出公共XPATH ;抽取规则形成模块,用于生成XSLT抽取规则;信息抽取模块,用于根据所述XSLT抽取规则和所述XPATH,通过输出文件函数进行信息抽取。本专利技术提供了一种信息抽取方法和装置,对HTML文档进行预处理,得到规范的XHTML文档,然后对所述XHTML文档进行解析,获取样本实例,通过归纳学习所述样本实例,得出公共XPATH,并生成XSLT抽取规则,最后根据所述XSLT抽取规则和所述XPATH,通过输出文件函数进行信息抽取,实现了高查全率和查准率的信息抽取,解决了现有信息抽取技术无法满足实际应用需要的问题。附图说明图1为本专利技术的实施例一提供的一种信息抽取装置的结构示意图;图2为本专利技术的实施例一提供的一种信息抽取方法的流程图;图3为本专利技术的实施例一提供的一种信息抽取方法的实现原理图;图4为本专利技术的实施例二中实验结果示意图。具体实施例方式现有的信息抽取技术难以同时满足网页信息自动抽取中查全率与准确率高、抽取信息量大、用户负担轻和无关于应用领域等要求。为了解决上述问题,本专利技术的实施例提供了一种信息抽取方法和装置。下文中将结合附图对本专利技术的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。首先结合附图,对本专利技术的实施例一进行说明。本专利技术实施例提供了一种信息抽取装置,该装置的结构如图1所示,包括:页面预处理模块101,用于对HTML文档进行预处理,得到规范的XHTML文档;网页树构建模块102,用于对所述XHTML文档进行解析,获取样本实例;XPATH构建模块103,用于通过归纳学习所述样本实例,得出公共XPATH ;抽取规则形成模块104,用于生成XSLT抽取规则;信息抽取模块105,用于根据所述XSLT抽取规则和所述XPATH,通过输出文件函数进行信息抽取。结合图1所示的信息抽取装置,本专利技术的实施例还提供了一种信息抽取方法,使用该方法完成WEB信息抽取的流程如图2所示,包括: 步骤201、对HTML文档进行预处理,得到规范的XHTML文档;本步骤提供一种HTML页面清洗算法,主要实现步骤如下:1、利用NekoHtml把HTML文档解析成一棵HTMLDOM树,并获得该树的根元素。2、为文档添加XML文档声明和XSLT规则转换文件。3、从树根开始,递归遍历HTMLDOM树,根据节点类型进行判断处理。若是文本节点,则用实体引用代替特殊字符,并打印文本节点。若是元素节点,则需判断节点类型是否是无用元素。若是无用节点,如Script、META、Form、STYLE等,则直接过滤;否则,在取出元素节点之前先打印“〈”,利用DOM中的getNodeName ()方法获得元素节点名称,同时将其名称本文档来自技高网...
【技术保护点】
一种信息抽取方法,其特征在于,包括:对超文本标记语言(HTML)文档进行预处理,得到规范的可扩展超文本置标语言(XHTML)文档;对所述XHTML文档进行解析,获取样本实例;通过归纳学习所述样本实例,得出公共XML路径语言(XPATH);生成扩展样式表转换语言(XSLT)抽取规则;根据所述XSLT抽取规则和所述XPATH,通过输出文件函数进行信息抽取。
【技术特征摘要】
1.一种信息抽取方法,其特征在于,包括: 对超文本标记语言(HTML)文档进行预处理,得到规范的可扩展超文本置标语言(XHTML)文档; 对所述XHTML文档进行解析,获取样本实例; 通过归纳学习所述样本实例 ,得出公共XML路径语言(XPATH); 生成扩展样式表转换语言(XSLT)抽取规则; 根据所述XSLT抽取规则和所述XPATH,通过输出文件函数进行信息抽取。2.根据权利要求1所述的信息抽取方法,其特征在于,所述对HTML文档进行预处理,得到规范的XHTML文档包括: 将所述HTML文档解析成一颗HTML文档对象模块(HTMLDOM)树,并获取该树的根元素; 为所述HTML文档添加XML文档声明和XSLT规则转换文件; 从所述树的树根开始递归遍历所述HTMLDOM树,形成所述规范的XHTML文件。3.根据权利要求2所述的信息抽取方法,其特征在于,从所述树的树根开始递归遍历所述HTMLDOM树,形成所述规范的XHTML文件包括: 从树根开始递归遍历所述HTMLDOM树,判断节点类型; 对节点类型为文本节点的节点,用实体引用代替文本节点的特殊字符,并打印所述文本节点; 对节点类型为有用元素的元素节点,在取出所述元素节点之前先打印“〈”,获得该元素节点的名称,同时将该元素节点的名称小写化; 对节点类型为无用元素的元素节点,直接过滤该元素节点。4.根据权利要求3所述的信息抽取方法,其特征在于,所述从所述树的树根开始递归遍历所述HTMLDOM树,形成所述规范的XHTML文件还包括: 对于有子节点的节点类型为有用元素的元素节点,以同样方式递归打印出所有孩子节点,直到遍历结束,关闭所述元素节点。5.根据权利要求1所述的信息抽取方法,其特征在于,所述对所述XHTML文档进行解析,获取样本实例的步骤包括: 将页面清洗得到的XHTML文档解析成X...
【专利技术属性】
技术研发人员:高滨,刘正伟,高飞,
申请(专利权)人:浪潮北京电子信息产业有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。