信息抽取方法和装置制造方法及图纸

技术编号：8682853 阅读：234 留言：0更新日期：2013-05-09 02:47

本发明专利技术提供了一种信息抽取方法和装置。涉及计算机应用领域；解决了现有信息抽取技术无法满足实际应用需要的问题。该方法包括：对HTML文档进行预处理，得到规范的XHTML文档；对所述XHTML文档进行解析，获取样本实例；通过归纳学习所述样本实例，得出公共XPATH；生成XSLT抽取规则；根据所述XSLT抽取规则和所述XPATH，通过输出文件函数进行信息抽取。本发明专利技术提供的技术方案适用于基于网页结构的特征分析，实现了高查全率和查准率的信息抽取。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机应用领域，尤其涉及一种信息抽取方法和装置。
技术介绍
随着信息产业和通讯技术的飞速发展，互联网已经成为重要的知识库和信息来源。然而，随着互联网上信息量日益庞大，互联网中数据的组织类型更加多样化并且信息缺乏统一管理，人们对于高效率的信息抽取技术的需求越来越迫切。基于网页结构特征分析的方法，采用统计聚类的思想，查全率较高，但在抽取信息时具有一定的盲目性，经常抽取出大量的无用信息。基于隐马尔科夫模型(Hidden MarkovModel，简称HMM)的信息抽取方法，需要相关领域的专家事先构建出该领域的最优数学模型，且模型参数的制定需要大量的样本数据，抽取效率较低。基于本体实现的表格信息抽取方法，不依赖于所抽取的WEB页面的设计格式，也没有对其内容提出任何表示限制，但该方法只适用于一定的应用领域，当应用领域改变时相应的本体需要重新构造。基于自然语言处理方式的信息抽取方法适用于含有大量自由文本且句子成分完整的Web页面，但该方法没有充分利用Web文档的层次结构，且处理速度慢，导致该方法的适用范围较小。可见，现有的信息抽取技术难以同时满足网页信息自动抽取中查全率与准确率高、抽取信息量大、用户负担轻和无关于应用领域等要求。
技术实现思路
本专利技术提供了一种信息抽取方法和装置，解决了现有信息抽取技术无法满足实际应用需要的问题。一种信息抽取方法，包括:对超文本标记语言(HTML)文档进行预处理，得到规范的可扩展超文本置标语言(XHTML)文档；对所述XHTML文档进行解析，获取样本实例；通过归纳学习所述样本实例，得出公共XML路径语言(XPATH)；生成...

【技术保护点】
一种信息抽取方法，其特征在于，包括：对超文本标记语言（HTML）文档进行预处理，得到规范的可扩展超文本置标语言（XHTML）文档；对所述XHTML文档进行解析，获取样本实例；通过归纳学习所述样本实例，得出公共XML路径语言（XPATH）；生成扩展样式表转换语言（XSLT）抽取规则；根据所述XSLT抽取规则和所述XPATH，通过输出文件函数进行信息抽取。

【技术特征摘要】
1.一种信息抽取方法,其特征在于,包括: 对超文本标记语言(HTML)文档进行预处理，得到规范的可扩展超文本置标语言(XHTML)文档；对所述XHTML文档进行解析，获取样本实例；通过归纳学习所述样本实例，得出公共XML路径语言(XPATH)；生成扩展样式表转换语言(XSLT)抽取规则；根据所述XSLT抽取规则和所述XPATH，通过输出文件函数进行信息抽取。2.根据权利要求1所述的信息抽取方法，其特征在于，所述对HTML文档进行预处理，得到规范的XHTML文档包括: 将所述HTML文档解析成一颗HTML文档对象模块(HTMLDOM)树，并获取该树的根元素；为所述HTML文档添加XML文档声明和XSLT规则转换文件；从所述树的树根开始递归遍历所述HTMLDOM树，形成所述规范的XHTML文件。3.根据权利要求2所述的信息抽取方法，其特征在于，从所述树的树根开始递归遍历所述HTMLDOM树，形成所述规范的XHTML文件包括: 从树根开始递归遍历所述HTMLDOM树，判断节点类型；对节点类型为文本节点的节点，用实体引用代替文本节点的特殊字符，并打印所述文本节点；对节点类型为有用元素的元素节点，在取出所述元素节点之前先打印“〈”，获得该元素节点的名称，同时将该元素节点的名称小写化；对节点类型为无用元素的元素节点，直接过滤该元素节点。4.根据权利要求3所述的信息抽取方法，其特征在于，所述从所述树的树根开始递归遍历所述HTMLDOM树，形成所述规范的XHTML文件还包括: 对于有子节点的节点类型为有用元素的元素节点，以同样方式递归打印出所有孩子节点，直到遍历结束，关闭所述元素节点。5.根据权利要求1所述的信息抽取方法，其特征在于，所述对所述XHTML文档进行解析，获取样本实例的步骤包括: 将页面清洗得到的XHTML文档解析成X...

【专利技术属性】
技术研发人员：高滨，刘正伟，高飞，
申请(专利权)人：浪潮北京电子信息产业有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人