一种知识依赖的网页信息抽取方法技术

技术编号：13013505 阅读：66 留言：0更新日期：2016-03-16 10:47

本发明专利技术提供一种知识依赖的网页信息抽取方法，包括如下步骤：根据领域知识构建领域本体；抽取待分类信息及周边文本；基于信息增益算法选择特征词，并构建特征词词库；计算带权词频，构造特征向量；使用支持向量机训练初始分类模型；基于领域本体构建特征并迭代训练分类器。利用本发明专利技术的方案，可以根据领域知识构建分类器的特征，提高分类器的整体准确性，可以更准确地抽取所需要的信息，并可在此基础上进一步进行数据挖掘、文本分类和数据分析等后续信息处理。

全部详细技术资料下载

【技术实现步骤摘要】
一种知识依赖的网页信息抽取方法
本专利技术提供一种网页信息抽取方法，具体涉及一种知识依赖的网页信息抽取方法。
技术介绍
随着互联网信息的爆炸式增长，如何合理地组织信息，以便于人们有效、快捷及准确地检索所需要的信息，是一个亟待解决的问题。通过浏览网页或关键词搜索来检索信息等信息查询方式均存在一定的局限性，因此我们需要更为高效的信息查询方式。信息抽取能够帮助人们方便地找到所需要的信息，而且信息的内容经过合理的分析和组织后，人们可以有效地获取感兴趣的信息，并可在此基础上进一步进行数据挖掘、文本分类、数据分析等后续信息处理。信息抽取是将文本中包含的信息进行结构化处理，使之成为类似表格的组织形式。然而，Web页面具有动态异构性的特点，网页内容会随着时间的变化而动态改变，且不同的网页在结构上存在较大差异，因此如何从不同Web页面中高质量地抽取所需要的信息是非常重要的。如CN102495892A网页信息抽取方法，A.构建实例列表，从多源异构数据源中提取列表中实例的候选属性；B.对提取到的属性进行同义归纳，将同义属性放在同一个集合中；C.对归纳后的属性进行细分类；D.分析分类后的属性所对应的属性值类型；E.将属性及其对应的属性值类型信息推荐给用户或者将其保存到结构化数据库中。典型的网页信息抽取还有通过建立DOM树来实现，如CN103559199A网页信息抽取方法和装置：根据多个已标注属性的样本网页构建对应的多个第一DOM树，并根据多个第一DOM树构建决策树；根据多个未标注属性的样本网页构建对应的多个第二DOM树，并根据多个第二DOM树优化决策树；根据优化后的决策树抽取待抽...
一种知识依赖的网页信息抽取方法

【技术保护点】
一种知识依赖的网页信息抽取方法，包括如下步骤：A.根据领域知识构建领域本体；B.抽取待分类信息及周边文本；C.基于信息增益算法选择特征词，并构建特征词词库；D.计算带权词频，构造特征向量；E.使用支持向量机训练初始分类模型；F.基于领域本体构建特征并迭代训练分类器。

【技术特征摘要】
1.知识依赖的信息抽取方法，其特征是包括如下步骤：A．根据领域知识构建领域本体；B．抽取待分类信息及周边文本；C．基于信息增益算法选择特征词，并构建特征词词库；D．计算带权词频，构造特征向量；E．使用支持向量机训练初始分类模型；F．基于领域本体构建特征并迭代训练分类器；步骤A所述领域知识中涉及到数据源为领域知识及信息抽取结果的形式；由领域专家根据领域知识及待抽取信息的结果形式构建本发明所需要领域本体，即根据信息抽取的概念以及概念间的关系建立抽取的领域本体，供机器学习分类器使用；根据信息抽取结果的形式及领域知识建立概念列表以及概念之间的关系，并使用RDFS进行描述，构建方法如下：A1.按照抽取结果的形式以及相应的领域知识，构建信息抽取的概念列表以及概念间的关系；A2.根据信息抽取的概念以及概念间的关系构建基于RDF的领域知识库，保证知识库的完整性与准确性；A3.设计知识库与信息抽取模型的接口；所述步骤B的实现方法：对网页建立DOM树即文档对象模型树，对所述的DOM树按指定的抽取规则递归遍历查找待抽取信息所在节点；对于可能包含待抽取信息的节点，从其所在节点开始抽取一定量的周边文本信息，抽取方法如下：B1．将当前节点的文本信息加入待抽取文本，若待抽取文本的数量达到阈值则转步骤B4，否则转步骤B2；B2．按从左到右的顺序依次遍历抽取当前节点的兄弟节点的文本并加入待抽取文本，直到待抽取文本的数量达到阈值，若文本量达到阈值则转步骤B4，否则转步骤B3；B3．向上回溯并抽取当前节点的父节点的文本并加入待抽取文本，若待抽取文本的数量达到阈值则转步骤B4，否则将其父节点置为当前节点，转步骤B2；B4．将待抽取信息及其周边文本存储到文件中，供后续步骤使用；步骤C涉及到的数据源为步骤B所抽取的待分类信息及其周边文本；所述步骤C的实现方法：基于信息增益IG的方法选择特征词，并构建特征词词库，方法如下：C1.使用A...

【专利技术属性】
技术研发人员：陈茂榕，孙伟伟，邵明路，滕晓程，王婷，
申请(专利权)人：焦点科技股份有限公司，东南大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人