一种知识依赖的网页信息抽取方法技术

技术编号:13013505 阅读:66 留言:0更新日期:2016-03-16 10:47
本发明专利技术提供一种知识依赖的网页信息抽取方法,包括如下步骤:根据领域知识构建领域本体;抽取待分类信息及周边文本;基于信息增益算法选择特征词,并构建特征词词库;计算带权词频,构造特征向量;使用支持向量机训练初始分类模型;基于领域本体构建特征并迭代训练分类器。利用本发明专利技术的方案,可以根据领域知识构建分类器的特征,提高分类器的整体准确性,可以更准确地抽取所需要的信息,并可在此基础上进一步进行数据挖掘、文本分类和数据分析等后续信息处理。

【技术实现步骤摘要】
一种知识依赖的网页信息抽取方法
本专利技术提供一种网页信息抽取方法,具体涉及一种知识依赖的网页信息抽取方法。
技术介绍
随着互联网信息的爆炸式增长,如何合理地组织信息,以便于人们有效、快捷及准确地检索所需要的信息,是一个亟待解决的问题。通过浏览网页或关键词搜索来检索信息等信息查询方式均存在一定的局限性,因此我们需要更为高效的信息查询方式。信息抽取能够帮助人们方便地找到所需要的信息,而且信息的内容经过合理的分析和组织后,人们可以有效地获取感兴趣的信息,并可在此基础上进一步进行数据挖掘、文本分类、数据分析等后续信息处理。信息抽取是将文本中包含的信息进行结构化处理,使之成为类似表格的组织形式。然而,Web页面具有动态异构性的特点,网页内容会随着时间的变化而动态改变,且不同的网页在结构上存在较大差异,因此如何从不同Web页面中高质量地抽取所需要的信息是非常重要的。如CN102495892A网页信息抽取方法,A.构建实例列表,从多源异构数据源中提取列表中实例的候选属性;B.对提取到的属性进行同义归纳,将同义属性放在同一个集合中;C.对归纳后的属性进行细分类;D.分析分类后的属性所对应的属性值类型;E.将属性及其对应的属性值类型信息推荐给用户或者将其保存到结构化数据库中。典型的网页信息抽取还有通过建立DOM树来实现,如CN103559199A网页信息抽取方法和装置:根据多个已标注属性的样本网页构建对应的多个第一DOM树,并根据多个第一DOM树构建决策树;根据多个未标注属性的样本网页构建对应的多个第二DOM树,并根据多个第二DOM树优化决策树;根据优化后的决策树抽取待抽取网页的结构化信息;其中,已标注属性的样本网页、未标注属性的样本网页和待抽取网页属于同一领域。根据多个已标注属性的样本网页构建决策树,根据多个未标注属性的样本网页优化该决策树,由于决策树的构建和优化不单单依赖于网页的布局风格,因此优化后的决策树可以适用于同一领域各种布局风格的网页的信息抽取。
技术实现思路
本专利技术的目的是,提供一种知识依赖的网页信息抽取方法,提高网页信息抽取的准确率与效率。本专利技术提供的技术方法如下:知识依赖的信息抽取方法,包括如下步骤:A.根据领域知识构建领域本体;B.抽取待分类信息及其周边文本;C.基于信息增益算法选择特征词,并构建特征词词库;D.计算带权词频,构造特征向量;E.使用支持向量机训练初始分类模型;F.根据领域本体构建特征并迭代训练分类器;步骤A所述数据源为领域知识及信息抽取结果的形式。所述步骤A的实现方法如下:本专利技术由领域专家根据领域知识及待抽取信息的结果形式构建本专利技术所需要领域本体,即根据信息抽取的概念以及概念间的关系建立抽取的领域本体,供机器学习分类器使用;根据信息抽取结果的形式及领域知识建立概念列表以及概念之间的关系,并使用RDFS进行描述,构建方法如下:A1.按照信息抽取的结果形式以及相应的领域知识,构建信息抽取的概念列表以及概念之间的关系。A2.根据信息抽取的概念以及概念间的关系构建基于RDF的领域知识库,保证知识库的完整性与准确性。A3.设计知识库与信息抽取模型的接口。资源描述框架(RDF)是用于描述网络资源的W3C标准,比如网页的标题、作者、修改日期、内容以及版权信息。RDF还需要一种定义应用程序专业的类和属性的方法。应用程序专用的类和属性必须使用对RDF的扩展来定义。RDFSchema就是这样一种扩展。所述步骤B的实现方法如下:对网页建立DOM(文档对象模型)树,对所述的DOM树按指定的抽取规则递归遍历查找待抽取信息所在节点。对于可能包含待抽取信息的节点,从其所在节点开始抽取一定量的周边文本信息,抽取方法如下:B1.将当前节点的文本信息加入待抽取文本,待抽取文本的数量达到阈值则转步骤B4,否则转步骤B2;B2.按从左到右的顺序依次遍历抽取当前节点的兄弟节点的文本并加入待抽取文本,直到待抽取文本的数量达到阈值,若文本量达到阈值则转步骤B4,否则转步骤B3;B3.向上回溯并抽取当前节点的父节点的文本并加入待抽取文本,若待抽取文本的数量达到阈值则转步骤B4,否则将其父节点置为当前节点,转步骤B2;B4.将待抽取信息及其周边文本存储到文件中,供后续步骤使用。步骤C所述数据源为步骤B所抽取的待分类信息及其周边文本。所述步骤C的实现方法如下:基于信息增益(IG)的方法选择特征词,并构建特征词词库,方法如下:C1.使用Ansj中文分词对周边文本信息进行中文分词,为保证信息抽取结果的准确性,我们对抽取的文本信息进行预处理,去除非法字符和停用词。C2.统计校准后的样本中,每个类别,以及每个特征词在类别出现的次数(文档频率),分别写入相应表中。C3.基于信息增益的特征选择算法,选择得分较高的若干个特征词,这些特征词与类别具有较强的相关性。将这些特征词按类别分类存储到相应文件中,作为特征词库使用。其中信息增益公式为:IG(X)=H(Y)-H(Y/X),信息增益衡量该特征在分类系统中的重要性,信息熵为:条件熵为:H(Y|X)=∑xH(Y|X=x),其中信息熵和条件熵用来描述系统的信息量。步骤D所述数据源为步骤B所抽取的待分类信息及其周边文本。D.计算带权词频,构造特征向量将待抽取信息的周边文本进行中文分词并构建文本数组,定位待抽取信息,按照距离衰减权重算法计算信息的带权词频,在不同的应用场景中可以动态调整其权重,以优化分类器的分类效果。带权词频计算公式为:Fw=∑(f*w),其中Fw为带权词频,f为特征词词频,w为对应的权重。并依据计算得到的特征词词频构造特征向量。距离衰减权重算法:D1.距离待抽取信息距离为一的权重为八;D2.距离待抽取信息距离在二到三之间的权重为四;D3.距离待抽取信息距离在四到十之间的权重为二;D4.距离待抽取信息距离在十以上的权重为一。步骤E所述数据源为步骤D中构造的特征向量。所述步骤E的实现方法如下:根据构造的特征向量训练支持向量机模型,并通过优化参数,使模型具有较好的泛化能力。步骤F所述数据源为初始特征向量、初始分类结果及领域知识。所述步骤F的实现方法如下:该方法根据领域本体选择与该分类相关的分类器的分类结果,计算其权重,并将分类结果乘以权重系数添加到新特征向量中。对初始的特征向量进行特征选择,并适当的减少特征数量,添加到新的特征向量中,使特征向量的维数与初始特征向量保持一致。根据构造的新特征变量迭代训练分类器,并得到最终的分类结果。本专利技术的有益效果:利用本专利技术的方案,人们可以有效地抽取所感兴趣的信息,并可在此基础上进一步进行数据挖掘、文本分类、数据分析等后续信息处理。利用Ansj中文分词、资源描述框架(RDF)和建立DOM(文档对象模型)树的结合提高网页信息抽取的准确率与效率。和常用的方法相比较,该方法考虑了领域知识,在分类时不再使用和初始特征相同的特征,而是重新进行特征选择,因此迭代所得的特征更具代表性,而且在迭代的权重计算时,适当降低了那些对于类别区分度更高的特征项的权重,更有利于提高分类器的精度。附图说明图1为本专利技术实例提供的知识依赖的网页信息抽取方法流程图。具体实施方式假定需要抽取的信息为网页中的联系信息及其类别,输入则为概念的列表,即“联系信息”、“非联系信息”、“公司联系信息”、本文档来自技高网
...
一种知识依赖的网页信息抽取方法

【技术保护点】
一种知识依赖的网页信息抽取方法,包括如下步骤:A.根据领域知识构建领域本体;B.抽取待分类信息及周边文本;C.基于信息增益算法选择特征词,并构建特征词词库;D.计算带权词频,构造特征向量;E.使用支持向量机训练初始分类模型;F.基于领域本体构建特征并迭代训练分类器。

【技术特征摘要】
1.知识依赖的信息抽取方法,其特征是包括如下步骤:A.根据领域知识构建领域本体;B.抽取待分类信息及周边文本;C.基于信息增益算法选择特征词,并构建特征词词库;D.计算带权词频,构造特征向量;E.使用支持向量机训练初始分类模型;F.基于领域本体构建特征并迭代训练分类器;步骤A所述领域知识中涉及到数据源为领域知识及信息抽取结果的形式;由领域专家根据领域知识及待抽取信息的结果形式构建本发明所需要领域本体,即根据信息抽取的概念以及概念间的关系建立抽取的领域本体,供机器学习分类器使用;根据信息抽取结果的形式及领域知识建立概念列表以及概念之间的关系,并使用RDFS进行描述,构建方法如下:A1.按照抽取结果的形式以及相应的领域知识,构建信息抽取的概念列表以及概念间的关系;A2.根据信息抽取的概念以及概念间的关系构建基于RDF的领域知识库,保证知识库的完整性与准确性;A3.设计知识库与信息抽取模型的接口;所述步骤B的实现方法:对网页建立DOM树即文档对象模型树,对所述的DOM树按指定的抽取规则递归遍历查找待抽取信息所在节点;对于可能包含待抽取信息的节点,从其所在节点开始抽取一定量的周边文本信息,抽取方法如下:B1.将当前节点的文本信息加入待抽取文本,若待抽取文本的数量达到阈值则转步骤B4,否则转步骤B2;B2.按从左到右的顺序依次遍历抽取当前节点的兄弟节点的文本并加入待抽取文本,直到待抽取文本的数量达到阈值,若文本量达到阈值则转步骤B4,否则转步骤B3;B3.向上回溯并抽取当前节点的父节点的文本并加入待抽取文本,若待抽取文本的数量达到阈值则转步骤B4,否则将其父节点置为当前节点,转步骤B2;B4.将待抽取信息及其周边文本存储到文件中,供后续步骤使用;步骤C涉及到的数据源为步骤B所抽取的待分类信息及其周边文本;所述步骤C的实现方法:基于信息增益IG的方法选择特征词,并构建特征词词库,方法如下:C1.使用A...

【专利技术属性】
技术研发人员:陈茂榕孙伟伟邵明路滕晓程王婷
申请(专利权)人:焦点科技股份有限公司东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1