一种在线Web新闻内容的抽取方法及系统技术方案

技术编号:9034077 阅读:150 留言:0更新日期:2013-08-15 00:54
本发明专利技术涉及一种在线Web新闻内容抽取方法,其步骤为:获取被抽取的Web新闻网页的DOM树;遍历DOM树构建文本节点信息序列和标签路径信息序列;计算标签路径特征值序列;使用加权DS证据理论融合标签路径特征值序列,得到标签路径综合特征值序列;构建文本节点综合特征值序列;根据文本节点综合特征值序列抽取Web新闻网页正文内容。本发明专利技术还公开了一种在线Web新闻内容抽取系统,由解析模块、计算模块、融合模块和抽取模块构成。本发明专利技术中的标签路径特征不基于网页的模板且具有多样性,整个抽取过程都是简单的数学元素,能有效地在线抽取海量异构的Web新闻网页。

【技术实现步骤摘要】

本专利技术属于网络信息处理领域,尤其涉及一种在线Web新闻内容抽取方法及系统。
技术介绍
随着Internet的飞速发展,Web新闻网页已经继传统的报纸、广播、电视之后,成为人们发布和获取信息的主要平台。目前,Web新闻网页除了包含主要内容外,还掺杂着大量的与主题内容无关的信息,如导航条、广告、推荐链接、版权声明等。这些占整个Web页面数据越40%_50%的噪音数据严重影响着许多Web应用的服务质量。如何获取“干净”的网页日益成为一个重要的研究课题。目前,Web新闻内容抽取技术根据抽取工具的自动化程度,分为手工构建规则的抽取系统、有监督的抽取系统、半监督的抽取系统、无监督的抽取系统和在线抽取系统。手工构建规则的抽取系统是最简单和最直接的抽取方法。使用Java、Perl这样通用的程序设计语言或用户自行设计的特定语言,用户面向特定的网站构建包装器。这类的系统需要用户有一定计算机和编程方面的知识、熟悉数据源和输出结果的格式、理解抽取规则的内涵。所以这种系统的自动化程度不高,构造代价高,对于大量网站和网页的抽取,这种花费往往是无法容忍的。特别地,当网页结构发生变化时,抽取系统需手工修改,维护代价高,难以扩展和推广。有监督的抽取系统需要手工或使用工具标记训练网页,通过归`纳得到抽取规则。该类系统虽然无需用户编程,有良好的扩展性,但是训练集标记任务具有一定的专业要求且工作量较大,一般用户难以胜任。半监督的抽取系统相对于有监督的抽取系统,通常不需要用户对网页做出准确的标注就可以生成抽取规则。虽然这类系统能减轻用户的标记工作,但往往也需要用户的参与,如选择目标模式或粗略标记等。此外,该类系统通常需要嵌入一些启发性背景知识,扩展性不高。在无监督的抽取系统中,不需要用户标记任何训练集,在生成包装器的过程中不需要与用户交互的界面。这类系统通常假定Web页面是根据请求从后台数据库中选取数据并嵌入到通用的模板中生成的,研究如何从模板生成的网页中检测出原始的模板,从而进一步抽取嵌入其中的数据。但是这类系统的假设条件强,难以扩展。全自动的抽取方式往往会抽取出许多用户不需要的信息,用户需要的一些信息却可能没有抽取出来。在线抽取系统无需对网页进行预处理或预知它们的结构,能适应任何结构的新闻网页。目前比较流行的在线抽取方法基于新闻网页的HTML文本中字符的分布规律,设定抽取规则,识别抽取对象。但是这些在线方法主要基于网网页中的字符或行,以至于网页忽略网页的结构信息,抽取的精度低。总之,目前的Web新闻内容抽取技术主要存在如下问题:第一,目前很多的网页抽取技术假定被抽取的网页对象由同一个网页模板生成,已有的包装器难以有效抽取未知模板生成的网页的内容,通用性较差。如果需要抽取未知模板的网页的内容,需要针对该模板构建新的包装器,且任何模板的变化将导致包装器失效,在线维护这些模板的代价极高。即使网页由同一个模板生成,这些网页中依然存在着很多非模板节点,不同网页的非模板节点之间存在着一定的差异性,只有部分训练网页生成的包装器就无法涵盖这些差异性,无法胜任部分网页的抽取任务。第二,目前很多的网页抽取技术难以胜任在线抽取任务。为达到较高的抽取精度,较好的匹配被抽取的网页,往往需要较多的训练网页和人工干预,用户负担重,实时性能低,无法满足在线抽取的要求。第三,现有的在线抽取方法虽然能满足在线抽取,但是很多都是基于HTML文本,以行或整个文本为单位,分析字符和标签的分布特点,识别抽取对象。这类方法设计简单,考虑角度单一,完全忽略了 HTML文本中字符的层次性,且该层次性与网页内容的分布有着密切的关系,难以用于海量异构的Web新闻网页的抽取。
技术实现思路
为了解决上述的技术问题,本专利技术提供一种通用性强、用户负担轻、能在线抽取海量异构Web新闻网页的在线Web新闻内容的抽取方法及系统。本专利技术通过以下技术方案实现。本专利技术在线Web新闻内容抽取方法的特点是按如下步骤进行:步骤I,使用HTML解析器解析被抽取的Web新闻网页,得到被抽取的Web新闻网页的DOM树;步骤2,遍历所述DOM树,依次访问所述DOM树中的每个节点,构建文本节点信息序列和文本节点的标签路径信息序列;所述文本节点信息序列中的每个元素有两个属性,分别为文本节点和文本节点的标签路径;所述标签路径信息序列中的每个元素有三个属性,分别是文本节点的标签路径、标签路径到达的文本内容和标签路径到达的文本节点的个数;所述标签路径为所述DOM树的根节点到节点的节点序列;步骤3,根据所述标签路径信息序列和标签路径特征系中每个标签路径特征的定义,通过计算构建标签路径特征值序列;所述标签路径特征系是由六个不同的标签路径特征组成的,分别是文本标签路径长度特征、文本标签路径比特征、扩展文本标签路径长度特征、扩展文本标签路径比特征、文本标签路径层次比特征和扩展文本标签路径层次比特征;所述标签路径特征值序列中的每个元素有七个属性,分别是:标签路径、文本标签路径长度特征的值、文本标签路径比特征的值、扩展文本标签路径长度特征的值、扩展文本标签路径比特征的值、文本标签路径层次比特征的值和扩展文本标签路径层次比特征的值;所述文本标签路径长度特征为标签路径到达的文本内容中字符的个数;所述文本标签路径比特征为标签路径到达的文本内容中字符的个数与标签路径到达的文本节点的个数的比值;所述扩展文本标 签路径长度特征为标签路径到达的文本内容中标点符号的个数;所述扩展文本标签路径比特征为标签路径到达的文本内容中标点符号的个数与标签路径到达的文本节点的个数的比值;所述文本标签路径层次比特征为标签路径到达的文本内容中字符个数与标签路径的层次数的比值;所述扩展文本标签路径层次比特征为标签路径到达的文本内容中标点符号的个数与标签路径的层次数的比值;所述标签路径的层次数为标签路径中标签的个数;步骤4,使用加权DS证据理论融合标签路径特征值序列,得到标签路径综合特征值序列;所述标签路径综合特征值序列中的每个元素有两个属性,分别是标签路径和标签路径的综合特征值;所述标签路径的综合特征值是利用加权DS证据理论融合标签路径的文本标签路径长度特征的值、文本标签路径比特征的值、扩展文本标签路径长度特征的值、扩展文本标签路径比特征的值、文本标签路径层次比特征的值和扩展文本标签路径层次比特征的值得到的结果;步骤5,根据所述标签路径综合特征值序列和文本节点信息序列的映射关系,构建文本节点综合特征值序列;所述文本节点综合特征值序列中的每个元素有两个属性,分别是文本节点和文本节点的综合特征值;步骤6,根据文本节点综合特征值序列抽取Web新闻网页正文内容。本专利技术在线Web新闻内容抽取方法的特点也在于:所述步骤5中构建文本节点综合特征值序列的方法是:根据所述标签路径综合特征值序列中的每个元素的标签路径属性与所述文本节点信息序列中的每个元素的标签路径属性的对应关系,将标签路径的综合特征值分配给对应的文本节点,作为文本节点的综合特征值,构建文本节点综·合特征值序列。所述步骤6根据文本节点综合特征值序列抽取Web新闻网页正文内容的方法是:设置抽取阈值τ,依次访问所述文本节点综合特征值序列中的每个元素,若元素的文本节点的综合特征值大于阈值τ,则抽取元素中的文本节点的文本内容并存储本文档来自技高网
...

【技术保护点】
一种在线Web新闻内容抽取方法,其特征是按如下步骤进行:步骤1,使用HTML解析器解析被抽取的Web新闻网页,得到被抽取的Web新闻网页的DOM树;步骤2,遍历所述DOM树,依次访问所述DOM树中的每个节点,构建文本节点信息序列和文本节点的标签路径信息序列;所述文本节点信息序列中的每个元素有两个属性,分别为文本节点和文本节点的标签路径;所述标签路径信息序列中的每个元素有三个属性,分别是文本节点的标签路径、标签路径到达的文本内容和标签路径到达的文本节点的个数;所述标签路径为所述DOM树的根节点到节点的节点序列;步骤3,根据所述标签路径信息序列和标签路径特征系中每个标签路径特征的定义,通过计算构建标签路径特征值序列;所述标签路径特征系是由六个不同的标签路径特征组成的,分别是文本标签路径长度特征、文本标签路径比特征、扩展文本标签路径长度特征、扩展文本标签路径比特征、文本标签路径层次比特征和扩展文本标签路径层次比特征;所述标签路径特征值序列中的每个元素有七个属性,分别是:标签路径、文本标签路径长度特征的值、文本标签路径比特征的值、扩展文本标签路径长度特征的值、扩展文本标签路径比特征的值、文本标签路径层次比特征的值和扩展文本标签路径层次比特征的值;所述文本标签路径长度特征为标签路径到达的文本内容中字符的个数;所述文本标签路径比特征为标签路径到达的文本内容中字符的个数与标签路径到达的文本节点的个数的比值;所述扩展文本标签路径长度特征为标签路径到达的文本内容中标点符号的个数;所述扩展文本标签路径比特征为标签路径到达的文本内容中标点符号的个数与标签路径到达的文本节点的个数的比值;所述文本标签路径层次比特征为标签路径到达的文本内容中字符个数与标签路径的层次数的比值;所述扩展文本标签路径层次比特征为标签路径到达的文本内容中标点符号的个数与标签路径的层次数的比值;所述标签路径的层次数为标签路径中标签的个数;步骤4,使用加权DS证据理论融合标签路径特征值序列,得到标签路径综合特征值序列;所述标签路径综合特征值序列中的每个元素有两个属性,分别是标签路径和标签路径的综合特征值;所述标签路径的综合特征值是利用加权DS证据理论融合标签路径的文本标签路径长度特征的值、文本标签路径比特征的值、扩展文本标签路径长度特征的值、扩展文本标签 路径比特征的值、文本标签路径层次比特征的值和扩展文本标签路径层次比特征的值得到的结果;步骤5,根据所述标签路径综合特征值序列和文本节点信息序列的映射关系,构建文本节点综合特征值序列;所述文本节点综合特征值序列中的每个元素有两个属性,分别是文本节点和文本节点的综合特征值;步骤6,根据文本节点综合特征值序列抽取Web新闻网页正文内容。...

【技术特征摘要】

【专利技术属性】
技术研发人员:吴共庆李莉徐喆昊胡学钢吴信东
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1