一种提取网页正文的方法技术

技术编号:11074233 阅读:126 留言:0更新日期:2015-02-25 13:06
一种提取网页正文的方法,包括:根据待提取的网页的域名,判断预置的站点知识库中是否存储有对应于该域名的用于提取正文的提取信息;若有,则根据所述提取信息对所述网页的正文进行提取;若所述站点知识库中没有对应于该域名的提取信息,或,根据该提取信息对所述网页的正文提取失败,则确定所述网页的正文节点,并通过提取所述正文节点中的文本获取所述网页的正文。彻底解放人工处理,减少了人工操作和干预成本;提高了程序提取网页正文的效率;实现了针对多种语言类的网站的自动提取,并且提取难度也会大大降低。

【技术实现步骤摘要】

本专利技术属于通信领域,尤其涉及。
技术介绍
目前提取网站内容信息都是针对当前网站,人工去分析网站结构,然后针对网站主体内容结构去制定相应的模板,当网站改版后,则需要人工去判断,并修改以前的模板,每个不同站点的内容,甚至同个网站不同类型的站点内容,都需要配置一套相应的模板,当网站数量越来越多的时候,模板制定和维护的工作量也会越来越大,人工干预成本也会越来越高,效率也会越来越低。
技术实现思路
有鉴于此,为了解决现有技术中存在提取网页内容信息时需要大量的人工操作和干预成本的问题,本专利技术的目的是提出。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。 在一些可选的实施例中,所述方法,包括: 根据待提取的网页的域名,判断预置的站点知识库中是否存储有对应于该域名的用于提取正文的提取信息; 若有,则根据所述提取信息对所述网页的正文进行提取;若所述站点知识库中没有对应于该域名的提取信息,或,根据该提取信息对所述网页的正文提取失败,则, 确定所述网页的正文节点,并通过提取所述正文节点中的文本获取所述网页的正文。 采用上述实施例,可达到以下效果: 彻底解放人工处理,减少了人工操作和干预成本,不需要人工去判断网站是否改版; 提取内容成功后,会记录当前网页结构并保存到站点知识库中,当下次再提取相同站点则自动从站点知识库中调取以前的经验来提取正文,提高了程序提取网页正文的效率; 预先根据不同的语言体系设置相应的提取网页正文时所需的统计算法和阈值,实现了针对多种语言类的网站的自动提取,并且提取难度也会大大降低。 为了上述以及相关的目的,一个或多个实施例包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明某些示例性方面,并且其指示的仅仅是各个实施例的原则可以利用的各种方式中的一些方式。其它的益处和新颖性特征将随着下面的详细说明结合附图考虑而变得明显,所公开的实施例是要包括所有这些方面以及它们的等同。 【附图说明】 此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中: 图1示出了本专利技术实施例的的流程示意图; 图2示出了本专利技术实施例的的流程示意图。 【具体实施方式】 以下描述和附图充分地示出本专利技术的具体实施方案,以使本领域的技术人员能够实践它们。其他实施方案可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本专利技术的实施方案的范围包括权利要求书的整个范围,以及权利要求书的所有可获得的等同物。在本文中,本专利技术的这些实施方案可以被单独地或总地用术语“专利技术”来表示,这仅仅是为了方便,并且如果事实上公开了超过一个的专利技术,不是要自动地限制该应用的范围为任何单个专利技术或专利技术构思。 图1示出了本专利技术实施例的的流程示意图, 如图1所示,在一些说明性的实施例中,所述提取网页正文的方法,包括以下几个步骤: 步骤S101,根据待提取的网页的域名,判断预置的站点知识库中是否存储有对应于该域名的用于提取正文的提取信息; 步骤S102,若有,则根据所述提取信息对所述网页的正文进行提取;若所述站点知识库中没有对应于该域名的提取信息,或,根据该提取信息对所述网页的正文提取失败,则确定所述网页的正文节点,并通过提取所述正文节点中的文本获取所述网页的正文; 上述实施例描述了一种自动提取网页正文的方法,在该方法中,站点知识库是预置的,该站点知识库专门用于存储用于提取各种网站的网页正文的提取信息,该提取信息包括对应于该域名下的多个网页的正文提取经验;因此若需要对某网页的正文进行提取时,首先根据该网页的域名,从站点知识库中查询是否有相应的提取信息,若有,则依次调取所述提取信息中的提取经验(即正文结构信息)并根据该提取经验对所述网页的正文进行提取;若提取失败,证明站点知识库未记录该网页的提取经验或该网页已改版;或,若当前的站点知识库中未存储对应于该域名的提取信息,则因此触发智能识别模块执行智能提取流程,首先确定所述网页的正文节点,然后提取该正文节点中的文本; 在上述提取网页正文的过程中,彻底解放人工处理,程序通过预置的站点知识库和智能识别模块来提取网页正文内容,可对任意主题类网页进行提取,完全自动化,不需要人工干预;不用人工事先对具体网站生成模板,也不需要人工去判断网站是否改版,提高了程序提取网页正文的效率; 在一些说明性的实施例中,所述确定所述网页的正文节点的操作,包括以下几个步骤: 对所述网页进行预处理; 建立正文候选池列表; 根据所述正文候选池列表推测正文区域; 根据所述正文区域,判断出所述正文节点; 在一些说明性的实施例中,所述提取信息包括对应于该域名下多个网页的正文结构信息,并且所述正文结构信息按照成功提取次数从高到低进行排序;根据所述提取信息对所述网页的正文进行提取,具体包括: 按照所述正文结构信息的排列顺序,依次调取相应的正文结构信息,并根据该正文结构信息对所述网页的正文进行提取,直到提取成功; 在所述提取成功后,还包括:记录该正文结构信息的成功提取次数,并根据当前的各所述正文结构信息的成功提取次数进行排序; [0031 ] 从该实施例中可以看出,在站点知识库中存储的对应于网站域名的提取信息包括多个网页提取经验,即正文结构信息;并且这些正文结构信息是按照成功提取次数排列的,当从站点知识库搜索到对应于所述网站域名的提取信息后,会优先调取成功次数高的正文结构信息来对该网站进行提取,以加快网站提取效率;此外,在每次成功提取后,都会刷新相应的正文结构信息的成功提取次数,并重新对该提取信息中的所有正文结构信息进行排序; 在一些说明性的实施例中,在通过提取所述正文节点中的文本获取所述网页的正文之后,还包括: 将所述确定所述网页的正文节点的过程中获取的正文结构信息添加到所述站点知识库中; 上述实施例中,若提取网页的正文是通过智能识别模块执行智能提取流程实现的,则在成功提取网页正文后,本程序都会自动将获取的网页提取经验(即正文结构信息)添加到站点知识库中,可以理解为站点知识库自动累积经验的过程,以便下次提取该网页或与其结构相似的域名相同的网页时,可以调取提取经验中的正文结构信息,成功提取正文;此外,在上述过程中,若站点知识库中已存储了对应于该网页域名的提取信息,则直接将所述正文结构信息添加到提取信息中即可;若站点知识库中未存储对应于该网页域名的提取信息,即站点知识库中从未存储对应于该网站的提取经验时,则将获取的正文结构信息和域名同时存储与站点知识库中; 在一些说明性的实施例中,对所述网页进行预处理,包括:获取所述网页的DOM树,并根据已创建的标签类型库,识别并删除该网页中的移除类节点和非移除类节点中的移除类内容,获取预处理后的所本文档来自技高网...
一种提取网页正文的方法

【技术保护点】
一种提取网页正文的方法,其特征在于,包括:根据待提取的网页的域名,判断预置的站点知识库中是否存储有对应于该域名的用于提取正文的提取信息;若有,则根据所述提取信息对所述网页的正文进行提取;若所述站点知识库中没有对应于该域名的提取信息,或,根据该提取信息对所述网页的正文提取失败,则,确定所述网页的正文节点,并通过提取所述正文节点中的文本获取所述网页的正文。

【技术特征摘要】
1.一种提取网页正文的方法,其特征在于,包括: 根据待提取的网页的域名,判断预置的站点知识库中是否存储有对应于该域名的用于提取正文的提取信息; 若有,则根据所述提取信息对所述网页的正文进行提取;若所述站点知识库中没有对应于该域名的提取信息,或,根据该提取信息对所述网页的正文提取失败,则, 确定所述网页的正文节点,并通过提取所述正文节点中的文本获取所述网页的正文。2.如权利要求1所述的方法,其特征在于,所述确定所述网页的正文节点的操作,包括以下几个步骤: 对所述网页进行预处理; 建立正文候选池列表; 根据所述正文候选池列表推测正文区域; 根据所述正文区域,判断出所述正文节点。3.如权利要求1所述的方法,其特征在于,所述提取信息包括对应于该域名下多个网页的正文结构信息,并且所述正文结构信息按照成功提取次数从高到低进行排序;根据所述提取信息对所述网页的正文进行提取,具体包括: 按照所述正文结构信息的排列顺序,依次调取相应的正文结构信息,并根据该正文结构信息对所述网页的正文进行提取,直到提取成功; 在所述提取成功后,还包括:记录该正文结构信息的成功提取次数,并根据当前的各所述正文结构信息的成功提取次数进行排序。4.如权利要求3所述的方法,其特征在于,在通过提取所述正文节点中的文本获取所述网页的正文之后,还包括: 将所述确定所述网页的正文节点的过程中获取的正文结构信息添加到所述站点知识库中。5.如权利要求2所述的方法,其特征在于,对所述网页进行预处理,包括:获取所述网页的DOM树,并根据已创建的标签类型库,识别并删除该网页中的移除类节点和非移除类节点中的移除类内容,获取预处理后的所述网页的DOM树;所述标签类型库包括用于判断网页中节点类型的策略和判断移除类内容的策略,所述节点类型包括容器类、文本类和移除类; 所述建立正文候选池列表,具体包括: 根据所述标签类型库和预设的阈值,判断预处理后的所述网页的DOM树中的父节点为容器类节点的文本类节点是否有效; 删除该DOM树中判断结果为无效的节点,并将该DOM树中判断结果为的有效的所述文本类节点以及该节点的父节点到所述正文候选池列表中。6.如权利要求5所述的方法,其特征在于,判断预处理后的所述网页的DOM树中的父节点为容器类节点的文本类节点是否有效的过程,具体包括: 识别所述网页的字符集编码,调取预设的算法,计算出所述文本类节点的有效节点特征值; 根据所述有效节点特征值和所述预设的阈值,判断该文本类节点是否有效;其中,所述阈值对应于所述有效节点特征值。7.如权利要求6所述的方法,其特征在于,所述有效节...

【专利技术属性】
技术研发人员:江潮贺建华蒋汉华
申请(专利权)人:武汉传神信息技术有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1