网站正文提取的方法和装置制造方法及图纸

技术编号:18763820 阅读:32 留言:0更新日期:2018-08-25 10:30
本发明专利技术公开了一种网站正文提取的方法和装置。其中,该方法包括:从网站的每个网页中提取节点信息;将节点信息确定为第一节点信息或第二节点信息,其中,第一节点信息为包含网页正文文本的节点信息,第二节点信息为不包含网页正文文本的节点信息;提取第一节点信息中的网页正文文本;根据第一节点信息对目标网页重新提取符合预设条件的节点信息,其中,目标网页为提取出第二节点信息的网页;将重新提取到的节点信息所包含的文本作为目标网页的网页正文文本。本发明专利技术解决了网站正文信息提取不准确的技术问题。

【技术实现步骤摘要】
网站正文提取的方法和装置
本专利技术涉及网站信息提取领域,具体而言,涉及一种网站正文提取的方法和装置。
技术介绍
正文提取是指将网页的正文部分提取出来,去除其他部分。在互联网领域,正文提取是一种很常用而且很基本的需求。从概率上来说,正文部分是一个网页中文字数量最多的区域。所以,一种常见正文提取方法就是针对网站源代码进行提取,找到纯文本长度最长的子节点,此节点的内容即为正文。比如下图1所示,方框部分包含的文本内容最长,因此将方框部分的内容作为正文部分。然而有时候,正文包含的文本内容不是最多的,如:在论坛网站中,可能存在某条评论的文本内容比正文内容还多,此时利用上述的正文提取方法提取到的文本不是网页的正文部分。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种网站正文提取的方法和装置,以至少解决网站正文信息提取不准确的技术问题。根据本专利技术实施例的一个方面,提供了一种网站正文提取的方法,包括:从网站的每个网页中提取节点信息;将所述节点信息确定为第一节点信息或第二节点信息,其中,所述第一节点信息为包含网页正文文本的节点的信息,所述第二节点信息为不包含网页正文文本的节点信息;提取所述第一节点信息中的网页正文文本;根据所述第一节点信息对目标网页重新提取符合预设条件的节点信息,其中,所述目标网页为提取出所述第二节点信息的网页;将重新提取到的节点信息所包含的文本作为所述目标网页的网页正文文本。进一步地,根据所述第一节点信息对目标网页重新提取符合预设条件的节点信息包括:获取所述目标网页中所有节点信息的属性;从所述所有节点信息的属性中查找与所述第一节点信息的属性相同的节点信息。进一步地,将所述节点信息确定为第一节点信息或第二节点信息包括:获取从所述网站的每个网页中提取的节点信息的属性;根据所述节点信息的属性确定所述节点信息为第一节点信息或者第二节点信息,其中,所述节点信息的属性包括ID信息。进一步地,从所述网站的每个网页中提取节点信息包括:获取每个所述网页中所有节点信息所包含的文本;将包含的文本长度最长的节点信息作为从所述网页中提取的节点信息。进一步地,将所述节点信息确定为第一节点信息或第二节点信息包括:将所述多个节点信息中具有相同ID信息的数量最多的节点信息作为所述第一节点信息;将所述多个节点信息中除所述第一节点信息以外的节点信息作为所述第二节点信息。进一步地,在根据所述第一节点信息对目标网页重新提取符合预设条件的节点信息之后,所述方法还包括:如果对目标网页无法重新提取出节点信息,则记录所述目标网页的地址。根据本专利技术实施例的另一方面,还提供了一种网站正文提取的装置,包括:第一提取单元,用于从网站的每个网页中提取节点信息;确定单元,用于将所述节点信息确定为第一节点信息或第二节点信息,其中,所述第一节点信息为包含网页正文文本的节点的信息,所述第二节点信息为不包含网页正文文本的节点信息;第二提取单元,用于提取所述第一节点信息中的网页正文文本;第三提取单元,用于根据所述第一节点信息对目标网页重新提取符合预设条件的节点信息,其中,所述目标网页为提取出所述第二节点信息的网页;正文单元,用于将重新提取到的节点信息所包含的文本作为所述目标网页的网页正文文本。进一步地,所述第三提取单元包括:第一获取模块,用于获取所述目标网页中所有节点信息的属性;查找模块,用于从所述所有节点信息的属性中查找与所述第一节点信息的属性相同的节点信息。进一步地,所述确定单元包括:第二获取模块,用于获取从所述网站的每个网页中提取的节点信息的属性;第一确定模块,用于根据所述节点信息的属性确定所述节点信息为第一节点信息或者第二节点信息,其中,所述节点信息的属性包括ID信息。进一步地,所述第一提取单元包括:第三获取模块,用于获取每个所述网页中所有节点信息所包含的文本;信息模块,用于将包含的文本长度最长的节点信息作为从所述网页中提取的节点信息。进一步地,所述确定单元包括:第二确定模块,用于将所述多个节点信息中具有相同ID信息的,数量最多的节点信息作为所述第一节点信息;第三确定模块,用于将所述多个节点信息中除所述第一节点信息以外的节点信息作为所述第二节点信息。进一步地,所述装置还包括:记录单元,用于在根据所述第一节点信息对目标网页重新提取符合预设条件的节点信息之后,如果对目标网页无法重新提取出节点信息,则记录所述目标网页的地址。在本专利技术实施例中,采用从网站的每个网页中提取节点信息;将节点信息确定为第一节点信息或第二节点信息,其中,第一节点信息为包含网页正文文本的节点信息,第二节点信息为不包含网页正文文本的节点信息;提取第一节点信息中的网页正文文本;根据第一节点信息对目标网页重新提取符合预设条件的节点信息,其中,目标网页为提取出第二节点信息的网页;将重新提取到的节点信息所包含的文本作为目标网页的网页正文文本的方式,通过确定出包含正文文本的第一节点信息和不包含正文文本的第二节点信息,根据第一节点信息对提取出第二节点信息的目标网页重新提取节点信息,并进一步将重新提取到的节点信息中的文本作为目标网页的正文文本,达到了从正文文本较少的网页中提取出正文文本的目的,从而实现了准确提取出网站正文的技术效果,进而解决了网站正文信息提取不准确的技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的一种可选的网站正文提取的方法的流程图;图2是根据本专利技术实施例的一种可选的网站正文提取的装置的示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。根据本专利技术实施例,提供了一种网站正文提取的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。图1是根据本专利技术实施例的一种可选的网站正文提取的方法的流程图,如图1所示,该方法包括如下步骤:步骤S102,从网站的每个网页中提取节点信息。网页的源代码中包含有若干个节点信息,不同类型的网页内容,分别包含在不同的节点信息中,例如:网页的标题内容包含在一个节点信息中,网页的正文内容则包本文档来自技高网
...

【技术保护点】
1.一种网站正文提取的方法,其特征在于,包括:从网站的每个网页中提取节点信息;将所述节点信息确定为第一节点信息或第二节点信息,其中,所述第一节点信息为包含网页正文文本的节点信息,所述第二节点信息为不包含网页正文文本的节点信息;提取所述第一节点信息中的网页正文文本;根据所述第一节点信息对目标网页重新提取符合预设条件的节点信息,其中,所述目标网页为提取出所述第二节点信息的网页;将重新提取到的节点信息所包含的文本作为所述目标网页的网页正文文本。

【技术特征摘要】
1.一种网站正文提取的方法,其特征在于,包括:从网站的每个网页中提取节点信息;将所述节点信息确定为第一节点信息或第二节点信息,其中,所述第一节点信息为包含网页正文文本的节点信息,所述第二节点信息为不包含网页正文文本的节点信息;提取所述第一节点信息中的网页正文文本;根据所述第一节点信息对目标网页重新提取符合预设条件的节点信息,其中,所述目标网页为提取出所述第二节点信息的网页;将重新提取到的节点信息所包含的文本作为所述目标网页的网页正文文本。2.根据权利要求1所述的方法,其特征在于,根据所述第一节点信息对目标网页重新提取符合预设条件的节点信息包括:获取所述目标网页中所有节点信息的属性;从所述所有节点信息的属性中查找与所述第一节点信息的属性相同的节点信息。3.根据权利要求1所述的方法,其特征在于,将所述节点信息确定为第一节点信息或第二节点信息包括:获取从所述网站的每个网页中提取的节点信息的属性;根据所述节点信息的属性确定所述节点信息为第一节点信息或者第二节点信息,其中,所述节点信息的属性包括ID信息。4.根据权利要求1所述的方法,其特征在于,从所述网站的每个网页中提取节点信息包括:获取每个所述网页中所有节点信息所包含的文本;将包含的文本长度最长的节点信息作为从所述网页中提取的节点信息,得到多个节点信息。5.根据权利要求4所述的方法,其特征在于,将所述节点信息确定为第一节点信息或第二节点信息包括:将所述多个节点信息中具有相同ID信息的数量最多的节点信息作为所述第一节点信息;将所述多个节点信息中除所述第一节点信息以外的节点信息作为所述第二节点信息。6.根据权利要求1...

【专利技术属性】
技术研发人员:曹志明
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1