网页中的页面正文提取方法和装置制造方法及图纸

技术编号:15690939 阅读:46 留言:0更新日期:2017-06-24 03:44
本发明专利技术实施例提供一种网页中的页面正文提取方法和装置,其中,该方法包括:加载待提取的页面;确定页面中的文章标题对应的标签元素;以文章标题对应的标签元素作为基准点,获取页面中文章标题之前的标签元素列表和文章标题之后的标签元素列表;基于文章标题对应的标签元素,从文章标题之前的标签元素列表和文章标题之后的标签元素列表中,确定出页面中的正文页面块对应的标签元素;将确定出的正文页面块对应的标签元素对应的页面块中的内容作为页面正文提取。通过确定正文标签的方式,来确定正文的位置,可以达到快速、准确性高的确定正文的目的,且仅需要请求静态页面,无需对页面进行渲染,因此,减少了部署复杂度,实现起来较为简单。

Method and device for extracting page text in web page

The embodiment of the invention provides a method and apparatus in the web page text extraction, the method comprises the following steps: loading to extract pages; determine the label elements corresponding to the title page of the title of the article; to label the corresponding elements as a reference point, gets the tag title page elements before the label after the element list the title and the title of the article list; label elements based on the correspondence, from the title of the article before the tag element tag element after the list and the title of the article list, determine the page in the page text block on the label element; the page block text page block corresponding tag elements identified in the corresponding content as the page text extraction. By determining the text label, to determine the location, can achieve rapid and accurate determination of the purpose of the text, and only need to request a static page, without rendering of the page, so reduce the deployment complexity, the implementation is relatively simple.

【技术实现步骤摘要】
网页中的页面正文提取方法和装置
本专利技术涉及数据处理
,具体涉及一种网页中的页面正文提取方法和装置。
技术介绍
目前,在互联网中,会产生海量的页面,然而,页面之间的排版布局往往是不同的,如果从页面中快速准确提取出正文,一直都是个比较困难的问题。现有的方式主要有:1)通过下载静态页面,然后分析各个页面块的文本密度值,将文本密度最大的页面快作为该页面的正文;2)通过网页渲染的方式,对网页进行分析划分,通过网页块的划分结果,来获取正文。然而,上述两种方式都存在一定的问题,通过文本密度进行正文提取的方法,识别准确率较低,且对复杂一点的网页,适应能力较差。通过网页渲染进行正文提取的方法,正文提取速度较慢,且对渲染引擎要求比较高,应用部署相对复杂。针对上述问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供一种网页中的页面正文提取方法和装置,以提高正文提取的准确性,且部署起来较为简单。一方面,本专利技术实施例提供了一种网页中的页面正文提取方法,包括:加载待提取的页面;确定所述页面中的文章标题对应的标签元素;以所述文章标题对应的标签元素作为基准点,获取所述页面中所述文章标题之前的标签元素列表和所述文章标题之后的标签元素列表;基于所述文章标题对应的标签元素,从所述文章标题之前的标签元素列表和所述文章标题之后的标签元素列表中,确定出所述页面中的正文页面块对应的标签元素;将确定出的正文页面块对应的标签元素对应的页面块中的内容作为页面正文提取。在一个实施方式中,确定所述页面中的文章标题对应的标签元素,包括:通过识别所述页面中的文章信息数据,确定文章信息数据所在的标签元素;将所述文章信息数据所在的标签元素之前的各标签元素中,第一个满足预设的标题特征的标签元素作为所述文章标题对应的标签元素。在一个实施方式中,所述文章信息数据至少包括以下数据之一:文章来源、文章作者、文章日期、文章字体和文章作者。在一个实施方式中,所述预设的标题特征至少包括以下特征之一:没有孩子节点、节点内容不为空、不是时间格式的文本、文本含有最多一个字符。在一个实施方式中,基于所述文章标题对应的标签元素,从所述文章标题之前的标签元素列表和所述文章标题之后的标签元素列表中,确定出所述页面中的正文页面块对应的标签元素,包括:对所述文章标题之前的标签元素进行遍历:计算各个标签元素与所述文章标题所对应的标签元素之间的距离;删除距离大于第一预设阈值的标签元素,对于未删除的标签元素,根据各个标签元素的标签字符串比、各个标签元素与所述文章标题所对应的标签元素之间的距离,计算各个标签元素的特征值;选取特征值最大的标签元素,作为第一标签元素;对所述文章标题之后的标签元素进行遍历:计算各个标签元素与所述文章标题所对应的标签元素之间的距离;删除距离小于第二预设阈值的标签元素,对于未删除的标签元素;根据各个标签元素的标签字符串比、各个标签元素与所述标题所对应的标签元素之间的距离,计算各个标签元素的特征值;选取特征值最大的标签元素,作为第二标签元素;比较所述第一标签元素的特征值和所述第二标签元素的特征值,将特征较大的标签元素作为所述页面中的正文页面块对应的标签元素。在一个实施方式中,通过以下公式计算各个标签元素的标签字符串比:标签元素的标签字符串比=标签元素的文本长度/从标题所对应的标签元素开始标签内容长度。另一方面,本专利技术实施例提供了一种网页中的页面正文提取装置,包括:加载模块,用于加载待提取的页面;第一确定模块,用于确定所述页面中的文章标题对应的标签元素;获取模块,用于以所述文章标题对应的标签元素作为基准点,获取所述页面中所述文章标题之前的标签元素列表和所述文章标题之后的标签元素列表;第二确定模块,用于基于所述文章标题对应的标签元素,从所述文章标题之前的标签元素列表和所述文章标题之后的标签元素列表中,确定出所述页面中的正文页面块对应的标签元素;提取模块,用于将确定出的正文页面块对应的标签元素对应的页面块中的内容作为页面正文提取。在一个实施方式中,所述第一确定模块包括:第一确定单元,用于通过识别所述页面中的文章信息数据,确定文章信息数据所在的标签元素;第二确定单元,用于将所述文章信息数据所在的标签元素之前的各标签元素中,第一个满足预设的标题特征的标签元素作为所述文章标题对应的标签元素。在一个实施方式中,所述第二确定模块包括:第一遍历单元,用于对所述文章标题之前的标签元素进行遍历:计算各个标签元素与所述文章标题所对应的标签元素之间的距离;删除距离大于第一预设阈值的标签元素,对于未删除的标签元素,根据各个标签元素的标签字符串比、和各个标签元素与所述文章标题所对应的标签元素之间的距离,计算各个标签元素的特征值;选取特征值较大的标签元素,作为第一标签元素;第二遍历单元,用于对所述文章标题之后的标签元素进行遍历:计算各个标签元素与所述文章标题所对应的标签元素之间的距离;删除距离小于第二预设阈值的标签元素,对于未删除的标签元素,根据各个标签元素的标签字符串比、和各个标签元素与所述标题所对应的标签元素之间的距离,计算各个标签元素的特征值;选取特征值较大的标签元素,作为第二标签元素;比较单元,用于比较所述第一标签元素的特征值和所述第二标签元素的特征值,将特征大的标签元素作为所述页面中的正文页面块对应的标签元素。上述技术方案具有如下有益效果:因为采用通过确定正文标签的方式,来确定正文的位置,因此可以达到快速、准确性高的确定正文的目的,且仅需要请求静态页面,无需对页面进行渲染,因此,减少了部署复杂度,实现起来较为简单。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是根据本专利技术实施例的网页中的页面正文提取方法的流程示意图;图2是根据本专利技术实施例的网页中的页面正文提取装置的结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本专利技术实施例中,提供了一种网页中的页面正文提取方法,如图1所示,可以包括以下步骤:步骤101:加载待提取的页面;步骤102:确定所述页面中的文章标题对应的标签元素;具体地,可以按照以下方式确定所述页面中的文章标题对应的标签元素:S1:通过识别所述页面中的文章信息数据,确定文章信息数据所在的标签元素;S2:将所述文章信息数据所在的标签元素之上的标签元素中,第一个满足预设的标题特征的标签元素作为所述文章标题对应的标签元素。即,先确定文章信息数据所在的位置,例如,依据文章中的时间、来源等信息作为参照物,一般而言标题实在这些文章信息数据的前方。其中,文章信息数据至少可以包括但不限于以下数据之一:文章来源、文章作者、文章日期、文章字体和文章作者。在确定了文章信息之后,就可以确定其上一个满足文章标题一般格式的就可以作为文章标题对应本文档来自技高网...
网页中的页面正文提取方法和装置

【技术保护点】
一种网页中的页面正文提取方法,其特征在于,包括:加载待提取的页面;确定所述页面中的文章标题对应的标签元素;以所述文章标题对应的标签元素作为基准点,获取所述页面中所述文章标题之前的标签元素列表和所述文章标题之后的标签元素列表;基于所述文章标题对应的标签元素,从所述文章标题之前的标签元素列表和所述文章标题之后的标签元素列表中,确定出所述页面中的正文页面块对应的标签元素;将确定出的正文页面块对应的标签元素对应的页面块中的内容作为页面正文提取。

【技术特征摘要】
1.一种网页中的页面正文提取方法,其特征在于,包括:加载待提取的页面;确定所述页面中的文章标题对应的标签元素;以所述文章标题对应的标签元素作为基准点,获取所述页面中所述文章标题之前的标签元素列表和所述文章标题之后的标签元素列表;基于所述文章标题对应的标签元素,从所述文章标题之前的标签元素列表和所述文章标题之后的标签元素列表中,确定出所述页面中的正文页面块对应的标签元素;将确定出的正文页面块对应的标签元素对应的页面块中的内容作为页面正文提取。2.根据权利要求1所述的方法,其特征在于,确定所述页面中的文章标题对应的标签元素,包括:通过识别所述页面中的文章信息数据,确定文章信息数据所在的标签元素;将所述文章信息数据所在的标签元素之前的各标签元素中,第一个满足预设的标题特征的标签元素作为所述文章标题对应的标签元素。3.根据权利要求2所述的方法,其特征在于,所述文章信息数据至少包括以下数据之一:文章来源、文章作者、文章日期、文章字体和文章作者。4.根据权利要求2所述的方法,其特征在于,所述预设的标题特征至少包括以下特征之一:没有孩子节点、节点内容不为空、不是时间格式的文本、文本含有最多一个字符。5.根据权利要求1所述的方法,其特征在于,基于所述文章标题对应的标签元素,从所述文章标题之前的标签元素列表和所述文章标题之后的标签元素列表中,确定出所述页面中的正文页面块对应的标签元素,包括:对所述文章标题之前的标签元素进行遍历:计算各个标签元素与所述文章标题所对应的标签元素之间的距离;删除距离大于第一预设阈值的标签元素;对于未删除的标签元素,根据各个标签元素的标签字符串比、和各个标签元素与所述文章标题所对应的标签元素之间的距离,计算各个标签元素的特征值;选取特征值最大的标签元素,作为第一标签元素;对所述文章标题之后的标签元素进行遍历:计算各个标签元素与所述文章标题所对应的标签元素之间的距离;删除距离小于第二预设阈值的标签元素;对于未删除的标签元素,根据各个标签元素的标签字符串比、和各个标签元素与所述标题所对应的标签元素之间的距离,计算各个标签元素的特征值;选取特征值最大的标签元素,作为第二标签元素;比较所述第一标签元素的特征值和所述第二标签元素的特征值,将特征值较大的标签元素作为所述页面中的正文页面块对应的标签元素。6.根据权利要求5所述的方法,其特...

【专利技术属性】
技术研发人员:鄢军佟京刘城孙政
申请(专利权)人:微梦创科网络科技中国有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1