The embodiment of the invention provides a method and apparatus in the web page text extraction, the method comprises the following steps: loading to extract pages; determine the label elements corresponding to the title page of the title of the article; to label the corresponding elements as a reference point, gets the tag title page elements before the label after the element list the title and the title of the article list; label elements based on the correspondence, from the title of the article before the tag element tag element after the list and the title of the article list, determine the page in the page text block on the label element; the page block text page block corresponding tag elements identified in the corresponding content as the page text extraction. By determining the text label, to determine the location, can achieve rapid and accurate determination of the purpose of the text, and only need to request a static page, without rendering of the page, so reduce the deployment complexity, the implementation is relatively simple.
【技术实现步骤摘要】
网页中的页面正文提取方法和装置
本专利技术涉及数据处理
,具体涉及一种网页中的页面正文提取方法和装置。
技术介绍
目前,在互联网中,会产生海量的页面,然而,页面之间的排版布局往往是不同的,如果从页面中快速准确提取出正文,一直都是个比较困难的问题。现有的方式主要有:1)通过下载静态页面,然后分析各个页面块的文本密度值,将文本密度最大的页面快作为该页面的正文;2)通过网页渲染的方式,对网页进行分析划分,通过网页块的划分结果,来获取正文。然而,上述两种方式都存在一定的问题,通过文本密度进行正文提取的方法,识别准确率较低,且对复杂一点的网页,适应能力较差。通过网页渲染进行正文提取的方法,正文提取速度较慢,且对渲染引擎要求比较高,应用部署相对复杂。针对上述问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供一种网页中的页面正文提取方法和装置,以提高正文提取的准确性,且部署起来较为简单。一方面,本专利技术实施例提供了一种网页中的页面正文提取方法,包括:加载待提取的页面;确定所述页面中的文章标题对应的标签元素;以所述文章标题对应的标签元素作为基准点,获取所述页面中所述文章标题之前的标签元素列表和所述文章标题之后的标签元素列表;基于所述文章标题对应的标签元素,从所述文章标题之前的标签元素列表和所述文章标题之后的标签元素列表中,确定出所述页面中的正文页面块对应的标签元素;将确定出的正文页面块对应的标签元素对应的页面块中的内容作为页面正文提取。在一个实施方式中,确定所述页面中的文章标题对应的标签元素,包括:通过识别所述页面中的文章信息数据,确定文章信息数据 ...
【技术保护点】
一种网页中的页面正文提取方法,其特征在于,包括:加载待提取的页面;确定所述页面中的文章标题对应的标签元素;以所述文章标题对应的标签元素作为基准点,获取所述页面中所述文章标题之前的标签元素列表和所述文章标题之后的标签元素列表;基于所述文章标题对应的标签元素,从所述文章标题之前的标签元素列表和所述文章标题之后的标签元素列表中,确定出所述页面中的正文页面块对应的标签元素;将确定出的正文页面块对应的标签元素对应的页面块中的内容作为页面正文提取。
【技术特征摘要】
1.一种网页中的页面正文提取方法,其特征在于,包括:加载待提取的页面;确定所述页面中的文章标题对应的标签元素;以所述文章标题对应的标签元素作为基准点,获取所述页面中所述文章标题之前的标签元素列表和所述文章标题之后的标签元素列表;基于所述文章标题对应的标签元素,从所述文章标题之前的标签元素列表和所述文章标题之后的标签元素列表中,确定出所述页面中的正文页面块对应的标签元素;将确定出的正文页面块对应的标签元素对应的页面块中的内容作为页面正文提取。2.根据权利要求1所述的方法,其特征在于,确定所述页面中的文章标题对应的标签元素,包括:通过识别所述页面中的文章信息数据,确定文章信息数据所在的标签元素;将所述文章信息数据所在的标签元素之前的各标签元素中,第一个满足预设的标题特征的标签元素作为所述文章标题对应的标签元素。3.根据权利要求2所述的方法,其特征在于,所述文章信息数据至少包括以下数据之一:文章来源、文章作者、文章日期、文章字体和文章作者。4.根据权利要求2所述的方法,其特征在于,所述预设的标题特征至少包括以下特征之一:没有孩子节点、节点内容不为空、不是时间格式的文本、文本含有最多一个字符。5.根据权利要求1所述的方法,其特征在于,基于所述文章标题对应的标签元素,从所述文章标题之前的标签元素列表和所述文章标题之后的标签元素列表中,确定出所述页面中的正文页面块对应的标签元素,包括:对所述文章标题之前的标签元素进行遍历:计算各个标签元素与所述文章标题所对应的标签元素之间的距离;删除距离大于第一预设阈值的标签元素;对于未删除的标签元素,根据各个标签元素的标签字符串比、和各个标签元素与所述文章标题所对应的标签元素之间的距离,计算各个标签元素的特征值;选取特征值最大的标签元素,作为第一标签元素;对所述文章标题之后的标签元素进行遍历:计算各个标签元素与所述文章标题所对应的标签元素之间的距离;删除距离小于第二预设阈值的标签元素;对于未删除的标签元素,根据各个标签元素的标签字符串比、和各个标签元素与所述标题所对应的标签元素之间的距离,计算各个标签元素的特征值;选取特征值最大的标签元素,作为第二标签元素;比较所述第一标签元素的特征值和所述第二标签元素的特征值,将特征值较大的标签元素作为所述页面中的正文页面块对应的标签元素。6.根据权利要求5所述的方法,其特...
【专利技术属性】
技术研发人员:鄢军,佟京,刘城,孙政,
申请(专利权)人:微梦创科网络科技中国有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。