一种网页页面正文内容抽取方法及装置制造方法及图纸

技术编号:15542402 阅读:134 留言:0更新日期:2017-06-05 11:22
本发明专利技术提供一种网页页面正文内容抽取方法及装置,通过将原始网页内容进行清洗和行块划分,再计算相邻行块之间的引力因子和关联因子,得到正文因子,最后将正文因子大于阈值的相邻行块的内容进行拼接,生成网页正文;整个过程采用通用的方式进行网页正文内容的抽取工作,无需考虑页面的异构特征,使装置的可靠性和通用性大大增强,便于大规模推广实施;并且无需对页面进行学习认知、制定特定的解析规则和模板,可以大大降低人工成本;另外,无需复杂的参数设定和适配过程,避免了过多的指导参数,人工干预小,自动化程度高。

Method and device for extracting main body content of web page

The present invention provides a web page text content extraction method and device, the original web content for cleaning and for partitioning, and then calculated between adjacent blocks for gravity factor and correlation factor, get the factor, finally the adjacent line of text factor greater than the threshold value of the contents of the block stitching, text generation \; extraction the whole process of general web page content, without considering the heterogeneous features of the page, greatly enhance the device reliability and versatility, can be widely implemented; and without pages for learning cognition, establish specific parsing rules and templates, can greatly reduce labor costs; in addition, no complex parameter setting and adaptation process, to avoid the guidance of too many parameters, artificial intervention, high degree of automation.

【技术实现步骤摘要】
一种网页页面正文内容抽取方法及装置
本专利技术涉及网页抽取
,特别涉及一种网页页面正文内容抽取方法及装置。
技术介绍
在大数据时代,数据的价值日益受到企业重视,现代企业不再单纯地依靠企业内部的结构化数据来进行价值提取和发现,互联网作为理想的数据海洋,包含着大量的价值数据,这些数据对行情研判、网络征信、品牌价值推广等多个领域具有重要意义。而互联网上发布的信息通常以网页形式存在,而这些互联网网页页面异构性大,且通常被包含大量HMTL标签、JS脚本或广告推广等的噪声信息所包围,给数据整合和分析工作带来了巨大的困扰,因此迫切需要一种通用、智能和高效的网页抽取方案。网页抽取的目的是将网页页面中的正文信息抽取出来并标示为结构化、自描述的数据结构。当前在这一领域主要的技术方案包括:一是基于网页标记语言的去除,利用网页形式的页面标签包括“<”和“>”的特点,通过简单的程序遍历和赋值,将所要抽取的信息抽取出来。二是在学习特定网页结构的基础上采用正则表达式,精准地抽取正文部分。三是采用DOM树的方式,将HTML文件转换成XML文档,同样需要在学习相关网页结构的基础上确定内容部分节点,最终抽取正文内容。然而上述技术方案,本质上都是一种“监督”学习机制,需要人为地认知网页页面结构,进而判断此类页面那些是正文内容,无法做到通用抽取,解析抽取的自动化程度受限,不利于大规模推广;并且,当前的技术方案需要对网页结构有精准的了解,需要针对不同的页面类型定制抽取规则,装置人工成本极高;另外,在互联网上,网页页面的更新周期往往非常短,当页面结构发生变化时,需要修改装置的解析模板进行适配,大大降低了装置的稳定性和鲁棒性。
技术实现思路
本专利技术提供一种网页页面正文内容抽取方法及装置,以提供一种自动且通用的抽取方案。为实现上述目的,本申请提供的技术方案如下:一种网页页面正文内容抽取方法,包括:读取原始网页内容;以行为粒度,统计各行出现的超级链接数目,并记录各行超级链接字符长度;根据所述行超级链接字符长度,将网页源码中的HTML标签、JS代码部分进行清洗去除,得到纯文本文件;将所述纯文本文件按照预设行数进行行块划分;根据所述纯文本文件的各个行块,计算得到相邻行块之间的引力因子;根据所述纯文本文件的各个行块进行处理,得到相邻行块之间的关联因子;根据所述引力因子和所述关联因子,计算得到全部相邻行块的正文因子;将正文因子大于阈值的相邻行块,标记为正文行块;按照行块顺序将标记为所述正文行块的相邻模块内容进行拼接,生成网页正文。优选的,所述将所述纯文本文件按照预设行数进行行块划分,包括:若所述纯文本文件的总行数N能够被预设行数L整除,则将所述纯文本文件划分为N/L个行块,第m个行块为第(m-1)×L+1行到第m×L行构成,1≤m≤N/L;若所述纯文本文件的总行数N不能被预设行数L整除,则将所述纯文本文件划分为K个行块,K为大于N/L的第一个整数,第m个行块为第(m-1)×L+1行到第m×L行构成,1≤m<K,第K个行块为第(K-1)×L+1到第N行构成。优选的,所述根据所述纯文本文件的各个行块,计算得到相邻行块之间的引力因子,包括:根据所述纯文本文件的各个行块,计算得到各个行块的字符数、超链接字符数及相邻行块之间的距离;根据各个行块的字符数、超链接字符数及相邻行块之间的距离,计算得到相邻行块之间的引力因子。优选的,计算得到相邻行块之间的距离,所采用的公式为:R=Dminm-Dmaxn;其中:m>n,Dminm为第m个行块内有效字符数Sl小于阈值θ的最小行号,Dmaxn为第n个行块内有效字符数Sl小于阈值θ的最大行号,Sl为第l行字符数减去第l行链接字符数的差值,R为相邻的第m个行块与第n个行块之间的距离。优选的,所述计算得到相邻行块之间的引力因子,所采用的公式为:其中,α为引力调整因子,Sm为第m个行块有效字符数,Sm为第m个行块字符数减去第m个行块链接字符数的差值,Sn为第n个行块有效字符数,Sn为第n个行块字符数减去第n个行块链接字符数的差值,R为相邻的第m个行块与第n个行块之间的距离,Fmn为相邻的第m个行块与第n个行块之间的引力因子。优选的,所述根据所述纯文本文件的各个行块进行处理,得到相邻行块之间的关联因子,包括:根据所述纯文本文件的各个行块,对各个行块内容进行分词处理;将分词后的各个行块内容进行修正;根据修正后的各个行块内容,计算得到相邻行块之间的关联因子。优选的,所述计算得到相邻行块之间的关联因子,所采用的公式为:其中,β为关联度调整因子,Wm为第m个行块分词、修正后的词集合,Wn为第n个行块分词、修正后的词集合,Lmn为相邻的第m个行块与第n个行块之间的关联因子。优选的,所述根据所述引力因子和所述关联因子,计算得到全部相邻行块的正文因子,所采用的公式为:C=Fmn+Lmn;其中,Fmn为相邻的第m个行块与第n个行块之间的引力因子,Lmn为相邻的第m个行块与第n个行块之间的关联因子。一种网页页面正文内容抽取装置,包括:数据读取单元,用于读取原始网页内容;第一计算单元,以行为粒度,统计各行出现的超级链接数目,并记录各行超级链接字符长度;清洗单元,用于根据所述行超级链接字符长度,将网页源码中的HTML标签、JS代码部分进行清洗去除,得到纯文本文件;划块单元,用于将所述纯文本文件按照预设行数进行行块划分;第二计算单元,用于根据所述纯文本文件的各个行块,计算得到相邻行块之间的引力因子;处理单元,用于根据所述纯文本文件的各个行块进行处理,得到相邻行块之间的关联因子;第三计算单元,用于根据所述引力因子和所述关联因子,计算得到全部相邻行块的正文因子;标记单元,用于将正文因子大于阈值的相邻行块,标记为正文行块;生成单元,用于按照行块顺序将标记为所述正文行块的相邻模块内容进行拼接,生成网页正文。优选的,所述第二计算单元包括:第一计算模块,用于根据所述纯文本文件的各个行块,计算得到各个行块的字符数、超链接字符数及相邻行块之间的距离;第二计算模块,用于根据各个行块的字符数、超链接字符数及相邻行块之间的距离,计算得到相邻行块之间的引力因子。优选的,所述处理单元包括:分词模块,用于根据所述纯文本文件的各个行块,对各个行块内容进行分词处理;修正模块,用于将分词后的各个行块内容进行修正;第三计算模块,用于根据修正后的各个行块内容,计算得到相邻行块之间的关联因子。本专利技术提供的所述网页页面正文内容抽取方法,通过将原始网页内容进行清洗和行块划分,再计算相邻行块之间的引力因子和关联因子,得到正文因子,最后将正文因子大于阈值的相邻行块的内容进行拼接,生成网页正文;整个过程采用通用的方式进行网页正文内容的抽取工作,无需考虑页面的异构特征,使装置的可靠性和通用性大大增强,便于大规模推广实施;并且无需对页面进行学习认知、制定特定的解析规则和模板,可以大大降低人工成本;另外,无需复杂的参数设定和适配过程,避免了过多的指导参数,人工干预小,自动化程度高。附图说明为了更清楚地说明本专利技术实施例或现有技术内的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述内的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创本文档来自技高网
...
一种网页页面正文内容抽取方法及装置

【技术保护点】
一种网页页面正文内容抽取方法,其特征在于,包括:读取原始网页内容;以行为粒度,统计各行出现的超级链接数目,并记录各行超级链接字符长度;根据所述行超级链接字符长度,将网页源码中的HTML标签、JS代码部分进行清洗去除,得到纯文本文件;将所述纯文本文件按照预设行数进行行块划分;根据所述纯文本文件的各个行块,计算得到相邻行块之间的引力因子;根据所述纯文本文件的各个行块进行处理,得到相邻行块之间的关联因子;根据所述引力因子和所述关联因子,计算得到全部相邻行块的正文因子;将正文因子大于阈值的相邻行块,标记为正文行块;按照行块顺序将标记为所述正文行块的相邻模块内容进行拼接,生成网页正文。

【技术特征摘要】
1.一种网页页面正文内容抽取方法,其特征在于,包括:读取原始网页内容;以行为粒度,统计各行出现的超级链接数目,并记录各行超级链接字符长度;根据所述行超级链接字符长度,将网页源码中的HTML标签、JS代码部分进行清洗去除,得到纯文本文件;将所述纯文本文件按照预设行数进行行块划分;根据所述纯文本文件的各个行块,计算得到相邻行块之间的引力因子;根据所述纯文本文件的各个行块进行处理,得到相邻行块之间的关联因子;根据所述引力因子和所述关联因子,计算得到全部相邻行块的正文因子;将正文因子大于阈值的相邻行块,标记为正文行块;按照行块顺序将标记为所述正文行块的相邻模块内容进行拼接,生成网页正文。2.根据权利要求1所述的网页页面正文内容抽取方法,其特征在于,所述将所述纯文本文件按照预设行数进行行块划分,包括:若所述纯文本文件的总行数N能够被预设行数L整除,则将所述纯文本文件划分为N/L个行块,第m个行块为第(m-1)×L+1行到第m×L行构成,1≤m≤N/L;若所述纯文本文件的总行数N不能被预设行数L整除,则将所述纯文本文件划分为K个行块,K为大于N/L的第一个整数,第m个行块为第(m-1)×L+1行到第m×L行构成,1≤m<K,第K个行块为第(K-1)×L+1到第N行构成。3.根据权利要求1所述的网页页面正文内容抽取方法,其特征在于,所述根据所述纯文本文件的各个行块,计算得到相邻行块之间的引力因子,包括:根据所述纯文本文件的各个行块,计算得到各个行块的字符数、超链接字符数及相邻行块之间的距离;根据各个行块的字符数、超链接字符数及相邻行块之间的距离,计算得到相邻行块之间的引力因子。4.根据权利要求3所述的网页页面正文内容抽取方法,其特征在于,计算得到相邻行块之间的距离,所采用的公式为:R=Dminm-Dmaxn;其中:m>n,Dminm为第m个行块内有效字符数Sl小于阈值θ的最小行号,Dmaxn为第n个行块内有效字符数Sl小于阈值θ的最大行号,Sl为第l行字符数减去第l行链接字符数的差值,R为相邻的第m个行块与第n个行块之间的距离。5.根据权利要求3所述的网页页面正文内容抽取方法,其特征在于,所述计算得到相邻行块之间的引力因子,所采用的公式为:其中,α为引力调整因子,Sm为第m个行块有效字符数,Sm为第m个行块字符数减去第m个行块链接字符数的差值,Sn为第n个行块有效字符数,Sn为第n个行块字符数减去第n个行块链接字符数的差值,R为相邻的第m个行块与第n个行块之间的距离,Fmn为相邻的第m个行块与第n个行块之间的引力因子。6.根...

【专利技术属性】
技术研发人员:张勇钟新斌曹震
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1