The present invention provides a web page text content extraction method and device, the original web content for cleaning and for partitioning, and then calculated between adjacent blocks for gravity factor and correlation factor, get the factor, finally the adjacent line of text factor greater than the threshold value of the contents of the block stitching, text generation \; extraction the whole process of general web page content, without considering the heterogeneous features of the page, greatly enhance the device reliability and versatility, can be widely implemented; and without pages for learning cognition, establish specific parsing rules and templates, can greatly reduce labor costs; in addition, no complex parameter setting and adaptation process, to avoid the guidance of too many parameters, artificial intervention, high degree of automation.
【技术实现步骤摘要】
一种网页页面正文内容抽取方法及装置
本专利技术涉及网页抽取
,特别涉及一种网页页面正文内容抽取方法及装置。
技术介绍
在大数据时代,数据的价值日益受到企业重视,现代企业不再单纯地依靠企业内部的结构化数据来进行价值提取和发现,互联网作为理想的数据海洋,包含着大量的价值数据,这些数据对行情研判、网络征信、品牌价值推广等多个领域具有重要意义。而互联网上发布的信息通常以网页形式存在,而这些互联网网页页面异构性大,且通常被包含大量HMTL标签、JS脚本或广告推广等的噪声信息所包围,给数据整合和分析工作带来了巨大的困扰,因此迫切需要一种通用、智能和高效的网页抽取方案。网页抽取的目的是将网页页面中的正文信息抽取出来并标示为结构化、自描述的数据结构。当前在这一领域主要的技术方案包括:一是基于网页标记语言的去除,利用网页形式的页面标签包括“<”和“>”的特点,通过简单的程序遍历和赋值,将所要抽取的信息抽取出来。二是在学习特定网页结构的基础上采用正则表达式,精准地抽取正文部分。三是采用DOM树的方式,将HTML文件转换成XML文档,同样需要在学习相关网页结构的基础上确定内容部分节点,最终抽取正文内容。然而上述技术方案,本质上都是一种“监督”学习机制,需要人为地认知网页页面结构,进而判断此类页面那些是正文内容,无法做到通用抽取,解析抽取的自动化程度受限,不利于大规模推广;并且,当前的技术方案需要对网页结构有精准的了解,需要针对不同的页面类型定制抽取规则,装置人工成本极高;另外,在互联网上,网页页面的更新周期往往非常短,当页面结构发生变化时,需要修改装置的解析模 ...
【技术保护点】
一种网页页面正文内容抽取方法,其特征在于,包括:读取原始网页内容;以行为粒度,统计各行出现的超级链接数目,并记录各行超级链接字符长度;根据所述行超级链接字符长度,将网页源码中的HTML标签、JS代码部分进行清洗去除,得到纯文本文件;将所述纯文本文件按照预设行数进行行块划分;根据所述纯文本文件的各个行块,计算得到相邻行块之间的引力因子;根据所述纯文本文件的各个行块进行处理,得到相邻行块之间的关联因子;根据所述引力因子和所述关联因子,计算得到全部相邻行块的正文因子;将正文因子大于阈值的相邻行块,标记为正文行块;按照行块顺序将标记为所述正文行块的相邻模块内容进行拼接,生成网页正文。
【技术特征摘要】
1.一种网页页面正文内容抽取方法,其特征在于,包括:读取原始网页内容;以行为粒度,统计各行出现的超级链接数目,并记录各行超级链接字符长度;根据所述行超级链接字符长度,将网页源码中的HTML标签、JS代码部分进行清洗去除,得到纯文本文件;将所述纯文本文件按照预设行数进行行块划分;根据所述纯文本文件的各个行块,计算得到相邻行块之间的引力因子;根据所述纯文本文件的各个行块进行处理,得到相邻行块之间的关联因子;根据所述引力因子和所述关联因子,计算得到全部相邻行块的正文因子;将正文因子大于阈值的相邻行块,标记为正文行块;按照行块顺序将标记为所述正文行块的相邻模块内容进行拼接,生成网页正文。2.根据权利要求1所述的网页页面正文内容抽取方法,其特征在于,所述将所述纯文本文件按照预设行数进行行块划分,包括:若所述纯文本文件的总行数N能够被预设行数L整除,则将所述纯文本文件划分为N/L个行块,第m个行块为第(m-1)×L+1行到第m×L行构成,1≤m≤N/L;若所述纯文本文件的总行数N不能被预设行数L整除,则将所述纯文本文件划分为K个行块,K为大于N/L的第一个整数,第m个行块为第(m-1)×L+1行到第m×L行构成,1≤m<K,第K个行块为第(K-1)×L+1到第N行构成。3.根据权利要求1所述的网页页面正文内容抽取方法,其特征在于,所述根据所述纯文本文件的各个行块,计算得到相邻行块之间的引力因子,包括:根据所述纯文本文件的各个行块,计算得到各个行块的字符数、超链接字符数及相邻行块之间的距离;根据各个行块的字符数、超链接字符数及相邻行块之间的距离,计算得到相邻行块之间的引力因子。4.根据权利要求3所述的网页页面正文内容抽取方法,其特征在于,计算得到相邻行块之间的距离,所采用的公式为:R=Dminm-Dmaxn;其中:m>n,Dminm为第m个行块内有效字符数Sl小于阈值θ的最小行号,Dmaxn为第n个行块内有效字符数Sl小于阈值θ的最大行号,Sl为第l行字符数减去第l行链接字符数的差值,R为相邻的第m个行块与第n个行块之间的距离。5.根据权利要求3所述的网页页面正文内容抽取方法,其特征在于,所述计算得到相邻行块之间的引力因子,所采用的公式为:其中,α为引力调整因子,Sm为第m个行块有效字符数,Sm为第m个行块字符数减去第m个行块链接字符数的差值,Sn为第n个行块有效字符数,Sn为第n个行块字符数减去第n个行块链接字符数的差值,R为相邻的第m个行块与第n个行块之间的距离,Fmn为相邻的第m个行块与第n个行块之间的引力因子。6.根...
【专利技术属性】
技术研发人员:张勇,钟新斌,曹震,
申请(专利权)人:中国农业银行股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。