一种网页页面最大块提取的方法技术

技术编号：16779600 阅读：82 留言：0更新日期：2017-12-12 23:54

本发明专利技术属于网页设计领域，公开了一种网页页面最大块提取的方法，包括：首先获取网页源码，针对网页源码中的标签非页面展示的文字部分全部用正则替换成空白行；然后计算出每一行文字的个数形成的函数；形成的函数分布为一行；然后以步长长度为3行之和的一个组合block块，形成新的文本分布更加密集的函数；然后根据密集的函数找出骤升，骤降的点作为网页主体文本提取出来生成文本，保存。本发明专利技术能够大幅度降低网页内容提取的人工成本和维护成本，同时具有较好的自适应能力，在网站内容结构改变时，抽取方法依然有效。

A method of maximum block extraction for web pages

The invention belongs to the field of web design, discloses a method, a web page maximum block extraction includes: first, access to the page source, for the non text page display page source tags in all regular replaced with blank lines and then calculate the number of functions; each line of text formation; distribution function form as a line; then to step length for a combination of the 3 elements of the block block and the formation of a new and more intensive distribution function text; and then find out the swell under intensive function, drop points as the \main text is extracted to generate text, save. The invention can greatly reduce the labor cost and maintenance cost of web page content extraction, and has better adaptive ability at the same time. When the content structure of website changes, the extraction method is still effective.

全部详细技术资料下载

【技术实现步骤摘要】
一种网页页面最大块提取的方法
本专利技术属于网页设计领域，尤其涉及一种网页页面最大块提取的方法。
技术介绍
目前，页面提取采用的主要方法是针对不同网站进行定制化规则进行正文的提取。首先分析需要爬取正文页面，根据页面结构写本页面的提取规则。规则用xpath或者正则书写，然后根据书写的页面提取规则进行特定的页面内容抽取，获取内容后保存本地。完成一次网页内容的抽取。这样做维护成本过大，针对网站爬取内容，每个网站都有一套规则。而且一旦网页格式发生变化，原先针对此网站就作废了，给页面内容抽取带来困难。综上所述：现有技术中存在的问题：目前技术对特定网页采取特定的规则进行抽取内容，在面对大量网页内容抽取的时候会涉及到大量的抽取规则的编写、优化、维护；这样会投入大量的人力资源，而且网页格式一旦发生变化以前的抽取规则就会失效；为了避免由于页面变化导致的网页内容抽取程序失效，减少开发成本和维护成本，提高网页内容抽取方法的智能化程度和自适应能力，提出了本专利技术。
技术实现思路
针对现有技术存在的问题，本专利技术提供了一种网页页面最大块提取的方法。本专利技术是这样实现的，一种网页页面最大块...

【技术保护点】
一种网页页面最大块提取的方法，其特征在于，所述网页页面最大块提取的方法，包括：首先获取网页源码，针对网页源码中的标签非页面展示的文字部分全部用正则替换成空白行；然后计算出每一行文字的个数形成的函数；形成的函数分布为一行；然后以步长长度为3行之和的一个组合block块，形成新的文本分布更加密集的函数；然后根据密集的函数找出骤升，骤降的点作为网页主体文本提取出来生成文本，保存。

【技术特征摘要】
1.一种网页页面最大块提取的方法，其特征在于，所述网页页面最大块提取的方法，包括：首先获取网页源码，针对网页源码中的标签非页面展示的文字部分全部用正则替换成空白行；然后计算出每一行文字的个数形成的函数；形成的函数分布为一行；然后以步长长度为3行之和的一个组合block块，形成新的文本分布更加密集的函数；然后根据密集的函数找出骤升，骤降的点作为网页主体文本提取出来生成文本，保存。2.如权利要求1所述的网页页面最大块提取的方法，其特征在于，所述网页页面最大块提取的方法，具体包括：获取网页html码，然后对内容进行编码、去除脚本、去除特殊字符的预处理；获取到html源码以后根据网站编码进行内容编码，编码完成后要用正则’<script[^>]*？>.*？</script>’去除<script></script>包含的脚本和特殊的注释文本<！--...-->，对于转义的特殊字符&nbsp；&lt；&gt；&amp；&quot；&apos转义成相应的空格、<、>、&、”、’；去除格式标签获取整个页面的文本；对文本用正则”<[^>]*>”进行去除标签，去除html中所有的标签；利用粗略的文本分布使处理的标签的脚本变成空白行；计算行块字符数的分布函数；根据分布函数变化找到骤升和骤降的点，得到有价值的正文；处理正文，根据得到的行号，按照行号把每行表示的内容拼接起来形成主体内容，若得到的主体内容中还有空行；然后用正则‘^\n’替换成空，去除空行；最后得到文章主体。3.如权利要求2所述的网页页面最大块...

【专利技术属性】
技术研发人员：苑聪虎，程国艮，李世奇，
申请(专利权)人：中译语通科技北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人