一种网页信息提取系统及提取方法技术方案

技术编号：15302772 阅读：139 留言：0更新日期：2017-05-14 23:00

本发明专利技术公开了一种网页信息提取系统及提取方法，属于网络信息提取技术领域，系统包括网页信息捕捉单元；网址过滤单元，连接网页信息捕捉单元；网页信息提取单元，分别连接网页信息捕捉单元和网址过滤单元；方法包括：预设多个标准网址信息；获取网页的网址信息和网页编码信息；将匹配于标准网址信息的网址信息标记为有效网址信息；提取网页编码信息，转换网页编码信息的编码类型并保存；用空白信息替代网页编码信息中的超文本标签；将网页编码信息划分为多个信息块，并计算信息块中的字节密度；提取密度骤升与密度骤降的信息块之间的网页编码信息并输出；上述技术方案的有益效果是：剔除无用信息，解决兼容性问题，提升信息获取精确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种网页信息提取系统及提取方法
本专利技术涉及网络信息提取
，尤其涉及一种网页信息提取系统及提取方法。
技术介绍
在如今信息爆炸的时代，网络扮演着非常重要的角色。网络上包括海量的数据，各种类型以及各种结构的数据都混杂在一起，这就给抓取网络上的正文信息带来了不小的麻烦。现有技术中，往往需要在网页上获取相关的网页内容，以便于进行后续处理，例如对网页内容进行分析从而获知相关网页发布的信息内容。通常，现有技术中，在网页上获取相关的网页内容时，会遇到以下几个问题：1）由于从网络上下载的页面中包括很多无用的广告页面以及一些无效页面，会给获取正文信息的过程带来很多干扰；2）对于网络上存在的各种结构和各种编码的页面，在获取正文信息时会遇到编码兼容性的问题。
技术实现思路
根据现有技术中存在的缺陷，现提供一种网页信息提取系统及提取方法，具体包括：一种网页信息提取系统，其中，包括：网页信息捕捉单元，用于在浏览器侧下载预设的网页，并捕捉所述网页的网址信息和网页编码信息；网址过滤单元，连接所述网页信息捕捉单元，预设有多个标准网址信息，并用于根据预设的所述标准网址信息对所述网址信息进行匹配，以获得匹配于所述标准网址信息的有效网址信息；网页信息提取单元，分别连接所述网页信息捕捉单元和所述网址过滤单元，用于提取对应所述有效网址信息的所述网页编码信息，并将所述网页编码信息分为多个信息块，查找到字节密度骤升的所述信息块和字节密度骤降的所述信息块；所述网页信息提取单元将位于字节密度骤升的所述信息块和字节密度骤降的所述信息块之间的所述网页编码信息确定为网页信息，并输出所述网页信息。优选的，该...
一种网页信息提取系统及提取方法

【技术保护点】

【技术特征摘要】
1.一种网页信息提取系统，其特征在于，包括：网页信息捕捉单元，用于在浏览器侧下载预设的网页，并捕捉所述网页的网址信息和网页编码信息；网址过滤单元，连接所述网页信息捕捉单元，预设有多个标准网址信息，并用于根据预设的所述标准网址信息对所述网址信息进行匹配，以获得匹配于所述标准网址信息的有效网址信息；网页信息提取单元，分别连接所述网页信息捕捉单元和所述网址过滤单元，用于提取对应所述有效网址信息的所述网页编码信息，并将所述网页编码信息分为多个信息块，查找到字节密度骤升的所述信息块和字节密度骤降的所述信息块；所述网页信息提取单元将位于字节密度骤升的所述信息块和字节密度骤降的所述信息块之间的所述网页编码信息确定为网页信息，并输出所述网页信息；所述网址过滤单元包括：网址分割模块，用于接收所述网页信息捕捉单元捕获的网址信息，并将所述网址信息分割为域名信息、URL路径信息以及URL实体信息；标准网址存储模块，保存有所述标准网址信息，所述标准网址信息包括标准域名信息和标准URL路径信息；网址匹配模块，分别连接所述网址分割模块和所述标准网址存储模块，用于将所述域名信息与所述标准域名信息进行匹配，以及将所述URL路径信息与所述标准URL路径信息匹配，并将匹配成功的所述网址信息标记为有效网址信息；所述网页信息提取单元中包括：编码转换模块，用于根据所述网页编码信息的编码类型选择相应的解码方式，以将所述网页编码信息的编码类型转换成对应的UTF-8编码UTF-8编码类型；编码存储模块，连接所述编码转换模块，用于保存经过转换的所述网页编码信息；第一符号转换模块，连接所述编码存储模块，采用空白信息替代所述编码存储模块中保存的所述网页编码信息中的超文本标签；信息密度计算模块，连接所述第一符号转换模块，用于将经过替代后的所述网页编码信息分割为多个行数相等的连续的信息块，并计算每个所述信息块的字节密度；网页信息提取模块，连接所述信息密度计算模块，用于根据所述信息块的字节密度的变化趋势，提取位于字节密度骤升的所述信息块和字节密度骤降的所述信息块之间的所述网页编码信息，并将被提取的所述网页编码信息作为网页信息输出。2.如权利要求1所述的网页信息提取系统，其特征在于，所述网页信息提取单元中还包括：第二符号转换模块，连接于所述编码存储模块与所述第一符号转换模块之间，采用换行符替代所述网页编码信息中的分段符，并将经过替代后的所述网页编码信息发送至所述第一符号转换模块中。3.如权利要求1所述的网页信息提取系统，其特征在于，所述信息密度计算模块还直接连接所述编码存储模块，用于直接提取保存于所述编码存储模块中的所述网页编码信息，并进行划分和信息密度计算；所述网页信息提取模...

【专利技术属性】
技术研发人员：张啸晨，郭少鹏，吕强，贺文磊，
申请(专利权)人：上海语天信息技术有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人