一种网页信息提取系统及提取方法技术方案

技术编号:15302772 阅读:139 留言:0更新日期:2017-05-14 23:00
本发明专利技术公开了一种网页信息提取系统及提取方法,属于网络信息提取技术领域,系统包括网页信息捕捉单元;网址过滤单元,连接网页信息捕捉单元;网页信息提取单元,分别连接网页信息捕捉单元和网址过滤单元;方法包括:预设多个标准网址信息;获取网页的网址信息和网页编码信息;将匹配于标准网址信息的网址信息标记为有效网址信息;提取网页编码信息,转换网页编码信息的编码类型并保存;用空白信息替代网页编码信息中的超文本标签;将网页编码信息划分为多个信息块,并计算信息块中的字节密度;提取密度骤升与密度骤降的信息块之间的网页编码信息并输出;上述技术方案的有益效果是:剔除无用信息,解决兼容性问题,提升信息获取精确性。

【技术实现步骤摘要】
一种网页信息提取系统及提取方法
本专利技术涉及网络信息提取
,尤其涉及一种网页信息提取系统及提取方法。
技术介绍
在如今信息爆炸的时代,网络扮演着非常重要的角色。网络上包括海量的数据,各种类型以及各种结构的数据都混杂在一起,这就给抓取网络上的正文信息带来了不小的麻烦。现有技术中,往往需要在网页上获取相关的网页内容,以便于进行后续处理,例如对网页内容进行分析从而获知相关网页发布的信息内容。通常,现有技术中,在网页上获取相关的网页内容时,会遇到以下几个问题:1)由于从网络上下载的页面中包括很多无用的广告页面以及一些无效页面,会给获取正文信息的过程带来很多干扰;2)对于网络上存在的各种结构和各种编码的页面,在获取正文信息时会遇到编码兼容性的问题。
技术实现思路
根据现有技术中存在的缺陷,现提供一种网页信息提取系统及提取方法,具体包括:一种网页信息提取系统,其中,包括:网页信息捕捉单元,用于在浏览器侧下载预设的网页,并捕捉所述网页的网址信息和网页编码信息;网址过滤单元,连接所述网页信息捕捉单元,预设有多个标准网址信息,并用于根据预设的所述标准网址信息对所述网址信息进行匹配,以获得匹配于所述标准网址信息的有效网址信息;网页信息提取单元,分别连接所述网页信息捕捉单元和所述网址过滤单元,用于提取对应所述有效网址信息的所述网页编码信息,并将所述网页编码信息分为多个信息块,查找到字节密度骤升的所述信息块和字节密度骤降的所述信息块;所述网页信息提取单元将位于字节密度骤升的所述信息块和字节密度骤降的所述信息块之间的所述网页编码信息确定为网页信息,并输出所述网页信息。优选的,该网页信息提取系统,其中,所述网址过滤单元包括:网址分割模块,用于接收所述网页信息捕捉单元捕获的网址信息,并将所述网址信息分割为域名信息、URL路径信息以及URL实体信息;标准网址存储模块,保存有所述标准网址信息,所述标准网址信息包括标准域名信息和标准URL路径信息;网址匹配模块,分别连接所述网址分割模块和所述标准网址存储模块,用于将所述域名信息与所述标准域名信息进行匹配,以及将所述URL路径信息与所述标准URL路径信息匹配,并将匹配成功的所述网址信息标记为有效网址信息。优选的,该网页信息提取系统,其中,所述网页信息提取单元中包括:编码转换模块,用于根据所述网页编码信息的编码类型选择相应的解码方式,以将所述网页编码信息的编码类型转换成对应的UTF-8编码UTF-8编码类型;编码存储模块,连接所述编码转换模块,用于保存经过转换的所述网页编码信息;第一符号转换模块,连接所述编码存储模块,采用空白信息替代所述编码存储模块中保存的所述网页编码信息中的超文本标签;信息密度计算模块,连接所述第一符号转换模块,用于将经过替代后的所述网页编码信息分割为多个行数相等的连续的信息块,并计算每个所述信息块的字节密度;网页信息提取模块,连接所述信息密度计算模块,用于根据所述信息块的字节密度的变化趋势,提取位于字节密度骤升的所述信息块和字节密度骤降的所述信息块之间的所述网页编码信息,并将被提取的所述网页编码信息作为网页信息输出。优选的,该网页信息提取系统,其中,所述网页信息提取单元中还包括:第二符号转换模块,连接于所述编码存储模块与所述第一符号转换模块之间,采用换行符替代所述网页编码信息中的分段符,并将经过替代后的所述网页编码信息发送至所述第一符号转换模块中。优选的,该网页信息提取系统,其中,所述信息密度计算模块还直接连接所述编码存储模块,用于直接提取保存于所述编码存储模块中的所述网页编码信息,并进行划分和信息密度计算;所述网页信息提取模块中包括:符号查询模块,根据位于字节密度骤降的所述信息块之前的最接近的区块分隔符,查找位于字节密度骤降的所述信息块之后的对应的区块分隔符;所述网页信息提取模块将位于两个相应的所述区块分隔符之间的所述网页编码信息作为所述网页信息并输出。一种网页信息提取方法,其中,包括:步骤1,预设多个标准网址信息;步骤2,在浏览器侧下载一个预设的网页,并获取所述网页的网址信息和对应的网页编码信息;步骤3,将匹配于所述标准网址信息的所述网址信息标记为有效网址信息;步骤4,提取对应所述有效网址信息的所述网页编码信息,并将所述网页编码信息的编码类型转换为UTF-8编码类型,随后保存经过转换的所述网页编码信息;步骤5,采用空白信息替代经过转换后的所述网页编码信息中的超文本标签;步骤6,将所述网页编码信息划分为多个行数相等的连续的信息块,并计算每个所述信息块中的字节密度;步骤7,提取位于字节密度骤升的所述信息块与字节密度骤降的所述信息块之间的所述网页编码信息,以作为对应所述网页编码信息的网页信息并输出。优选的,该网页信息提取方法,其中,所述标准网址信息中包括标准域名信息和标准URL路径信息;所述步骤3具体包括:步骤31,将所述网址信息分割为域名信息、URL路径信息和URL实体信息;步骤32,将经过分割的所述网址信息中的所述域名信息与所述标准网址信息的所述标准域名信息进行匹配:若所述域名信息匹配于所述标准域名信息,则转至步骤33;若所述域名信息不匹配于所述标准域名信息,则返回所述步骤2;步骤33,将经过分割的所述网址信息中的所述URL路径信息与对应所述标准域名信息的所述标准URL路径信息进行匹配:若所述URL路径信息匹配于对应所述标准域名信息的所述标准URL路径信息,则将所述网址信息标记为有效网址信息,随后转至所述步骤4;若所述URL路径信息不匹配于对应所述标准域名信息的所述标准URL路径信息,则返回所述步骤2。优选的,该网页信息提取方法,其中,所述步骤5中,在采用空白信息替代所述网页编码信息中的超文本标签之前,首先采用换行符替代所述网页编码信息中的分段符。优选的,该网页信息提取方法,其中,所述步骤4中,对网页编码信息的编码类型进行转换并且保存之后,直接转至所述步骤6;所述步骤6中,将所述网页编码信息划分为多个行数相等的连续的信息块,并计算每个所述信息块中的字节密度后,转至步骤7b;步骤7b,根据位于字节密度骤降的所述信息块之前的最接近的区块分隔符,查找位于字节密度骤降的所述信息块之后的对应的区块分隔符,随后将位于两个对应的所述区块分隔符之间的所述网页编码信息作为所述网页信息并输出。上述技术方案的有益效果是:剔除网页上的无用信息和广告信息,解决网页编码结构的兼容性问题,提升在网页上获取网页内容的准确性,为后续处理做好准备。附图说明图1是本专利技术的较佳的实施例中,一种网页信息提取系统的结构示意图;图2是本专利技术的较佳的实施例中,标准网址信息的树形存储结构示意图;图3-4是本专利技术的较佳的实施例中,一种网页信息提取方法的流程示意图。具体实施方式下面结合附图和具体实施例对本专利技术作进一步说明,但不作为本专利技术的限定。如图1所示,本专利技术的较佳的实施例中,一种网页信息提取系统具体包括:网页信息捕捉单元1,用于在浏览器侧下载预设的网页,并捕捉网页的网址信息和网页编码信息;本专利技术的较佳的实施例中,网址信息即网页地址,网页编码信息即呈现网页中所有数据内容的编码信息,例如一个网页的所有HTML编码。网址过滤单元2,连接网页信息捕捉单元1;本专利技术的较佳的实施例中,在网址过滤单元2中预设有多个标本文档来自技高网...
一种网页信息提取系统及提取方法

【技术保护点】

【技术特征摘要】
1.一种网页信息提取系统,其特征在于,包括:网页信息捕捉单元,用于在浏览器侧下载预设的网页,并捕捉所述网页的网址信息和网页编码信息;网址过滤单元,连接所述网页信息捕捉单元,预设有多个标准网址信息,并用于根据预设的所述标准网址信息对所述网址信息进行匹配,以获得匹配于所述标准网址信息的有效网址信息;网页信息提取单元,分别连接所述网页信息捕捉单元和所述网址过滤单元,用于提取对应所述有效网址信息的所述网页编码信息,并将所述网页编码信息分为多个信息块,查找到字节密度骤升的所述信息块和字节密度骤降的所述信息块;所述网页信息提取单元将位于字节密度骤升的所述信息块和字节密度骤降的所述信息块之间的所述网页编码信息确定为网页信息,并输出所述网页信息;所述网址过滤单元包括:网址分割模块,用于接收所述网页信息捕捉单元捕获的网址信息,并将所述网址信息分割为域名信息、URL路径信息以及URL实体信息;标准网址存储模块,保存有所述标准网址信息,所述标准网址信息包括标准域名信息和标准URL路径信息;网址匹配模块,分别连接所述网址分割模块和所述标准网址存储模块,用于将所述域名信息与所述标准域名信息进行匹配,以及将所述URL路径信息与所述标准URL路径信息匹配,并将匹配成功的所述网址信息标记为有效网址信息;所述网页信息提取单元中包括:编码转换模块,用于根据所述网页编码信息的编码类型选择相应的解码方式,以将所述网页编码信息的编码类型转换成对应的UTF-8编码UTF-8编码类型;编码存储模块,连接所述编码转换模块,用于保存经过转换的所述网页编码信息;第一符号转换模块,连接所述编码存储模块,采用空白信息替代所述编码存储模块中保存的所述网页编码信息中的超文本标签;信息密度计算模块,连接所述第一符号转换模块,用于将经过替代后的所述网页编码信息分割为多个行数相等的连续的信息块,并计算每个所述信息块的字节密度;网页信息提取模块,连接所述信息密度计算模块,用于根据所述信息块的字节密度的变化趋势,提取位于字节密度骤升的所述信息块和字节密度骤降的所述信息块之间的所述网页编码信息,并将被提取的所述网页编码信息作为网页信息输出。2.如权利要求1所述的网页信息提取系统,其特征在于,所述网页信息提取单元中还包括:第二符号转换模块,连接于所述编码存储模块与所述第一符号转换模块之间,采用换行符替代所述网页编码信息中的分段符,并将经过替代后的所述网页编码信息发送至所述第一符号转换模块中。3.如权利要求1所述的网页信息提取系统,其特征在于,所述信息密度计算模块还直接连接所述编码存储模块,用于直接提取保存于所述编码存储模块中的所述网页编码信息,并进行划分和信息密度计算;所述网页信息提取模...

【专利技术属性】
技术研发人员:张啸晨郭少鹏吕强贺文磊
申请(专利权)人:上海语天信息技术有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1