新闻网站的网页判别处理方法、终端设备及存储介质技术

技术编号:17705223 阅读:41 留言:0更新日期:2018-04-14 18:06
本发明专利技术公开一种新闻网站的网页判别处理方法、终端设备及存储介质,通过采集当前网页的子网页信息,进而对子网页进行分类,再根据每个分类中子网页链接的标题的平均长度,来筛选出新闻详文页,进而通过当前网页所包含的新闻详文页的个数,判断出新闻版块页,从而将新闻版块页作为采集目标并从筛选出的新闻详闻页里采集提取新闻数据,从而提高新闻数据采集的效率。

【技术实现步骤摘要】
新闻网站的网页判别处理方法、终端设备及存储介质
本专利技术涉及互联网信息数据采集
,具体是一种新闻网站的网页判别处理方法、终端设备及存储介质。
技术介绍
伴随着互联网的快速发展,社会公众和企业单位对互联网数据的依赖越来越强,互联网是提供新闻信息的重要渠道,互联网上的信息数以亿计,由于硬件资源、网络资源的限制,人们很难快速准确的来获取自己关注的新闻信息。互联网上的新闻网站类型复杂,例如五大门户网站,除新闻网页信息外还会存在大量的的其它内容网页,这在一定程度上加大了用户搜索新闻的难度。目前存在的一些新闻采集工具,只可以在用户指定的网站中进行搜索采集,有一定的局限性,而且通常也会对大量非新闻网页进行判断,从而大大降低了新闻数据采集的效率。
技术实现思路
为了解决上述问题,本专利技术提供一种新闻网站的网页判别处理方法、终端设备及存储介质,通过筛选出新闻详文页,进而判断出新闻版块页,从而将新闻版块页作为采集目标并从筛选出的新闻详闻页里采集提取新闻数据,从而提高新闻数据采集的效率。本专利技术一种新闻网站的网页判别处理方法,包括如下步骤:S0:设置需进行新闻详文页筛选的新闻网站URL的采集深度阈值HY、子网页链接的标题的平均长度阈值lenthAY和网页里面的新闻详文页的个数总和阈值tatalY,采集深度H设置为0,并获取需进行新闻详文页筛选的新闻网站URL,其所在的网页作为当前网页,进入S1步骤;S1:提取在当前网页下的包含当前网页URL的若干级域名的所有子网页链接URL,并记录其链接文字信息,子网页链接URL的链接文字信息作为子网页链接的标题,同时记录当前网页和子网页链接的关联关系,再将提取的所有子网页链接URL放入LIST中,进入S2步骤;S2:对LIST中的子网页链接URL进行过滤,将其中的静态子网页的子网页链接URL过滤出来,标记为非新闻详文页链接,从LIST中剔除,进入S3步骤;S3:通过字符相似度算法,将LIST中的子网页链接URL进行归类划分,归类为若干个集合Bn,其中n为正整数,进入S4步骤;S4:获取集合Bn里面每个子网页链接的标题长度lenthNn和所有子网页链接URL的个数总和totalN,并计算集合Bn里面所有子网页链接的标题的平均长度lenthANn,其中n为正整数,进入S5步骤;S5:比较lenthANn和lenthAY,若lenthANn大于或等于lenthAY,则判定集合Bn里的子网页链接为新闻详文页链接,并将其所有的子网页链接URL标记为新闻详文页链接URL,若lenthANn小于lenthAY,则标记为非新闻详文页链接URL,并将其保存到LISTA中,进入S6步骤;S6:计算集合B1、B2、B3...Bn里所有新闻详文页的个数总和totalB,进入S7步骤;S7:比较totalB和tatalY,若tatalB大于或等于tatalY,则判定当前网页为新闻版块页,若tatalB小于tatalY,则判定当前网页为非新闻版块页,进入S8步骤;S8:将Bn中的子网页链接URL所在的子网页作为当前网页,同时采集深度H递增1,比较H和HY,若H小于HY,则返回S1步骤,若H大于或等于HY,则退出。进一步的,S0中,采集深度阈值HY设置为3。进一步的,S0中,新闻详文页的个数总和阈值tatalY设置为10。进一步的,S1中,通过获取新闻网页源码,再用BloomFilter算法来提取在当前网页下的包含当前网页URL的若干级域名的所有子网页链接URL。更进一步的,提取的所有子网页链接URL为包含当前网页URL的三级域名的URL。进一步的,S2中,静态子网页的子网页链接URL为后缀为index.html、index.shtml或index.htm的URL。进一步的,S5中,还包括对标记为新闻详文页链接URL的子网页链接URL所在的子网页进行网页内容自动解析,保存解析到的网页内容结构化数据。本专利技术一种新闻网站的网页判别处理终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现新闻网站的网页判别处理方法的步骤。本专利技术一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现新闻网站的网页判别处理方法的步骤。本专利技术的有益效果:通过采集当前网页的子网页信息,进而对子网页进行分类,再根据每个分类中子网页链接的标题的平均长度,来筛选出新闻详文页,进而通过当前网页所包含的新闻详文页的个数,判断出新闻版块页,从而将新闻版块页作为采集目标并从筛选出的新闻详闻页里采集提取新闻数据,从而提高新闻数据采集的效率。附图说明图1为本专利技术实施例一的方法流程图。具体实施方式为进一步说明各实施例,本专利技术提供有附图。这些附图为本专利技术揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本专利技术的优点。图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。现结合附图和具体实施方式对本专利技术进一步说明。实施例一:请参阅图1所示,本专利技术提供了一种新闻网站的网页判别处理方法,包括如下步骤:S0:设置需进行新闻详文页筛选的新闻网站URL的采集深度阈值HY、子网页链接的标题的平均长度阈值lenthAY和网页里面的新闻详文页的个数总和阈值tatalY,采集深度H设置为0,并获取需进行新闻详文页筛选的新闻网站URL,其所在的网页作为当前网页,具体地,本实施例中,采集深度阈值HY设置为3,新闻详文页的个数总和阈值tatalY设置为10(本实施例中,采集深度阈值HY设置为3,新闻详文页的个数总和阈值tatalY设置为10,但并不局限于此,也可以根据需要设置其他的数值,在此不再赘述)。进入S1步骤;S1:提取在当前网页下的包含当前网页URL的若干级域名的所有子网页链接URL,并记录其链接文字信息,子网页链接URL的链接文字信息作为子网页链接的标题,同时记录当前网页和子网页链接的关联关系,再将提取的所有子网页链接URL放入LIST中,具体地,本实施例中,是通过获取新闻网页源码,再用BloomFilter算法来提取在当前网页下的包含当前网页URL的三级域名的所有子网页链接URL。这样,能够保证提取的子网页链接URL排除掉那些不包含排除字符串的子网页URL,如print.html,以及其它文档类型为结束的子网页URL,如.txt,.doc,.mp3等,这些网页链接均为明显的非新闻详文页链接。进入S2步骤;S2:对LIST中的子网页链接URL进行过滤,将其中的静态子网页的子网页链接URL过滤出来,标记为非新闻详文页链接,从LIST中剔除,具体地,静态子网页的子网页链接URL为后缀为index.html、index.shtml或index.htm的URL。进入S3步骤;S3:通过字符相似度算法,将LIST中的子网页链接URL进行归类划分,归类为若干个集合Bn,其中n为正整数,进入S4步骤;S4:获取集合Bn里面每个子网页链接的标题长度lenthNn和所有子网页链接URL的个数总和totalN,并计算集合Bn里面所有子网页链接的标题的平均长度lenthANn本文档来自技高网...
新闻网站的网页判别处理方法、终端设备及存储介质

【技术保护点】
一种新闻网站的网页判别处理方法,其特征在于:包括如下步骤:S0:设置需进行新闻详文页筛选的新闻网站URL的采集深度阈值HY、子网页链接的标题的平均长度阈值lenthAY和网页里面的新闻详文页的个数总和阈值tatalY,采集深度H设置为0,并获取需进行新闻详文页筛选的新闻网站URL,其所在的网页作为当前网页,进入S1步骤;S1:提取在当前网页下的包含当前网页URL的若干级域名的所有子网页链接URL,并记录其链接文字信息,子网页链接URL的链接文字信息作为子网页链接的标题,同时记录当前网页和子网页链接的关联关系,再将提取的所有子网页链接URL放入LIST中,进入S2步骤;S2:对LIST中的子网页链接URL进行过滤,将其中的静态子网页的子网页链接URL过滤出来,标记为非新闻详文页链接,从LIST中剔除,进入S3步骤;S3:通过字符相似度算法,将LIST中的子网页链接URL进行归类划分,归类为若干个集合Bn,其中n为正整数,进入S4步骤;S4:获取集合Bn里面每个子网页链接的标题长度lenthNn和所有子网页链接URL的个数总和totalN,并计算集合Bn里面所有子网页链接的标题的平均长度lenthANn,其中n为正整数,进入S5步骤;S5:比较lenthANn和lenthAY,若lenthANn大于或等于lenthAY,则判定集合Bn里的子网页链接为新闻详文页链接,并将其所有的子网页链接URL标记为新闻详文页链接URL,若lenthANn小于lenthAY,则标记为非新闻详文页链接URL,并将其保存到LIST A中,进入S6步骤;S6:计算集合B1、B2、B3...Bn里所有新闻详文页的个数总和totalB,进入S7步骤;S7:比较totalB和tatalY,若tatalB大于或等于tatalY,则判定当前网页为新闻版块页,若tatalB小于tatalY,则判定当前网页为非新闻版块页,进入S8步骤;S8:将Bn中的子网页链接URL所在的子网页作为当前网页,同时采集深度H递增1,比较H和HY,若H小于HY,则返回S1步骤,若H大于或等于HY,则退出。...

【技术特征摘要】
1.一种新闻网站的网页判别处理方法,其特征在于:包括如下步骤:S0:设置需进行新闻详文页筛选的新闻网站URL的采集深度阈值HY、子网页链接的标题的平均长度阈值lenthAY和网页里面的新闻详文页的个数总和阈值tatalY,采集深度H设置为0,并获取需进行新闻详文页筛选的新闻网站URL,其所在的网页作为当前网页,进入S1步骤;S1:提取在当前网页下的包含当前网页URL的若干级域名的所有子网页链接URL,并记录其链接文字信息,子网页链接URL的链接文字信息作为子网页链接的标题,同时记录当前网页和子网页链接的关联关系,再将提取的所有子网页链接URL放入LIST中,进入S2步骤;S2:对LIST中的子网页链接URL进行过滤,将其中的静态子网页的子网页链接URL过滤出来,标记为非新闻详文页链接,从LIST中剔除,进入S3步骤;S3:通过字符相似度算法,将LIST中的子网页链接URL进行归类划分,归类为若干个集合Bn,其中n为正整数,进入S4步骤;S4:获取集合Bn里面每个子网页链接的标题长度lenthNn和所有子网页链接URL的个数总和totalN,并计算集合Bn里面所有子网页链接的标题的平均长度lenthANn,其中n为正整数,进入S5步骤;S5:比较lenthANn和lenthAY,若lenthANn大于或等于lenthAY,则判定集合Bn里的子网页链接为新闻详文页链接,并将其所有的子网页链接URL标记为新闻详文页链接URL,若lenthANn小于lenthAY,则标记为非新闻详文页链接URL,并将其保存到LISTA中,进入S6步骤;S6:计算集合B1、B2、B3...Bn里所有新闻详文页的个数总和totalB,进入S7步骤;S7:比较totalB和tatalY,若tatalB大于或等于ta...

【专利技术属性】
技术研发人员:陈强栾江霞章正道
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1