新闻网站的网页判别处理方法、终端设备及存储介质技术

技术编号：17705223 阅读：41 留言：0更新日期：2018-04-14 18:06

本发明专利技术公开一种新闻网站的网页判别处理方法、终端设备及存储介质，通过采集当前网页的子网页信息，进而对子网页进行分类，再根据每个分类中子网页链接的标题的平均长度，来筛选出新闻详文页，进而通过当前网页所包含的新闻详文页的个数，判断出新闻版块页，从而将新闻版块页作为采集目标并从筛选出的新闻详闻页里采集提取新闻数据，从而提高新闻数据采集的效率。

全部详细技术资料下载

【技术实现步骤摘要】
新闻网站的网页判别处理方法、终端设备及存储介质
本专利技术涉及互联网信息数据采集
，具体是一种新闻网站的网页判别处理方法、终端设备及存储介质。
技术介绍
伴随着互联网的快速发展，社会公众和企业单位对互联网数据的依赖越来越强，互联网是提供新闻信息的重要渠道，互联网上的信息数以亿计，由于硬件资源、网络资源的限制，人们很难快速准确的来获取自己关注的新闻信息。互联网上的新闻网站类型复杂，例如五大门户网站，除新闻网页信息外还会存在大量的的其它内容网页，这在一定程度上加大了用户搜索新闻的难度。目前存在的一些新闻采集工具，只可以在用户指定的网站中进行搜索采集，有一定的局限性，而且通常也会对大量非新闻网页进行判断，从而大大降低了新闻数据采集的效率。
技术实现思路
为了解决上述问题，本专利技术提供一种新闻网站的网页判别处理方法、终端设备及存储介质，通过筛选出新闻详文页，进而判断出新闻版块页，从而将新闻版块页作为采集目标并从筛选出的新闻详闻页里采集提取新闻数据，从而提高新闻数据采集的效率。本专利技术一种新闻网站的网页判别处理方法，包括如下步骤：S0：设置需进行新闻详文页筛选的新闻网站URL的采集深度阈值HY、子网页链接的标题的平均长度阈值lenthAY和网页里面的新闻详文页的个数总和阈值tatalY，采集深度H设置为0，并获取需进行新闻详文页筛选的新闻网站URL，其所在的网页作为当前网页，进入S1步骤；S1：提取在当前网页下的包含当前网页URL的若干级域名的所有子网页链接URL，并记录其链接文字信息，子网页链接URL的链接文字信息作为子网页链接的标题，同时记录当前网页和子网...
新闻网站的网页判别处理方法、终端设备及存储介质

【技术保护点】
一种新闻网站的网页判别处理方法，其特征在于：包括如下步骤：S0：设置需进行新闻详文页筛选的新闻网站URL的采集深度阈值HY、子网页链接的标题的平均长度阈值lenthAY和网页里面的新闻详文页的个数总和阈值tatalY，采集深度H设置为0，并获取需进行新闻详文页筛选的新闻网站URL，其所在的网页作为当前网页，进入S1步骤；S1：提取在当前网页下的包含当前网页URL的若干级域名的所有子网页链接URL，并记录其链接文字信息，子网页链接URL的链接文字信息作为子网页链接的标题，同时记录当前网页和子网页链接的关联关系，再将提取的所有子网页链接URL放入LIST中，进入S2步骤；S2：对LIST中的子网页链接URL进行过滤，将其中的静态子网页的子网页链接URL过滤出来，标记为非新闻详文页链接，从LIST中剔除，进入S3步骤；S3：通过字符相似度算法，将LIST中的子网页链接URL进行归类划分，归类为若干个集合Bn，其中n为正整数，进入S4步骤；S4：获取集合Bn里面每个子网页链接的标题长度lenthNn和所有子网页链接URL的个数总和totalN，并计算集合Bn里面所有子网页链接的标题的平均长度l...

【技术特征摘要】
1.一种新闻网站的网页判别处理方法，其特征在于：包括如下步骤：S0：设置需进行新闻详文页筛选的新闻网站URL的采集深度阈值HY、子网页链接的标题的平均长度阈值lenthAY和网页里面的新闻详文页的个数总和阈值tatalY，采集深度H设置为0，并获取需进行新闻详文页筛选的新闻网站URL，其所在的网页作为当前网页，进入S1步骤；S1：提取在当前网页下的包含当前网页URL的若干级域名的所有子网页链接URL，并记录其链接文字信息，子网页链接URL的链接文字信息作为子网页链接的标题，同时记录当前网页和子网页链接的关联关系，再将提取的所有子网页链接URL放入LIST中，进入S2步骤；S2：对LIST中的子网页链接URL进行过滤，将其中的静态子网页的子网页链接URL过滤出来，标记为非新闻详文页链接，从LIST中剔除，进入S3步骤；S3：通过字符相似度算法，将LIST中的子网页链接URL进行归类划分，归类为若干个集合Bn，其中n为正整数，进入S4步骤；S4：获取集合Bn里面每个子网页链接的标题长度lenthNn和所有子网页链接URL的个数总和totalN，并计算集合Bn里面所有子网页链接的标题的平均长度lenthANn，其中n为正整数，进入S5步骤；S5：比较lenthANn和lenthAY，若lenthANn大于或等于lenthAY，则判定集合Bn里的子网页链接为新闻详文页链接，并将其所有的子网页链接URL标记为新闻详文页链接URL，若lenthANn小于lenthAY，则标记为非新闻详文页链接URL，并将其保存到LISTA中，进入S6步骤；S6：计算集合B1、B2、B3...Bn里所有新闻详文页的个数总和totalB，进入S7步骤；S7：比较totalB和tatalY，若tatalB大于或等于ta...

【专利技术属性】
技术研发人员：陈强，栾江霞，章正道，
申请(专利权)人：厦门市美亚柏科信息股份有限公司，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人