基于互联网爬虫技术的互联网内容资源探测方法技术

技术编号:14945380 阅读:171 留言:0更新日期:2017-04-01 11:48
基于互联网爬虫技术的互联网内容资源探测方法。本发明专利技术涉及内容资源探测子系统主要是通过对全网热点网站的深度探测和挖掘,获取相关信息,属于通信技术领域。本发明专利技术方法包括:a)普通网站资源获取;b)基于ip地址的多站点调度机制的网站探测;c)脚本动态执行分析;d)提供全网资源探测的能力;e)通过不同第三方出口爬取资源的能力;f)资源管理平台子系统探测指令接收;g)普通网站的域名识别分析;h)对无法直接爬取的资源分析;i)对视频、音频类网站识别分析;j)对于下载类的网站识别分析;k)资源的归属情况分析;l)对网站调度的分析识别及系统输出;m)内容探测与质量测试结合。

【技术实现步骤摘要】

本专利技术涉及内容资源探测子系统主要是通过对全网热点网站的深度探测和挖掘,获取相关信息,属于通信

技术介绍
随着互联网内容资源不断丰富,普及率和完整率的提升,互联网内容资源应用越来越广泛,随之而来的问题也不断出现,当互联网资源内容庞大无法有效管理?互联网内容资源质量不可知?出现问题无法进行及时的故障诊断?内容资源探测子系统本期完成的功能主要是通过对全网热点网站的深度探测和挖掘,获取域名、URL、IP地址等资源信息。供内容资源获取,内容识别分析和数据管理功能。本专利技术结合了互联网内容资源探测手段的优点,提出基于互联网爬虫技术的互联网内容资源探测方法。通过质量拨测方法形成体系,对互联网内容资源和质量进行整合。通过现网互联网质量监测系统已部署的接入网专业硬件探针,进行网络质量、业务拨测,对客户接入层网络路由进行故障检测,对客户所占设备端口进行反向操作
技术实现思路
本专利技术的目的是为了解决现有技术中存在的互联网资源内容质量不可知等问题。和现有技术相比,这种方法具有效率高、成本低、分析内容丰富的特点,更加符合现网情况和客户需求。具体来说,本专利技术方法包括:a)普通网站资源获取通过系统的内容资源爬虫测试,通过资源页面,测试该页面的各个页面元素,同时解析页面中的各个子链接,再针对与入口页面同一根域名的子链接进行递归测试,直到所有的有效链接测试完成,最终测试一个域名下的所有子域名的页面元素。b)基于ip地址的多站点调度机制的网站探测容资源探测系统在网站爬取过程中,每当遇到一个新出现的域名时,通过DNS解析过程可以得到该域名对应的IP地址,通过IP地址得到域名或URL的归属。其中配置的DNS可根据需要进行动态灵活配置,实现各DNS解析结果的综合分析功能。c)脚本动态执行分析,对无法直接获取的资源,可通过模拟用户下载动作等方式,从而获得真正的内容下载地址。d)提供全网资源探测的能力通过资源页面,测试该页面的各个页面元素,同时解析页面中的各个子链接,再针对与入口页面同一根域名的子链接进行递归测试,直到所有的有效链接测试完成,最终测试一个域名下的所有子域名的页面元素。本专利技术的积极效果是:通过移动容资源探测子系统主要包含内容资源获取、内容识别分析、数据管理、数据报表、系统管理和接口管理等功能模块。可以通过对全网热点网站的深度探测和挖掘,获取域名、URL、IP地址、归属地、资源类型、资源质量等数据信息。附图说明图1表示本专利技术基于互联网爬虫技术的互联网内容资源探测方法。具体实施方式下面对本专利技术作进一步说明。测试流程:用户可以在NetVista内容资源探测子系统定义好需要建立的测试任务;系统接收到测试任务后,会像部署在各个地市的测试探针下发测试任务;测试探针接收到测试任务之后,会按内容资源探测子系统要求,执行相应的测试任务;探针执行完测试任务之后,会将测试结果上报给内容资源探测子系统。呈现流程:系统完成测试任务之后,用户可以在系统报表系统上面定义各个查询条件,就可以获取需求的数据报表,数据报表可以直接通过系统界面呈现,可以导出到Excel表格呈现,也可以通过相应的接口发送给其他系统呈现。数据存储模块:数据存储模块主要包括数据库,内部测试中心收集到测试探针上报的测试数据后,会将数据存储到数据库。数据处理模块:数据处理模块主要功能是将数据库中的数据进行统计、分析等处理。数据呈现模块:数据呈现主要是通过系统报表引擎,按多种维度、多种形式呈现系统数据报表。本文档来自技高网...
基于互联网爬虫技术的互联网内容资源探测方法

【技术保护点】
基于互联网爬虫技术的互联网内容资源探测方法,包括:a)普通网站资源获取b)基于ip地址的多站点调度机制的网站探测c)脚本动态执行分析d)提供全网资源探测的能力e)通过不同第三方出口爬取资源的能力f)资源管理平台子系统探测指令接收g)普通网站的域名识别分析h)对无法直接爬取的资源分析i)对视频、音频类网站识别分析j)对于下载类的网站识别分析k)资源的归属情况分析l)对网站调度的分析识别及系统输出m)内容探测与质量测试结合。

【技术特征摘要】
1.基于互联网爬虫技术的互联网内容资源探测方法,包括:a)普通网站资源获取b)基于ip地址的多站点调度机制的网站探测c)脚本动态执行分析d)提供全网资源探测的能力e)通过不同第三方出口爬取资源的能力f)资源管理平台子系统探测指令接收g)普通网站的域名识别分析h)对无法直接爬取的资源分析i)对视频、音频类网站识别分析j)对于下载类的网站识别分析k)资源的归属情况分析l)对网站调度的分析识别及系统输出m)内容探测与质量测试结合。2.根据权利要求1所述的基于互联网爬虫技术的互联网内容资源探测方法,其特征在于,所述的普通网站资源获取通过系统的内容资源爬虫测试,通过资源页面,测试该页面的各个页面元素,同时解析页面中的各个子链接,再针对与入口页面同一根域名的子链接进行递归测试,直到所有的有效链接测试完成,最终测试一个域名下的所有子域名的页面元素。3.根据权利要求1所述的基于互联网爬虫技术的互联网内容资源探测方法,其特征在于,所述的基于ip地址的多站点调度机制的网站探测容资源探测系统在网站爬取过程中,每当遇到一个新出现的域名时,通过DNS解析过程可以得到该域名对应的IP地址,通过IP地址得到域名或URL的归属。其中配置的DNS可根据需要进行动态灵活配置,实现各DNS解析结果的综合分析功能。4.根据权利要求1所述的基于互联网爬虫技术的互联网内容资源探测方法,其特征在于,所述的脚本动态执行分析,对无法直接获取的资源,可通过模拟用户下载动作等方式,从而获得真正的内容下载地址。5.根据权利要求1所述的基于互联网爬虫技术的互联网内容资源探测方法,其特征在于,所述的提供全网资源探测的能力通过资源页面,测试该页面的各个页面元素,同时解析页面中的各个子链接,再针对与入口页面同一根域名的子链接进行递归测试,直到所有的有效链接测试完成,最终测试一个域名下的所有子域名的页面元素。6.根据权利要求1所述的基于互联网爬虫技术的互联网内容资源探测方法,其特征在于,所述的通过不同的第三方出口爬取资源的能力内容资源探针系统的测试探针通过配置不同的IP地址或VLAN以对应不同的出口方向,不间间评估第三方出口的网络质量和业务质量。7.根据权利要求1所述的基于互联网爬虫技术的互联网...

【专利技术属性】
技术研发人员:施德群
申请(专利权)人:飞思达技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1