基于互联网爬虫技术的互联网内容资源探测方法技术

技术编号：14945380 阅读：171 留言：0更新日期：2017-04-01 11:48

基于互联网爬虫技术的互联网内容资源探测方法。本发明专利技术涉及内容资源探测子系统主要是通过对全网热点网站的深度探测和挖掘，获取相关信息，属于通信技术领域。本发明专利技术方法包括：a)普通网站资源获取；b)基于ip地址的多站点调度机制的网站探测；c)脚本动态执行分析；d)提供全网资源探测的能力；e)通过不同第三方出口爬取资源的能力；f)资源管理平台子系统探测指令接收；g)普通网站的域名识别分析；h)对无法直接爬取的资源分析；i)对视频、音频类网站识别分析；j)对于下载类的网站识别分析；k)资源的归属情况分析；l)对网站调度的分析识别及系统输出；m)内容探测与质量测试结合。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及内容资源探测子系统主要是通过对全网热点网站的深度探测和挖掘，获取相关信息，属于通信

技术介绍
随着互联网内容资源不断丰富，普及率和完整率的提升，互联网内容资源应用越来越广泛，随之而来的问题也不断出现，当互联网资源内容庞大无法有效管理？互联网内容资源质量不可知？出现问题无法进行及时的故障诊断？内容资源探测子系统本期完成的功能主要是通过对全网热点网站的深度探测和挖掘，获取域名、URL、IP地址等资源信息。供内容资源获取，内容识别分析和数据管理功能。本专利技术结合了互联网内容资源探测手段的优点，提出基于互联网爬虫技术的互联网内容资源探测方法。通过质量拨测方法形成体系，对互联网内容资源和质量进行整合。通过现网互联网质量监测系统已部署的接入网专业硬件探针，进行网络质量、业务拨测，对客户接入层网络路由进行故障检测，对客户所占设备端口进行反向操作
技术实现思路
本专利技术的目的是为了解决现有技术中存在的互联网资源内容质量不可知等问题。和现有技术相比，这种方法具有效率高、成本低、分析内容丰富的特点，更加符合现网情况和客户需求。具体来说，本专利技术方法包括：a)普通网站资源获取通过系统的内容资源爬虫测试，通过资源页面，测试该页面的各个页面元素，同时解析页面中的各个子链接，再针对与入口页面同一根域名的子链接进行递归测试，直到所有的有效链接测试完成，最终测试一个域名下的所有子域名的页面元素。b)基于ip地址的多站点调度机制的网站探测容资源探测系统在网站爬取过程中，每当遇到一个新出现的域名时，通过DNS解析过程可以得到该域名对应的IP地址，通过IP地址得到域...
基于互联网爬虫技术的互联网内容资源探测方法

【技术保护点】
基于互联网爬虫技术的互联网内容资源探测方法，包括：a)普通网站资源获取b)基于ip地址的多站点调度机制的网站探测c)脚本动态执行分析d)提供全网资源探测的能力e)通过不同第三方出口爬取资源的能力f)资源管理平台子系统探测指令接收g)普通网站的域名识别分析h)对无法直接爬取的资源分析i)对视频、音频类网站识别分析j)对于下载类的网站识别分析k)资源的归属情况分析l)对网站调度的分析识别及系统输出m)内容探测与质量测试结合。

【技术特征摘要】
1.基于互联网爬虫技术的互联网内容资源探测方法，包括：a)普通网站资源获取b)基于ip地址的多站点调度机制的网站探测c)脚本动态执行分析d)提供全网资源探测的能力e)通过不同第三方出口爬取资源的能力f)资源管理平台子系统探测指令接收g)普通网站的域名识别分析h)对无法直接爬取的资源分析i)对视频、音频类网站识别分析j)对于下载类的网站识别分析k)资源的归属情况分析l)对网站调度的分析识别及系统输出m)内容探测与质量测试结合。2.根据权利要求1所述的基于互联网爬虫技术的互联网内容资源探测方法，其特征在于，所述的普通网站资源获取通过系统的内容资源爬虫测试，通过资源页面，测试该页面的各个页面元素，同时解析页面中的各个子链接，再针对与入口页面同一根域名的子链接进行递归测试，直到所有的有效链接测试完成，最终测试一个域名下的所有子域名的页面元素。3.根据权利要求1所述的基于互联网爬虫技术的互联网内容资源探测方法，其特征在于，所述的基于ip地址的多站点调度机制的网站探测容资源探测系统在网站爬取过程中，每当遇到一个新出现的域名时，通过DNS解析过程可以得到该域名对应的IP地址，通过IP地址得到域名或URL的归属。其中配置的DNS可根据需要进行动态灵活配置，实现各DNS解析结果的综合分析功能。4.根据权利要求1所述的基于互联网爬虫技术的互联网内容资源探测方法，其特征在于，所述的脚本动态执行分析，对无法直接获取的资源，可通过模拟用户下载动作等方式，从而获得真正的内容下载地址。5.根据权利要求1所述的基于互联网爬虫技术的互联网内容资源探测方法，其特征在于，所述的提供全网资源探测的能力通过资源页面，测试该页面的各个页面元素，同时解析页面中的各个子链接，再针对与入口页面同一根域名的子链接进行递归测试，直到所有的有效链接测试完成，最终测试一个域名下的所有子域名的页面元素。6.根据权利要求1所述的基于互联网爬虫技术的互联网内容资源探测方法，其特征在于，所述的通过不同的第三方出口爬取资源的能力内容资源探针系统的测试探针通过配置不同的IP地址或VLAN以对应不同的出口方向，不间间评估第三方出口的网络质量和业务质量。7.根据权利要求1所述的基于互联网爬虫技术的互联网...

【专利技术属性】
技术研发人员：施德群，
申请(专利权)人：飞思达技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人