一种基于大数据挖掘的互联网资源质量评估方法及系统技术方案

技术编号：9596816 阅读：113 留言：0更新日期：2014-01-23 02:18

本发明专利技术提供了一种基于大数据挖掘的互联网资源质量评估方法及系统，所述方法包含：步骤101）采集互联网数据，采用抽样或随机的方式得到海量样本数据；步骤102）通过数据挖掘去除样本数据的噪声点，使样本数据具有平滑性；步骤103）使用K-Means算法得出样本数据的及格值和刻度，从而确定样本数据的若干指标的分数；步骤104）依据互联网资源质量评估的相关指标，确定互联网资源的质量评估模型；步骤105）基于得到的各指标的分数和质量评估模型，确定互联网资源质量的评估结果。本发明专利技术的技术方案可以为网络运营商和ICP运营商提高用户感知质量提供数据决策支持完善和健全的质量评分模型，使得最终数据的质量分数更加准确。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术提供了一种基于大数据挖掘的互联网资源质量评估方法及系统，所述方法包含：步骤101）采集互联网数据，采用抽样或随机的方式得到海量样本数据；步骤102）通过数据挖掘去除样本数据的噪声点，使样本数据具有平滑性；步骤103）使用K-Means算法得出样本数据的及格值和刻度，从而确定样本数据的若干指标的分数；步骤104）依据互联网资源质量评估的相关指标，确定互联网资源的质量评估模型；步骤105）基于得到的各指标的分数和质量评估模型，确定互联网资源质量的评估结果。本专利技术的技术方案可以为网络运营商和ICP运营商提高用户感知质量提供数据决策支持完善和健全的质量评分模型，使得最终数据的质量分数更加准确。【专利说明】一种基于大数据挖掘的互联网资源质量评估方法及系统
本专利技术属于互联网质量分析领域，具体涉及一种基于大数据挖掘的互联网资源质量评估方法及系统。
技术介绍
目前，大多数移动运营商和ICP厂商为了解决因互联网资源数量多且复杂而带来的无法确定其数据质量情况的问题，大部分采用抽取少量样本数据进行分析其质量情况的好坏，并且只能给出资源的质量的等级或专家预测的分数，不能给出一个合理的精确的分数，其分析结果并不能真正反应其资源的质量情况，也有一部分厂商采用基于大量进行的数据挖掘，但是其处理周期较长、效率低、成本高、复杂度高，如果过程中有失误和纰漏将重新进行处理，大大增加了处理周期和成本。
技术实现思路
本专利技术的目的在于，解决因互联网资源数据量多且复杂而带来的无法确定其数据质量情况问题，从而提供一种基于大数据挖掘的互联网资源质量评估方法。为实...

【技术保护点】
一种基于大数据挖掘的互联网资源质量评估方法，所述方法包含：步骤101）采集互联网数据，采用抽样或随机的方式得到海量样本数据；步骤102）通过数据挖掘去除样本数据的噪声点，使样本数据具有平滑性；步骤103）使用K?Means算法得出样本数据的及格值和刻度，从而确定样本数据的若干指标的分数，所述指标包含：DNS解析时间、TCP建链时间、第一字节时间和剩余时间；步骤104）依据得到的及格值和刻度进行网络资源质量评估；其中，所述DNS解析时间、TCP建链时间、第一字节时间以及剩余时间均以秒为单位。

【技术特征摘要】

【专利技术属性】
技术研发人员：刘岩松，徐信信，
申请(专利权)人：北京东方网信科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人