一种基于大数据挖掘的互联网资源质量评估方法及系统技术方案

技术编号:9596816 阅读:113 留言:0更新日期:2014-01-23 02:18
本发明专利技术提供了一种基于大数据挖掘的互联网资源质量评估方法及系统,所述方法包含:步骤101)采集互联网数据,采用抽样或随机的方式得到海量样本数据;步骤102)通过数据挖掘去除样本数据的噪声点,使样本数据具有平滑性;步骤103)使用K-Means算法得出样本数据的及格值和刻度,从而确定样本数据的若干指标的分数;步骤104)依据互联网资源质量评估的相关指标,确定互联网资源的质量评估模型;步骤105)基于得到的各指标的分数和质量评估模型,确定互联网资源质量的评估结果。本发明专利技术的技术方案可以为网络运营商和ICP运营商提高用户感知质量提供数据决策支持完善和健全的质量评分模型,使得最终数据的质量分数更加准确。

【技术实现步骤摘要】
【专利摘要】本专利技术提供了一种基于大数据挖掘的互联网资源质量评估方法及系统,所述方法包含:步骤101)采集互联网数据,采用抽样或随机的方式得到海量样本数据;步骤102)通过数据挖掘去除样本数据的噪声点,使样本数据具有平滑性;步骤103)使用K-Means算法得出样本数据的及格值和刻度,从而确定样本数据的若干指标的分数;步骤104)依据互联网资源质量评估的相关指标,确定互联网资源的质量评估模型;步骤105)基于得到的各指标的分数和质量评估模型,确定互联网资源质量的评估结果。本专利技术的技术方案可以为网络运营商和ICP运营商提高用户感知质量提供数据决策支持完善和健全的质量评分模型,使得最终数据的质量分数更加准确。【专利说明】一种基于大数据挖掘的互联网资源质量评估方法及系统
本专利技术属于互联网质量分析领域,具体涉及一种基于大数据挖掘的互联网资源质量评估方法及系统。
技术介绍
目前,大多数移动运营商和ICP厂商为了解决因互联网资源数量多且复杂而带来的无法确定其数据质量情况的问题,大部分采用抽取少量样本数据进行分析其质量情况的好坏,并且只能给出资源的质量的等级或专家预测的分数,不能给出一个合理的精确的分数,其分析结果并不能真正反应其资源的质量情况,也有一部分厂商采用基于大量进行的数据挖掘,但是其处理周期较长、效率低、成本高、复杂度高,如果过程中有失误和纰漏将重新进行处理,大大增加了处理周期和成本。
技术实现思路
本专利技术的目的在于,解决因互联网资源数据量多且复杂而带来的无法确定其数据质量情况问题,从而提供一种基于大数据挖掘的互联网资源质量评估方法。为实现上述目的,本专利技术提供了一种基于大数据挖掘的互联网资源质量评估方法,所述方法包含:步骤101)采集互联网数据,采用抽样或随机的方式得到海量样本数据;步骤102)通过数据挖掘去除样本数据的噪声点,使样本数据具有平滑性;步骤103)使用K-Means算法得出样本数据的及格值和刻度,从而确定样本数据的若干指标的分数,所述指标包含:DNS解析时间、TCP建链时间、第一字节时间和剩余时间;步骤104)依据得到的及格值和刻度进行网络资源质量评估;其中,所述DNS解析时间、TCP建链时间、第一字节时间以及剩余时间均以秒为单位。上述步骤102)进一步包含:步骤102-1)依据互联网资源质量评估相关指标项,选取所需的数据,并将选取的数据整合成用于数据挖掘的数据集,所述相关指标包含DNS解析时间、TCP建链时间、第一字节时间和剩余时间;步骤102-2)基于数据集通过清理和归约操作,生成供挖掘核心使用的目标数据。上述步骤103 )进一步包含:步骤103-1)从η个数据对象中,任意选择k个对象作为初始聚类中心;而对于所剩下其它数据对象,根据剩余数据对象与这些初始聚类中心的相似度,分别将剩余数据对象中的每一个数据对象分配至与数据对象最相似的某个初始聚类中心中;步骤103-2)计算每个所获新聚类的聚类中心,不断重复这一过程直到标准测度函数开始收敛为止,得到及格值和刻度值,所述及格值为标准测度函数开始收敛为止所对应的聚类中心的重心点,所述刻度值为标准测度函数开始收敛为止所对应的聚类中心的半径与某一设定值的商,所述设定值的取值范围为:0-100 ;步骤103-3)基于得到的及格值和刻度值得到各指标的分数,公式为:各指标的分数=阈值-(指标项-及格值)/刻度;其中,指标项的取值为对互联网资源进行质量评估而采集的实际的各指标项的数值大小,该指标项的数值大小是由专门的互联网资源质量探测系统采集获得,所述指标项包含:DNS解析时间、TCP建链时间、第一字节时间和剩余字节时间;所述阈值的大小与计算指标分数时采用的分制相关,具体为该阈值为满分的百分之六十,即当采用百分制时该处的阈值为60,当采用150分值时该处固定值为90。上述技术方案中,数据对象与聚类中心的相似度通过数据对象与聚类中心的距离进行衡量;所述新聚类的聚类中心是指该聚类中心所包含的所有数据对象的均值。上述标准测度函数采用均方差。上述步骤104)进一步包含:步骤104-1)依据互联网资源质量评估的相关指标,确定互联网资源的质量评估模型,并设定质量评估模型中各指标的权重值;步骤104-2)基于得到的各指标的分数和质量评估模型,确定互联网资源质量的评估结果。上述步骤104-1)采用如下质量评估模型得出互联网资源质量的评分:最终得分=DNS解析分数S1*DNS解析权重W1+TCP建链分数S2*TCP建链权重W2+第一字节S3*第一字节权重W3+剩余字节分数S4*剩余字节权重W4 ;其中,DNS解析权重S1、TCP建链权重W2、第一字节权重W3和剩余字节权重W4是设置的各指标的权重值,这些权重值均是个百分数,且四个权重值之和为百分之一百。为了实现上述方法,本专利技术还提供了一种基于大数据挖掘的互联网资源数据质量评估系统,其特征在于,所述系统包含:获取样本数据的模块,用于采集互联网数据,得到样本数据;样本数据预处理模块,用于通过数据挖掘去除样本数据的噪声点,使样本数据具有平滑性;指标分数获取模块,用于使用K-Means算法得出样本数据的及格值和刻度,从而确定样本数据的若干指标的分数,所述指标包含=DNS解析时间、TCP建链时间、第一字节时间和剩余时间;质量评估模型设计模块,用于依据互联网资源质量评估的相关指标,确定互联网资源的质量评估模型,所述相关指标包含=DNS解析时间、TCP建链时间、第一字节时间和剩余字节时间;评估结果计算输出模块,用于基于得到的各指标的分数和质量评估模型,确定互联网资源质量的评估结果;其中,所述DNS解析时间、TCP建链时间、第一字节时间以及剩余时间均以秒为单位。上述样本数据预处理模块进一步包含:数据集获取子模块,用于依据互联网资源质量评估指标相关性,从样本数据中选取所需的数据,并将选取的数据整合成用于数据挖掘的数据集;目标数据获取子模块,用于基于数据集通过清理和归约操作,生成供挖掘核心使用的目标数据。上述指标分数获取模块进一步包含:初始聚类中心及新聚类生成子模块,用于从海量样本数据中,任意选择k个对象作为初始聚类中心;而对于所剩下其它数据对象,根据剩余数据对象与这些初始聚类中心的相似度,分别将剩余数据对象中的每一个数据对象分配至与数据对象最相似的初始聚类中心中,得到各初始聚类对应的新聚类;及格值和刻度值获取子模块,用于计算每个所获新聚类的聚类中心,不断重复这一过程直到标准测度函数开始收敛为止,得到及格值和刻度值,所述及格值为标准测度函数开始收敛为止所对应的某个新聚类的聚类中心的重心点,所述刻度值为标准测度函数开始收敛为止所对应的某个新聚类的聚类中心的半径与某一固定值的商,所述固定值的取值范围为:0-100 ;指标分数获取子模块,用于基于得到的及格值和刻度值得到各指标的分数,公式为:各指标的分数=阈值-(指标项-及格值)/刻度;其中,指标项的取值为各指标项的数值,该数值是由对互联网资源进行质量拨测得来,所述指标项包含:DNS解析时间、TCP建链时间、第一字节时间和剩余字节时间;所述阈值的大小与计算指标分数时采用的分制相关,具体为该阈值为满分的的百分之六十,即当采用百分制时该处的阈值为60,当采用150分值时该处固定值为90。本文档来自技高网...

【技术保护点】
一种基于大数据挖掘的互联网资源质量评估方法,所述方法包含:步骤101)采集互联网数据,采用抽样或随机的方式得到海量样本数据;步骤102)通过数据挖掘去除样本数据的噪声点,使样本数据具有平滑性;步骤103)使用K?Means算法得出样本数据的及格值和刻度,从而确定样本数据的若干指标的分数,所述指标包含:DNS解析时间、TCP建链时间、第一字节时间和剩余时间;步骤104)依据得到的及格值和刻度进行网络资源质量评估;其中,所述DNS解析时间、TCP建链时间、第一字节时间以及剩余时间均以秒为单位。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘岩松徐信信
申请(专利权)人:北京东方网信科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1