【技术实现步骤摘要】
云计算平台驱动的网页大数据内容聚类方法
[0001]本申请涉及一种云平台网页大数据内容聚类方法,特别涉及一种云计算平台驱动的网页大数据内容聚类方法,属于云计算网络大数据检索
技术介绍
[0002]在数以亿计的网页中,用户获取有效信息变得极为艰难,如何才能更加有效的挖掘浩瀚网络中的知识,面对“数据丰富,知识匮乏”的挑战,迫切需要强大的数据分析工具来应对复杂的海量数据。如何才能快速的辨别垃圾信息,如何才能更加从容的对数据归类这些都成为目前面临亟待解决的问题。
[0003]数据挖掘可以有效解决这些问题,数据挖掘有分类、估计、预测、关联规则、聚类,聚类则是属于机器学习中的无监督学习,着重于数据本身的分布特点,可以帮助发现数据中的群落,同时也可以寻找离群的样本,与分类最大的区别就是不需要对数据进行人工标记。
[0004]对网页进行聚类一直都是聚类解析中的重中之重,传统的网页为人工分类,不仅效率低下,而且会受到人的经验制约,有着人为不可控的因素影响。而通过对网页内容的文本聚类可以帮助用户对需要的网页信息按内容进行分组,极大的方便了用户浏览网页检索信息。当前有很多研究,但仍存在很多不足。
[0005]因为互联网中网页的数量极其庞大,对网页的聚类是基于对大规模的网页进行聚类,恰好对海量数据的聚类正是当前数据挖掘的热点。其与传统的聚类略有不同,首先单台计算机无法对百万数量级以上的网页进行处理,其次传统的聚类算法很难处理大规模的数据或者是处理数据会消耗大量的时间。基于以上两点,高性能的计算机和聚类算法的 ...
【技术保护点】
【技术特征摘要】
1.云计算平台驱动的网页大数据内容聚类方法,其特征在于,采用K均值网页聚类算法,在基于近似簇和二分K均值网页聚类的基础上,提出“簇内误差乘方和”和“极限点收敛规则”,并在此基础上结合Hadoop云平台构建并行化计算架构,构建云计算K均值网页聚类优化改进算法;1)对于网页的特征提炼及计算进行改进,提出网页大数据内容聚类方法,包括:抽取网页内容、网页云平台分词、特征网页表达、网页内容聚类解析、网页内容聚类评估,针对高维度向量空间的缺陷采用DF特征提炼方法进行降维,然后基于网页的半结构化特点,在特征词进行权重计算时,基于重要性因子,为其赋予权值后进行加权运算,然后在网页内容聚类前的数据准备过程中采用MapReduce运算获取网页的向量;2)在对于聚类算法上,提出云计算K均值网页聚类优化方法,包括:算法新概念定义、基于近似簇的优化方法、基于二分K均值网页聚类的优化方法、网页聚类并行化架构,首先针对K均值聚类算法需指定K值的缺陷,在基于近似簇的基础上对其进行优化,设计算法近似簇(V,N),使得优化后的算法不需要指定K值进行聚类;然后针对K均值聚类算法迭代中出现局部最优的缺陷,在基于二分K均值网页聚类的基础上,结合簇内误差乘方和与极限点收敛规则进行优化,建立二分K均值网页聚类(K,V),使优化后的算法对原始数据进行全局最优聚类;融合近似簇(V,N)和二分K均值网页聚类(V,K),并进行并行化计算,对海量数据进行聚类;同时基于网页的URL、头文件、标题标签信息的重要性,改进TF
‑
IDF算法,得到适用于网页特征词的权重计算方法。2.根据权利要求1所述云计算平台驱动的网页大数据内容聚类方法,其特征在于,抽取网页内容:首先根据网页的URL爬取网页的HTML源代码,然后基于选取的特征从HTML文档中抽取内容,采用网页的正文、网页头文件中的keywords和description以及title、URL作为特征,其中URL已存在于初始数据中,keywords、description和title这三个特征存在于<head>标签中的<meta>标签以及<title>标签中,头文件内容分析完毕后,根据规则表达式,将需要的字段内容从页面中抽取出来,存储到数据库中;然后抽取正文,依据正文区的密度和行域的长度抽取正文,结合标签用途判断标题,步骤包括:第一步:抽取<h1><h2>标签中的标题信息;第二步:过滤所有html标签只保留文本信息;第三步:以每个文本行为轴,上下三行定义为一块;第四步:设定一个临界值,遍历行域长度,当行域长度骤升,且增长幅度大于该临界值时记为正文起始点;第五步:当行域长度骤降,且尾随行域长度为0时,标记为正文结束点;经过上述步骤得到网页的URL、keywords、description、title、h1、h2、正文信息,共同构成网页内容。3.根据权利要求1所述云计算平台驱动的网页大数据内容聚类方法,其特征在于,网页云平台分词:对URL分词获取特征:(1)对URL进行解码;(2)去掉头部“http://www”或“http:/”以及尾部“?”后面的字符串;(3)将URL中所有的数字去掉;
(4)用空格替换“_”、
“‑”
、“.”、“/”这四个字符,然后以空格划分得到一组英文字符串;(5)对上一步形成的英文字符串在英文字典中进行检索来判断其是否为一个英文单词,如果不是英文单词,则基于字典双向匹配的方法来进行分词,即同时从左往右和从右往左进行分词,如果结果一样则认定分词正确,否则按最小集处理,同时,URL中出现一些不是单词的无意义英文字符串,将这些作为噪音去掉。4.根据权利要求1所述云计算平台驱动的网页大数据内容聚类方法,其特征在于,特征网页表达:采用模型来量化网页,去掉停用词,然后采取特征提炼法进行降维,最后剩下的每一个词都是一个特征,剩下的M个词构成特征集,特征集表示为{W1,W2,
…
,W
M
},则特征网页表达为:v
i
=(w
i0
,w
i1
,...,w
iM
)
ꢀꢀꢀꢀꢀꢀꢀꢀ
式1v
i
为特征网页表达,w
ij
为对应特征;1)特征提炼:采取特征提炼法对空间模型进行修正来降低维度,采用文档特征概率来进行特征选取降维,如果某个词条的文档频率过低,则认定它与分类无关,将它移除掉以降低特征空间的维度,每个词的文档频率是所有文档中出现该词的文档数,设定一个临界值,特征提炼低于该临界值的词移除,高的保留;2)基于网页核心点的特征权重计算模型:首先基于文本长度对特征词权重的影响,防止聚类中个别特征词的权重过高并抑制其它特征词的权重,做归一化处理,处理后计算式为:TFIDF(t
i
,d
j
)为TF
‑
IDF特征权重,考虑到某个特征词如果在所有页面中都出现会导致其IDF值为0,特征权重也为0的情况,故对TF
‑
IDF作如下改变:TF(t
i
,d
j
)表示特征词出现的频率,D为总文档数,D(t
i
)指包含特征词t
i
的文档数,对特征词赋予较高的权值进行加权处理,设正文中的特征词权值为1,则相应标签k对应的权值weight
k
对应设定;基于TF
‑
IDF权重计算,IDF不变仍为对TF的计算进行改良,首先N为文档加权后的总词汇数,N
w
为加权后的词汇频数,改进后的加权总词汇数和加权词汇频数式如下:N=∑(weight
k
*num
k
)N
w
=∑(weight
k
+k
w
)<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。