当前位置: 首页 > 专利查询>岳阳专利>正文

云计算平台驱动的网页大数据内容聚类方法技术

技术编号:38198920 阅读:11 留言:0更新日期:2023-07-21 16:37
本申请提出一种云计算平台驱动的网页大数据内容聚类方法,对K均值聚类算法在K值需要人工确定、算法局部最优而非全局最优以及并行化处理三个方面进行优化改进,针对网页数据的半结构化特征对特征项的权重计算方法进行改进,采用K均值网页聚类算法,在基于近似簇和二分K均值网页聚类的基础上,提出“簇内误差乘方和”和“极限点收敛规则”,并构建云计算K均值网页聚类优化改进算法;通过算法改进实现高效准确的海量网页内容聚类,而且当数据量进一步扩大时,还可以提高集群数量来解决计算力不足的问题。实验表明优化后的云计算K均值网页聚类算法聚类结果、加速比、可拓展性方面性能上都有较大程度的提高。有较大程度的提高。有较大程度的提高。

【技术实现步骤摘要】
云计算平台驱动的网页大数据内容聚类方法


[0001]本申请涉及一种云平台网页大数据内容聚类方法,特别涉及一种云计算平台驱动的网页大数据内容聚类方法,属于云计算网络大数据检索


技术介绍

[0002]在数以亿计的网页中,用户获取有效信息变得极为艰难,如何才能更加有效的挖掘浩瀚网络中的知识,面对“数据丰富,知识匮乏”的挑战,迫切需要强大的数据分析工具来应对复杂的海量数据。如何才能快速的辨别垃圾信息,如何才能更加从容的对数据归类这些都成为目前面临亟待解决的问题。
[0003]数据挖掘可以有效解决这些问题,数据挖掘有分类、估计、预测、关联规则、聚类,聚类则是属于机器学习中的无监督学习,着重于数据本身的分布特点,可以帮助发现数据中的群落,同时也可以寻找离群的样本,与分类最大的区别就是不需要对数据进行人工标记。
[0004]对网页进行聚类一直都是聚类解析中的重中之重,传统的网页为人工分类,不仅效率低下,而且会受到人的经验制约,有着人为不可控的因素影响。而通过对网页内容的文本聚类可以帮助用户对需要的网页信息按内容进行分组,极大的方便了用户浏览网页检索信息。当前有很多研究,但仍存在很多不足。
[0005]因为互联网中网页的数量极其庞大,对网页的聚类是基于对大规模的网页进行聚类,恰好对海量数据的聚类正是当前数据挖掘的热点。其与传统的聚类略有不同,首先单台计算机无法对百万数量级以上的网页进行处理,其次传统的聚类算法很难处理大规模的数据或者是处理数据会消耗大量的时间。基于以上两点,高性能的计算机和聚类算法的并行化可以一定程度上将问题得到解决,而且当数据量进一步扩大时,还可以提高集群数量来解决计算力不足的问题。
[0006]综上,现有技术的海量网页数据内容聚类方法存在一些问题和缺陷,本申请需要解决的问题和关键技术难点包括:
[0007](1)在数以亿计的网页中,用户获取有效信息变得极为艰难,现有技术无法更有效的挖掘浩瀚网络中的知识,面对数据丰富与知识匮乏的挑战,迫切需要强大的数据分析工具来应对复杂的海量数据。如何才能快速的辨别垃圾信息,如何才能更加从容的对网页归类是目前面临亟待解决的问题,现有技术缺少高效准确的网页聚类解析方法,传统的网页为人工分类,不仅效率低下,而且会受到人的经验制约,有着人为不可控的因素影响。而通过对网页内容的文本聚类可以帮助用户对需要的网页信息按内容进行分组,极大的方便了用户浏览网页检索信息。当前有很多研究,但仍存在很多不足,多个步骤需要人工参与,不仅繁琐,而且人为因素对聚类结果影响很大,网页内容聚类为局部最优而非全局最优,造成聚类准确性不高,无法实现并行化处理,面对海量数据的处理效率很低。
[0008](2)现有技术对于网页的特征提取及计算存在较多问题,特别是面对海量网页内容聚类特征提取及计算缺点明显,在抽取网页内容、网页分词、网页特征表达、网页内容聚
类解析、网页内容评估等方面存在准确率和效率低的缺陷,针对高维度向量空间的缺陷无法有效降维,缺少基于网页半结构化特点,在特征词权重计算时,基于重要性为其赋予权值后进行加权运算,无法在网页内容聚类前的数据准备过程中采用MapReduce运算获取网页的向量,同时也存在对K均值聚类算法在K值需要人工确定、算法局部最优而非全局最优以及无法并行化处理的缺点,针对网页数据的半结构化特征缺少特征项权重计算方法,且无法在集群上运行,网页数据内容聚类正确率、加速比、算法效率都比较低。
[0009](3)现有技术在聚类算法上,缺少针对云计算的网页聚类方法,缺少基于近似簇的优化方法和基于二分K均值网页聚类的优化方法,无法建立网页聚类并行化架构,传统的K均值聚类算法对k值的选择全凭经验判断,针对K均值聚类算法需指定K值的缺陷,缺少有效的解决方法,无法在基于近似簇的基础上进行优化;针对K均值聚类算法迭代中出现局部最优的缺陷,缺少有效的解决方法,无法在二分K均值网页聚类的基础上,结合簇内误差乘方和与极限点收敛规则进行优化,无法对原始数据进行全局最优聚类;缺少融合近似簇和二分K均值网页聚类的并行化计算,无法对海量数据进行聚类;同时缺少基于网页的URL、头文件、标题标签信息改进的TF

IDF算法,无法得到适用于网页特征词的权重计算方法,面对海量网页数据内容聚类结果、加速比、可拓展性方面性能上无法满足要求。

技术实现思路

[0010]本申请创造性的将高性能计算和网页聚类算法的并行化结合,提出一种云计算平台驱动的网页大数据内容聚类方法,对K均值聚类算法在K值需要人工确定、算法局部最优而非全局最优以及并行化处理三个方面进行优化改进,针对网页数据的半结构化特征对特征项的权重计算方法进行改进,采用K均值网页聚类算法,在基于近似簇和二分K均值网页聚类的基础上,提出“簇内误差乘方和”和“极限点收敛规则”,并在此基础上结合Hadoop云平台构建并行化计算架构,构建云计算K均值网页聚类优化改进算法;通过算法改进实现高效准确的海量网页内容聚类,而且当数据量进一步扩大时,还可以提高集群数量来解决计算力不足的问题。在单机以及多个节点上分别进行测试后计算其正确率、最小误差乘方和、加速比、算法效率并进行比较评估,实验表明优化后的云计算K均值网页聚类算法聚类结果、加速比、可拓展性方面性能上都有较大程度的提高。
[0011]为实现以上技术效果,本申请所采用的技术方案如下:
[0012]云计算平台驱动的网页大数据内容聚类方法,采用K均值网页聚类算法,在基于近似簇和二分K均值网页聚类的基础上,提出“簇内误差乘方和”和“极限点收敛规则”,并在此基础上结合Hadoop云平台构建并行化计算架构,构建云计算K均值网页聚类优化改进算法;
[0013]1)对于网页的特征提炼及计算进行改进,提出网页大数据内容聚类方法,包括:抽取网页内容、网页云平台分词、特征网页表达、网页内容聚类解析、网页内容聚类评估,针对高维度向量空间的缺陷采用DF特征提炼方法进行降维,然后基于网页的半结构化特点,在特征词进行权重计算时,基于重要性因子,为其赋予权值后进行加权运算,然后在网页内容聚类前的数据准备过程中采用MapReduce运算获取网页的向量;
[0014]2)在对于聚类算法上,提出云计算K均值网页聚类优化方法,包括:算法新概念定义、基于近似簇的优化方法、基于二分K均值网页聚类的优化方法、网页聚类并行化架构,首先针对K均值聚类算法需指定K值的缺陷,在基于近似簇的基础上对其进行优化,设计算法
近似簇(V,N),使得优化后的算法不需要指定K值进行聚类;然后针对K均值聚类算法迭代中出现局部最优的缺陷,在基于二分K均值网页聚类的基础上,结合簇内误差乘方和与极限点收敛规则进行优化,建立二分K均值网页聚类(K,V),使优化后的算法对原始数据进行全局最优聚类;融合近似簇(V,N)和二分K均值网页聚类(V,K),并进行并行化计算,对海量数据进行聚类;同时基于网页的URL、头文件、标题标签信息的重要性,改进TF

IDF算法,得到适用于网页特征词的权重计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.云计算平台驱动的网页大数据内容聚类方法,其特征在于,采用K均值网页聚类算法,在基于近似簇和二分K均值网页聚类的基础上,提出“簇内误差乘方和”和“极限点收敛规则”,并在此基础上结合Hadoop云平台构建并行化计算架构,构建云计算K均值网页聚类优化改进算法;1)对于网页的特征提炼及计算进行改进,提出网页大数据内容聚类方法,包括:抽取网页内容、网页云平台分词、特征网页表达、网页内容聚类解析、网页内容聚类评估,针对高维度向量空间的缺陷采用DF特征提炼方法进行降维,然后基于网页的半结构化特点,在特征词进行权重计算时,基于重要性因子,为其赋予权值后进行加权运算,然后在网页内容聚类前的数据准备过程中采用MapReduce运算获取网页的向量;2)在对于聚类算法上,提出云计算K均值网页聚类优化方法,包括:算法新概念定义、基于近似簇的优化方法、基于二分K均值网页聚类的优化方法、网页聚类并行化架构,首先针对K均值聚类算法需指定K值的缺陷,在基于近似簇的基础上对其进行优化,设计算法近似簇(V,N),使得优化后的算法不需要指定K值进行聚类;然后针对K均值聚类算法迭代中出现局部最优的缺陷,在基于二分K均值网页聚类的基础上,结合簇内误差乘方和与极限点收敛规则进行优化,建立二分K均值网页聚类(K,V),使优化后的算法对原始数据进行全局最优聚类;融合近似簇(V,N)和二分K均值网页聚类(V,K),并进行并行化计算,对海量数据进行聚类;同时基于网页的URL、头文件、标题标签信息的重要性,改进TF

IDF算法,得到适用于网页特征词的权重计算方法。2.根据权利要求1所述云计算平台驱动的网页大数据内容聚类方法,其特征在于,抽取网页内容:首先根据网页的URL爬取网页的HTML源代码,然后基于选取的特征从HTML文档中抽取内容,采用网页的正文、网页头文件中的keywords和description以及title、URL作为特征,其中URL已存在于初始数据中,keywords、description和title这三个特征存在于<head>标签中的<meta>标签以及<title>标签中,头文件内容分析完毕后,根据规则表达式,将需要的字段内容从页面中抽取出来,存储到数据库中;然后抽取正文,依据正文区的密度和行域的长度抽取正文,结合标签用途判断标题,步骤包括:第一步:抽取<h1><h2>标签中的标题信息;第二步:过滤所有html标签只保留文本信息;第三步:以每个文本行为轴,上下三行定义为一块;第四步:设定一个临界值,遍历行域长度,当行域长度骤升,且增长幅度大于该临界值时记为正文起始点;第五步:当行域长度骤降,且尾随行域长度为0时,标记为正文结束点;经过上述步骤得到网页的URL、keywords、description、title、h1、h2、正文信息,共同构成网页内容。3.根据权利要求1所述云计算平台驱动的网页大数据内容聚类方法,其特征在于,网页云平台分词:对URL分词获取特征:(1)对URL进行解码;(2)去掉头部“http://www”或“http:/”以及尾部“?”后面的字符串;(3)将URL中所有的数字去掉;
(4)用空格替换“_”、
“‑”
、“.”、“/”这四个字符,然后以空格划分得到一组英文字符串;(5)对上一步形成的英文字符串在英文字典中进行检索来判断其是否为一个英文单词,如果不是英文单词,则基于字典双向匹配的方法来进行分词,即同时从左往右和从右往左进行分词,如果结果一样则认定分词正确,否则按最小集处理,同时,URL中出现一些不是单词的无意义英文字符串,将这些作为噪音去掉。4.根据权利要求1所述云计算平台驱动的网页大数据内容聚类方法,其特征在于,特征网页表达:采用模型来量化网页,去掉停用词,然后采取特征提炼法进行降维,最后剩下的每一个词都是一个特征,剩下的M个词构成特征集,特征集表示为{W1,W2,

,W
M
},则特征网页表达为:v
i
=(w
i0
,w
i1
,...,w
iM
)
ꢀꢀꢀꢀꢀꢀꢀꢀ
式1v
i
为特征网页表达,w
ij
为对应特征;1)特征提炼:采取特征提炼法对空间模型进行修正来降低维度,采用文档特征概率来进行特征选取降维,如果某个词条的文档频率过低,则认定它与分类无关,将它移除掉以降低特征空间的维度,每个词的文档频率是所有文档中出现该词的文档数,设定一个临界值,特征提炼低于该临界值的词移除,高的保留;2)基于网页核心点的特征权重计算模型:首先基于文本长度对特征词权重的影响,防止聚类中个别特征词的权重过高并抑制其它特征词的权重,做归一化处理,处理后计算式为:TFIDF(t
i
,d
j
)为TF

IDF特征权重,考虑到某个特征词如果在所有页面中都出现会导致其IDF值为0,特征权重也为0的情况,故对TF

IDF作如下改变:TF(t
i
,d
j
)表示特征词出现的频率,D为总文档数,D(t
i
)指包含特征词t
i
的文档数,对特征词赋予较高的权值进行加权处理,设正文中的特征词权值为1,则相应标签k对应的权值weight
k
对应设定;基于TF

IDF权重计算,IDF不变仍为对TF的计算进行改良,首先N为文档加权后的总词汇数,N
w
为加权后的词汇频数,改进后的加权总词汇数和加权词汇频数式如下:N=∑(weight
k
*num
k
)N
w
=∑(weight
k
+k
w
)<...

【专利技术属性】
技术研发人员:岳阳王军
申请(专利权)人:岳阳
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1