当前位置: 首页 > 专利查询>贵州商学院专利>正文

一种基于Hadoop平台的改进并行KNN网络舆情分类算法制造技术

技术编号:21089812 阅读:101 留言:0更新日期:2019-05-11 10:03
一种基于Hadoop平台的改进并行KNN网络舆情分类算法,进行

【技术实现步骤摘要】
一种基于Hadoop平台的改进并行KNN网络舆情分类算法
本专利技术涉及到移动互联网
,特别涉及一种基于Hadoop平台的改进并行KNN网络舆情分类算法。
技术介绍
随着移动互联网的快速发展,微博、博客、Twitter等社交平台已经成为人们获取信息的重要媒介,因此社交平台上数据正成几何数量增长。而社交平台上也存在一些影响社会稳定的不良信息,因此对社交平台上的敏感数据进行及时分析、监控以及对不同主题进行分类、预警和引导具有十分重要的现实意义。网络舆情数据具有数量大、非结构化、分散性强等特点,因此传统的文本分类算法在处理大批量网络舆情数据时,无法高效、快速的对网络舆情数据进行分类。传统经典分类算法有:朴素贝叶斯(NaiveBayes,NB)、决策树(DecisionTree,DT)、支持向量机(SupportVectorMachine,SVM)、K近邻(k-NearestNeighbor,kNN)等。其中kNN分类算法具有算法原理简单、理论成熟、分类准确率高和易于实现等优点,被广泛应用于各个领域。而kNN分类算法在计算数据集中每一个样本点的相似度或距离时,需要耗费较长的时间,导致分本文档来自技高网...

【技术保护点】
1.一种基于Hadoop平台的改进并行KNN网络舆情分类算法,其特征在于,CLARA算法的步骤如下:S1:进行m次迭代,迭代执行S2‑S6;S2:从整体数据集D中按照随机采样的方法抽取相同数量r个对象得到样本数据集Si,Si=(s1,s2,…,sr);S3:在样本数据集Si上调用PAM算法找到样本数据集的最优k个中心点集合Ci,Ci=(c1,c2,…,ck);S4:根据得到的Ci找到整个数据集D中的每一个对象Oj∈D在Ci中欧氏距离最近的中心点,将Oj划分为相应的簇中;S5:根据公式

【技术特征摘要】
1.一种基于Hadoop平台的改进并行KNN网络舆情分类算法,其特征在于,CLARA算法的步骤如下:S1:进行m次迭代,迭代执行S2-S6;S2:从整体数据集D中按照随机采样的方法抽取相同数量r个对象得到样本数据集Si,Si=(s1,s2,…,sr);S3:在样本数据集Si上调用PAM算法找到样本数据集的最优k个中心点集合Ci,Ci=(c1,c2,…,ck);S4:根据得到的Ci找到整个数据集D中的每一个对象Oj∈D在Ci中欧氏距离最近的中心点,将Oj划分为相应的簇中;S5:根据公式计算数据集D中的每一个对象Oj∈D的平均相异度,作为评价标准;S6:返回步骤S1,开始下一次迭代;S7:所有迭代都完成后以平均相异度作为评价标准衡量聚类效果,平均相异度最小的即是最优聚类;S8:统计样本数据集与k个聚类的平均相异度,如果Sim(D,Oi)小于给定的阈值则将其从样本数据集中裁剪掉,否则将该簇内包含的样本添加到样本集中。2.根据权利要求1所述的一种基于Hadoop平台的改进并行KNN网络舆情分类算法,其特征在于,KNN并行化MapReduce文本分类算法实现函数如下:(1)Map函数Input:训练数据集和测试数据集、设定k的值一般取奇数、给出训练数据集的类别;Output:键值对<Key1,Value1>,其中Key1表示测试数据集索引值,Value1由字符串相似度S和类别标签C组成;1:Methodmap(Key,Value,Key1,Value1)2:{3:foreachlineinValuedo将line中的数据分解成<id,x,y>的形式;计算相似度S=Sim(x,y);x表示测试向量;y表示训练向量;Emit(Key1,Value1);4:}(2)Reduce函数Input:map函数的输出结果<Key1,Value1>Output:<Key2,Value2>,其中Key2为Key1的值,Value...

【专利技术属性】
技术研发人员:杜少波李静杨露袁华
申请(专利权)人:贵州商学院
类型:发明
国别省市:贵州,52

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1