一种基于Hadoop平台的改进并行KNN网络舆情分类算法制造技术

技术编号：17779866 阅读：49 留言：0更新日期：2018-04-22 08:27

本发明专利技术公开了一种基于Hadoop平台的改进并行KNN网络舆情分类算法，利用Hadoop分布式存储特性和设计并行kNN的MapReduce程序来解决处理大批量数据时存在的问题，对并行kNN算法进行分类能力和分类效率进行测试验证，实验结果表明，基于Hadoop平台的并行kNN网络舆情分类算法在处理大批量网络舆情数据时，能够快速、高效和准确对网络舆情数据进行分类。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Hadoop平台的改进并行KNN网络舆情分类算法
本专利技术涉及网络大数据运算
，特别涉及一种基于Hadoop平台的改进并行KNN网络舆情分类算法。
技术介绍
随着移动互联网、移动终端和社交平台的快速发展，微博、博客等网络媒体逐渐成为人们获取信息的重要媒介，同时也是人们发布信息的重要渠道，因此网络上每天的数据量正在成几何数量增长。网络舆情已经成为影响社会发展和稳定的重要因素，因此对海量网络舆情进行监控和及时处理网络上的敏感信息，对不同主题的信息进行分类、分析、预警、引导具有现实意义。由于网络舆情数据具有数据量大、非结构化、分散性等特点，使得用于处理文本分类的传统算法很难快速、高效的对网络舆情数据进行分类。
技术实现思路
本专利技术的目的在于提供一种基于Hadoop平台的改进并行KNN网络舆情分类算法，利用Hadoop分布式存储特性和设计并行kNN的MapReduce程序来解决处理大批量数据时存在的问题，能够快速、高效和准确对网络舆情数据进行分类，以解决上述
技术介绍
中提出的问题。为实现上述目的，本专利技术提供如下技术方案：一种基于Hadoop平台的改进并行KNN网络舆情分类算法，包括如下步骤：S1：将测试集和调练集数据上传至HDFS集群中；S2：HDFS集群通过MAP函数输出以<key,value>键值形式存在的结果；S3：将步骤S2中输出的结果输入至shuffle函数中重新筛选，再上传至Reduce函数中；S4：Reduce函数读取MAP函数输出结果，并计算确定测试向量所属类别即输出测试数据的分类结果。优选的，所述步骤...
一种基于Hadoop平台的改进并行KNN网络舆情分类算法

【技术保护点】
一种基于Hadoop平台的改进并行KNN网络舆情分类算法，其特征在于，包括如下步骤：S1：将测试集和调练集数据上传至HDFS集群中；S2：HDFS集群通过MAP函数输出以<key,value>键值形式存在的结果；S3：将步骤S2中输出的结果输入至shuffle函数中重新筛选，再上传至Reduce函数中；S4：Reduce函数读取MAP函数输出结果，并计算确定测试向量所属类别即输出测试数据的分类结果。

【技术特征摘要】
1.一种基于Hadoop平台的改进并行KNN网络舆情分类算法，其特征在于，包括如下步骤：S1：将测试集和调练集数据上传至HDFS集群中；S2：HDFS集群通过MAP函数输出以<key,value>键值形式存在的结果；S3：将步骤S2中输出的结果输入至shuffle函数中重新筛选，再上传至Reduce函数中；S4：Reduce函数读取MAP函数输出结果，并计算确定测试向量所属类别即输出测试数据的分类结果。2.如权利要求1所述的一种基于Hadoop平台的改进并行KNN网络舆情分类算法，其特征在于，所述步骤S2中的MAP函数计算步骤如下：S2.1：读取测试集和调练集数据中的各Node节点数据；S2.2：对数据进行预处理；S2.3：计算测试集和训练集之间的相似度；S2.4：输出结果以&...

【专利技术属性】
技术研发人员：杜少波，何文华，杨露，李静，陈显祥，
申请(专利权)人：贵州商学院，
类型：发明
国别省市：贵州,52

全部详细技术资料下载我是这个专利的主人