一种MapReduce并行化大数据文本分类方法技术

技术编号:11940129 阅读:269 留言:0更新日期:2015-08-26 11:35
一种MapReduce并行化大数据文本分类方法,包括如下步骤:第一步:建立用于文本分类的基准测试数据集,进行数据预处理,包括分词、去停用词、词根还原;将该基准测试数据集随机划分为训练文本和测试文本,将所述基准测试数据集采用向量空间模型建立文本表示模型;第二步:根据上述文本表示模型采用CDMT对所述基准测试数据集进行特征选择;第三步:采用贝叶斯分类器对所述基准测试数据集进行训练学习,得到分类结果。本发明专利技术提供一种分类性能良好、区分度较高的MapReduce并行化大数据文本分类方法。

【技术实现步骤摘要】

本专利技术设及计算机领域,更具体地设及机器学习及大数据文本分类的方法。
技术介绍
伴随着互联网应用的普及,在网上传输信息更加便捷,同时网上的信息数量正在 W空前速度增长。毫无疑问,研究文本分类方法的意义异常重要。曾经人们使用人工分类 的方法,尽管正确率很高,可是效率低下。因为该种分类方法依靠的是个人经验,所W不 同的人对同样的数据进行分类,得到的结果可能不一样,而且即便是同一个人,每次的分 类也可能会存在不同。面对互联网上如今规模庞大的数据量,分类工作交由人工完成显然 并不现实。因此,自动化的文本分类技术无疑是理想的解决之道。 在行业应用领域,为了应对大规模数据的处理,需要更加庞大系统的规模。作为机 器学习的一个重要领域,文本分类是根据文本数据信息主题将相同主题的信息归并至一个 类别,从而实现对海量数据的管理。然而,实际应用中海量数据的处理面临着一些难题, 一方面,传统的文本分类技术针对单机设计,而单一的机器面临着存储容量有限和计算效 率较低等问题;另一方面,集成起来的各种数据往往是大容量、多种类的大数据,分析数据 是提取信息、发现知识、预测未来的关键步骤。为此,非常迫本文档来自技高网...

【技术保护点】
一种MapReduce并行化大数据文本分类方法,其特征在于:所述分类方法包括如下步骤:第一步:建立用于文本分类的基准测试数据集,进行数据预处理,包括分词、去停用词、词根还原;将该基准测试数据集随机划分为训练文本和测试文本,将所述基准测试数据集采用向量空间模型建立文本表示模型;第二步:根据上述文本表示模型采用CDMT对所述基准测试数据集进行特征选择;第三步:采用贝叶斯分类器对所述基准测试数据集进行训练学习,得到分类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:朱信忠徐慧英赵建民陈远超
申请(专利权)人:浙江师范大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1