一种电力云环境下基于K最近邻算法的文档自动分类方法技术

技术编号:6125672 阅读:301 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种电力云环境下基于K最近邻算法的文档自动分类方法,该方法对云计算的MapReduce编程框架进行了改进,其中Map函数完成文档相似性的计算,reduce函数规约出相似性最高的K个样本,统计最近邻所属各个类别的权重,并输出权重最大的类别,对文档进行自动分类。本发明专利技术快速完成大量的文档分类任务,大幅缩短文档分类任务的执行时间,提高分类效率;且具备健壮性。

【技术实现步骤摘要】

本专利技术属于云计算和数据挖掘领域,涉及一种电力公司文档分类方法,具体地说 是一种电力云环境下基于K最近邻算法的文档自动分类方法
技术介绍
自动文档分类技术是利用自然语言,数据挖掘和人工智能技术经过一定的训练之 后,使程序能够自动对文档进行识别及分类的技术,在大规模数据处理方面具有重要的应用。传统的K最近邻算法因为其简单有效,在文档自动分类方面得到了广泛的应用。 由于传统的K最近邻算法存在计算复杂度高,可扩展性差的缺点,在电力公司文档急剧增 加的情况下,如果直接使用该算法对文档进行分类,其计算量急剧上升,分类实时性下降。 自从2007年IBM和Google联合推出云计算以来,云计算已经成为工业界和学术界都关注 的热点问题,云计算已成为分布式计算未来发展方向。在此基础上,国家电网建立了电力云 仿真实验室,搭建起了电力云计算环境,对智能电网的海量信息进行分析处理。由Google 提出的MapReduce编程框架是云计算中的代表性技术,它适用于分布式处理大规模数据 集,程序员在Map函数中指定对各分块数据的处理过程,在Reduce函数中指定如何对分块 数据处理的中间结果进行规约。但是,本文档来自技高网...

【技术保护点】
1.一种电力云环境下基于K最近邻算法的文档自动分类方法,其特征在于该方法对云计算的MapReduce编程框架进行了改进,其中Map函数完成文档相似性的计算,reduce函数规约出相似性最高的K个样本,统计最近邻所属各个类别的权重,并输出权重最大的类别,具体内容包括:1)利用电力系统信息库里的元数据,构造电力系统行业专用的的特征词词典、禁用词词集以及概念集;然后将训练集文档进行结构化处理,建立模型,根据禁用词集去除无用、虚泛的禁用词;根据特征词词典对文档进行分词;根据概念集将不同表达方式的相同概念映射为同一概念;将处理后的结构化文档进行特征项提取并处理,最后生成文档矢量库;根据该矢量库将训练集文...

【技术特征摘要】

【专利技术属性】
技术研发人员:赵俊峰王磊祁建
申请(专利权)人:江苏省电力公司
类型:发明
国别省市:84

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1