一种电力云环境下基于K最近邻算法的文档自动分类方法技术

技术编号：6125672 阅读：301 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种电力云环境下基于K最近邻算法的文档自动分类方法，该方法对云计算的MapReduce编程框架进行了改进，其中Map函数完成文档相似性的计算，reduce函数规约出相似性最高的K个样本，统计最近邻所属各个类别的权重，并输出权重最大的类别，对文档进行自动分类。本发明专利技术快速完成大量的文档分类任务，大幅缩短文档分类任务的执行时间，提高分类效率；且具备健壮性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于云计算和数据挖掘领域，涉及一种电力公司文档分类方法，具体地说是一种电力云环境下基于K最近邻算法的文档自动分类方法。
技术介绍
自动文档分类技术是利用自然语言，数据挖掘和人工智能技术经过一定的训练之后，使程序能够自动对文档进行识别及分类的技术，在大规模数据处理方面具有重要的应用。传统的K最近邻算法因为其简单有效，在文档自动分类方面得到了广泛的应用。由于传统的K最近邻算法存在计算复杂度高，可扩展性差的缺点，在电力公司文档急剧增加的情况下，如果直接使用该算法对文档进行分类，其计算量急剧上升，分类实时性下降。自从2007年IBM和Google联合推出云计算以来，云计算已经成为工业界和学术界都关注的热点问题，云计算已成为分布式计算未来发展方向。在此基础上，国家电网建立了电力云仿真实验室，搭建起了电力云计算环境，对智能电网的海量信息进行分析处理。由Google 提出的MapReduce编程框架是云计算中的代表性技术，它适用于分布式处理大规模数据集，程序员在Map函数中指定对各分块数据的处理过程，在Reduce函数中指定如何对分块数据处理的中间...

【技术保护点】
１．一种电力云环境下基于Ｋ最近邻算法的文档自动分类方法，其特征在于该方法对云计算的ＭａｐＲｅｄｕｃｅ编程框架进行了改进，其中Ｍａｐ函数完成文档相似性的计算，ｒｅｄｕｃｅ函数规约出相似性最高的Ｋ个样本，统计最近邻所属各个类别的权重，并输出权重最大的类别，具体内容包括：１）利用电力系统信息库里的元数据，构造电力系统行业专用的的特征词词典、禁用词词集以及概念集；然后将训练集文档进行结构化处理，建立模型，根据禁用词集去除无用、虚泛的禁用词；根据特征词词典对文档进行分词；根据概念集将不同表达方式的相同概念映射为同一概念；将处理后的结构化文档进行特征项提取并处理，最后生成文档矢量库；根据该矢量库将训练集文...

【技术特征摘要】

【专利技术属性】
技术研发人员：赵俊峰，王磊，祁建，
申请(专利权)人：江苏省电力公司，
类型：发明
国别省市：84

全部详细技术资料下载我是这个专利的主人