【技术实现步骤摘要】
本专利技术属于云计算和数据挖掘领域,涉及一种电力公司文档分类方法,具体地说 是一种电力云环境下基于K最近邻算法的文档自动分类方法。
技术介绍
自动文档分类技术是利用自然语言,数据挖掘和人工智能技术经过一定的训练之 后,使程序能够自动对文档进行识别及分类的技术,在大规模数据处理方面具有重要的应用。传统的K最近邻算法因为其简单有效,在文档自动分类方面得到了广泛的应用。 由于传统的K最近邻算法存在计算复杂度高,可扩展性差的缺点,在电力公司文档急剧增 加的情况下,如果直接使用该算法对文档进行分类,其计算量急剧上升,分类实时性下降。 自从2007年IBM和Google联合推出云计算以来,云计算已经成为工业界和学术界都关注 的热点问题,云计算已成为分布式计算未来发展方向。在此基础上,国家电网建立了电力云 仿真实验室,搭建起了电力云计算环境,对智能电网的海量信息进行分析处理。由Google 提出的MapReduce编程框架是云计算中的代表性技术,它适用于分布式处理大规模数据 集,程序员在Map函数中指定对各分块数据的处理过程,在Reduce函数中指定如何对分块 数据处理的中间 ...
【技术保护点】
1.一种电力云环境下基于K最近邻算法的文档自动分类方法,其特征在于该方法对云计算的MapReduce编程框架进行了改进,其中Map函数完成文档相似性的计算,reduce函数规约出相似性最高的K个样本,统计最近邻所属各个类别的权重,并输出权重最大的类别,具体内容包括:1)利用电力系统信息库里的元数据,构造电力系统行业专用的的特征词词典、禁用词词集以及概念集;然后将训练集文档进行结构化处理,建立模型,根据禁用词集去除无用、虚泛的禁用词;根据特征词词典对文档进行分词;根据概念集将不同表达方式的相同概念映射为同一概念;将处理后的结构化文档进行特征项提取并处理,最后生成文档矢量库;根 ...
【技术特征摘要】
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。