基于KMeans聚类的电子文档自动化分类方法技术

技术编号:42360593 阅读:33 留言:0更新日期:2024-08-16 14:44
本发明专利技术针对大量电子文档很难自动化地根据文档内容进行分类的问题,提出基于KMeans聚类的电子文档自动化分类方法,首先对电子文档读取内容后进行预处理,得到筛选后的关键词向量,接着根据主题语料库对文档进行主题标记,然后根据主题标记后的文档内容更新主题语料库,最后根据文档内容间的KMeans距离自动化分类所有电子文档,本发明专利技术能够帮助用户在不仔细阅读每份文档内容的情况下实现大量文档的自动化分类,后续可以帮助用户快速地找到自己感兴趣的文档,有利于对大量电子文档的管理,本发明专利技术在需要管理大量文档的金融、物流等行业具有重要的应用前景。

【技术实现步骤摘要】

本专利技术涉及一种基于kmeans聚类的电子文档自动化分类方法,能够自动化地提取出电子文档的内容特征,并根据相应的主题实现对电子文档的分类,涉及领域包括机器学习、文档分类。


技术介绍

1、随着文档电子化的飞速发展,越来越多的电子文档需要被有效地分类管理。当前许多单位内部电子文档繁多、数量庞大,文档的处理与分类工作量大,尤其是在金融、物流行业,箱单票据、文档单证种类繁多,对格式不一的电子文档进行准确的分类成了文档管理的难题,自动化地对大量电子文档进行处理与分类显得尤为迫切。

2、机器学习在数据分类上具有无可比拟的优势,在图像分类、文本识别等领域有着成熟的应用。kmeans聚类指k均值聚类算法,是一种无监督的机器学习方法,可以对无类别标记的数据进行分类。该算法是一种迭代求解的聚类分析无监督算法,其内容为,将数据分为k组,随机选取k个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类中心会根据聚类中现有的对象被重新计算,这个过程将本文档来自技高网...

【技术保护点】

1.一种基于KMeans聚类的电子文档自动化分类方法,其特征在于:帮助用户在不仔细阅读每份文档内容的情况下实现大量文档的自动化分类,以及快速地找到自己感兴趣的文档,主要步骤包括:对电子文档读取内容后进行预处理,接着根据主题语料库对文档进行主题标记,然后根据主题标记后的文档内容更新主题语料库,最后根据文档内容间的KMeans距离自动化分类所有电子文档。

2.根据权利要求1所述的基于KMeans聚类的电子文档自动化分类方法,其特征在于,所述对电子文档读取内容后进行预处理,主要对待分类的电子文档的内容先根据停用词表与分词表快速过滤内容从而获得文档的关键词向量。</p>

3.根据...

【技术特征摘要】

1.一种基于kmeans聚类的电子文档自动化分类方法,其特征在于:帮助用户在不仔细阅读每份文档内容的情况下实现大量文档的自动化分类,以及快速地找到自己感兴趣的文档,主要步骤包括:对电子文档读取内容后进行预处理,接着根据主题语料库对文档进行主题标记,然后根据主题标记后的文档内容更新主题语料库,最后根据文档内容间的kmeans距离自动化分类所有电子文档。

2.根据权利要求1所述的基于kmeans聚类的电子文档自动化分类方法,其特征在于,所述对电子文档读取内容后进行预处理,主要对待分类的电子文档的内容先根据停用词表与分词表快速过滤内容从而获得文档的关键词向量。

3.根据权利要求1所述的基于kmeans聚类的电子文档自动化分类方法,其特征在于,所述根据主题语料库对文档进行主题标记,通过读取电子...

【专利技术属性】
技术研发人员:吴振东王立成张毅安蔚钊吴学光周龙飞
申请(专利权)人:中芯未来北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1