【技术实现步骤摘要】
基于内容的文档自动分类入库方法
[0001]本专利技术涉及文档处理
,具体为基于内容的文档自动分类入库方法。
技术介绍
[0002]目前,在进行文档的分类入库管理时,为了便于管理,通常需要对文档内容进行人工审核、分类入库,浪费大量的时间和人力,不利于工作效率的提高。
技术实现思路
[0003]针对上述存在的技术不足,本专利技术的目的是提供基于内容的文档自动分类入库方法,能够根据文档内容进行自动分类入库存储,实现了文档的高效存储;便于对文档进行分类管理,节省人工分类时间,提高工作效率。
[0004]为解决上述技术问题,本专利技术采用如下技术方案:
[0005]基于内容的文档自动分类入库方法,其特征在于,包括以下步骤:
[0006]S1、文档预处理
[0007]内容识别:对待分类的电子文档进行内容识别并表示为对应于电子文档的词频向量;
[0008]文档内容分类:根据电子文档的词频向量输出电子文档的内容类别属性;
[0009]特征空间匹配:根据电子文档的词频向量 ...
【技术保护点】
【技术特征摘要】
1.基于内容的文档自动分类入库方法,其特征在于,包括以下步骤:S1、文档预处理内容识别:对待分类的电子文档进行内容识别并表示为对应于电子文档的词频向量;文档内容分类:根据电子文档的词频向量输出电子文档的内容类别属性;特征空间匹配:根据电子文档的词频向量计算电子文档在相关联的特征空间中的特征向量占比;S2、文档缓存根据文档的特征向量占比最大值向对应的特征空间输入电子文档数据;S3、文档读取根据文档读取的检索词与特征空间进行匹配,并将相应的特征空间内的电子...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。