当前位置: 首页 > 专利查询>付睿智专利>正文

基于内容的文档自动分类入库方法技术

技术编号:33084902 阅读:26 留言:0更新日期:2022-04-15 10:46
本发明专利技术提供了基于内容的文档自动分类入库方法,属于文档处理技术领域,旨在解决文档进行人工分类管理耗费时间的问题;包括以下步骤:对待分类的电子文档进行内容识别并表示为对应于电子文档的词频向量;根据电子文档的词频向量输出电子文档的内容类别属性;根据电子文档的词频向量计算电子文档在相关联的特征空间中的特征向量占比;根据文档的特征向量占比最大值向对应的特征空间输入电子文档数据;根据文档读取的检索词与特征空间进行匹配,并将相应的特征空间内的电子文档数据进行读取反馈;本发明专利技术的设计,能够根据文档内容进行自动分类入库存储,实现了文档的高效存储;便于对文档进行分类管理,节省人工分类时间,提高工作效率。工作效率。工作效率。

【技术实现步骤摘要】
基于内容的文档自动分类入库方法


[0001]本专利技术涉及文档处理
,具体为基于内容的文档自动分类入库方法。

技术介绍

[0002]目前,在进行文档的分类入库管理时,为了便于管理,通常需要对文档内容进行人工审核、分类入库,浪费大量的时间和人力,不利于工作效率的提高。

技术实现思路

[0003]针对上述存在的技术不足,本专利技术的目的是提供基于内容的文档自动分类入库方法,能够根据文档内容进行自动分类入库存储,实现了文档的高效存储;便于对文档进行分类管理,节省人工分类时间,提高工作效率。
[0004]为解决上述技术问题,本专利技术采用如下技术方案:
[0005]基于内容的文档自动分类入库方法,其特征在于,包括以下步骤:
[0006]S1、文档预处理
[0007]内容识别:对待分类的电子文档进行内容识别并表示为对应于电子文档的词频向量;
[0008]文档内容分类:根据电子文档的词频向量输出电子文档的内容类别属性;
[0009]特征空间匹配:根据电子文档的词频向量计算电子文档在相关联本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于内容的文档自动分类入库方法,其特征在于,包括以下步骤:S1、文档预处理内容识别:对待分类的电子文档进行内容识别并表示为对应于电子文档的词频向量;文档内容分类:根据电子文档的词频向量输出电子文档的内容类别属性;特征空间匹配:根据电子文档的词频向量计算电子文档在相关联的特征空间中的特征向量占比;S2、文档缓存根据文档的特征向量占比最大值向对应的特征空间输入电子文档数据;S3、文档读取根据文档读取的检索词与特征空间进行匹配,并将相应的特征空间内的电子...

【专利技术属性】
技术研发人员:付睿智田苗张建斌
申请(专利权)人:付睿智
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1