本发明专利技术提供了基于内容的文档自动分类入库方法,属于文档处理技术领域,旨在解决文档进行人工分类管理耗费时间的问题;包括以下步骤:对待分类的电子文档进行内容识别并表示为对应于电子文档的词频向量;根据电子文档的词频向量输出电子文档的内容类别属性;根据电子文档的词频向量计算电子文档在相关联的特征空间中的特征向量占比;根据文档的特征向量占比最大值向对应的特征空间输入电子文档数据;根据文档读取的检索词与特征空间进行匹配,并将相应的特征空间内的电子文档数据进行读取反馈;本发明专利技术的设计,能够根据文档内容进行自动分类入库存储,实现了文档的高效存储;便于对文档进行分类管理,节省人工分类时间,提高工作效率。工作效率。工作效率。
【技术实现步骤摘要】
基于内容的文档自动分类入库方法
[0001]本专利技术涉及文档处理
,具体为基于内容的文档自动分类入库方法。
技术介绍
[0002]目前,在进行文档的分类入库管理时,为了便于管理,通常需要对文档内容进行人工审核、分类入库,浪费大量的时间和人力,不利于工作效率的提高。
技术实现思路
[0003]针对上述存在的技术不足,本专利技术的目的是提供基于内容的文档自动分类入库方法,能够根据文档内容进行自动分类入库存储,实现了文档的高效存储;便于对文档进行分类管理,节省人工分类时间,提高工作效率。
[0004]为解决上述技术问题,本专利技术采用如下技术方案:
[0005]基于内容的文档自动分类入库方法,其特征在于,包括以下步骤:
[0006]S1、文档预处理
[0007]内容识别:对待分类的电子文档进行内容识别并表示为对应于电子文档的词频向量;
[0008]文档内容分类:根据电子文档的词频向量输出电子文档的内容类别属性;
[0009]特征空间匹配:根据电子文档的词频向量计算电子文档在相关联的特征空间中的特征向量占比;
[0010]S2、文档缓存
[0011]根据文档的特征向量占比最大值向对应的特征空间输入电子文档数据;
[0012]S3、文档读取
[0013]根据文档读取的检索词与特征空间进行匹配,并将相应的特征空间内的电子文档数据进行读取反馈。
[0014]基于内容的文档自动分类入库方法的应用系统,其特征在于,包括电性连接的文档协同管理子系统、文档预处理子系统、数据缓存子系统和数据存储子系统;
[0015]所述文档协同管理子系统包括数据管理模块、资源监控与管理模块、检索索引模块;
[0016]所述文档预处理子系统包括内容识别模块、文档内容分类模块、特征空间匹配模块;
[0017]所述数据缓存子系统包括内存数据库和分类写入模块;
[0018]所述数据存储子系统包括文件生成模块、文件管理模块和文件存储模块。
[0019]本专利技术的有益效果在于:本专利技术的设计,能够根据文档内容进行自动分类入库存储,实现了文档的高效存储;便于对文档进行分类管理,节省人工分类时间,提高工作效率。
附图说明
[0020]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1为本专利技术实施例提供的基于内容的文档自动分类入库方法的应用系统的结构框图。
具体实施方式
[0022]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0023]基于内容的文档自动分类入库方法,包括以下步骤:
[0024]S1、文档预处理
[0025]内容识别:对待分类的电子文档进行内容识别并表示为对应于电子文档的词频向量,便于文档的内容类型划分归类;
[0026]文档内容分类:根据电子文档的词频向量输出电子文档的内容类别属性;
[0027]特征空间匹配:根据电子文档的词频向量计算电子文档在相关联的特征空间中的特征向量占比;
[0028]S2、文档缓存
[0029]根据文档的特征向量占比最大值向对应的特征空间输入电子文档数据;
[0030]S3、文档读取
[0031]根据文档读取的检索词与特征空间进行匹配,并将相应的特征空间内的电子文档数据进行读取反馈。
[0032]如图1所示,基于内容的文档自动分类入库方法的应用系统,包括电性连接的文档协同管理子系统、文档预处理子系统、数据缓存子系统和数据存储子系统;
[0033]文档协同管理子系统包括数据管理模块、资源监控与管理模块、检索索引模块;数据管理模块是一个总控模块,主要功能是负责数据上传、数据下载、数据修改以及对应用层的API支持;资源监控与管理模块负责监控数据缓存子系统和数据存储子系统的资源使用情况;检索索引模块用于提供数据缓存子系统和数据存储子系统内的数据存取索引,以方便应用层进行数据操作;
[0034]文档预处理子系统包括内容识别模块、文档内容分类模块、特征空间匹配模块;内容识别模块用于对待分类的电子文档进行内容识别并表示为对应于电子文档的词频向量;文档内容分类模块用于根据电子文档的词频向量输出电子文档的内容类别属性;特征空间匹配模块用于根据电子文档的词频向量计算电子文档在相关联的特征空间中的特征向量占比;
[0035]数据缓存子系统包括内存数据库和分类写入模块;内存数据库利用高速缓存(物理内存)来使得结构化数据在内存中进行操作;分类写入模块用于根据文档的特征向量占
比最大值向对应的特征空间输入电子文档数据;
[0036]数据存储子系统包括文件生成模块、文件管理模块和文件存储模块;分类写入模块通过文件生成模块和文件管理模块将电子文档数据按照设定的规则(比如时间段)进行XML文件转换,并将转换后的XML文件存入文件存储模块中。
[0037]调用数据时,应用层发送调用指令给数据管理模块,数据管理模块通过调用检索索引模块来根据电子文档的词频向量遍历文件存储模块,将找到的电子文档数据返还给应用层。
[0038]显然,本领域的技术人员可以对本专利技术进行各种改动和变型而不脱离本专利技术的精神和范围。这样,倘若本专利技术的这些修改和变型属于本专利技术权利要求及其等同技术的范围之内,则本专利技术也意图包含这些改动和变型在内。
本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.基于内容的文档自动分类入库方法,其特征在于,包括以下步骤:S1、文档预处理内容识别:对待分类的电子文档进行内容识别并表示为对应于电子文档的词频向量;文档内容分类:根据电子文档的词频向量输出电子文档的内容类别属性;特征空间匹配:根据电子文档的词频向量计算电子文档在相关联的特征空间中的特征向量占比;S2、文档缓存根据文档的特征向量占比最大值向对应的特征空间输入电子文档数据;S3、文档读取根据文档读取的检索词与特征空间进行匹配,并将相应的特征空间内的电子...
【专利技术属性】
技术研发人员:付睿智,田苗,张建斌,
申请(专利权)人:付睿智,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。