一种面向手机文档的自动分类方法技术

技术编号：21686273 阅读：30 留言：0更新日期：2019-07-24 14:42

本发明专利技术公开了一种面向手机文档的自动分类方法，该方法首先构建文档类库，将文档类库分为训练集和测试集，并从文档类库的训练集分别提取出其中的文本内容以及图像内容，依据文档类库以及初始文档类库标签对应建立语料类库和图像类库，然后分别对语料类库和图像类库中的文本内容和图像内容进行数据预处理后经深度学习得到文本预测标签向量和图像预测标签向量，最后使用加权融合公式，将图像标签向量和文本标签向量聚合，并进行归一化后得到文档预测标签概率，将文档预测标签概率与预设阈值进行比较，完成文档的自动分类。本发明专利技术以图像内容以及文本内容同时作为指标衡量文档分类结果，实现非结构化文档快速有效的分类。

An Automatic Classification Method for Mobile Documents

全部详细技术资料下载

【技术实现步骤摘要】
一种面向手机文档的自动分类方法
本专利技术涉及文档管理领域，特别是涉及一种面向手机文档的自动分类方法。
技术介绍
随着互联网的发展，数字化办公也在随其不断发展，但是在这个过程中也逐渐暴露出一些问题。而其中最明显的就是大量数字化办公带来的大量文件与人们固有的惰性所带来的文档积压，从而使得人们的文档分类混乱不堪，降低了办公效率和办公体验。根据国家档案局的调查显示：已有近80％的中央和国家机关、中央企业采用办公自动化或电子政务系统，产生各类电子文件近2亿件。由此不难预见，在不久的将来，电子文件将成为政府、企事业信息资源的主要承载体和表现形式。针对手机上的文档驳杂、管理与分类混乱等问题，致力于文档管理自动化，建立一个文档自动分类管理系统，使人们对自己手机中的文件一目了然，方便对手机中的文档进行分类和查找。不仅承载了对于文件的有效管理功能，更关键的是还对文档实现了文本智能化自动分类，使庞大驳杂的本地文档自动化、智能化归类。而目前为止，非结构化文档(Word/PDF/PPT)分类只局限于依据文档中的文本进行分类，并且多数方法研究的重点是自然语言处理(NLP)。往往忽视了文档中图像的存在，但是图像也是人类主要的信息源之一，其中可能包含了该文件的重要信息，是不能被忽略的。并且在以图像为主的非结构化文档文件中，图像内容在分类时也是一个重要的影响因素。现有的办公软件注重文本、表格等过程上的处理，但真正注重对大量文档进行自动归纳分类的系统在市场上还是一片空白，并且现有文档分类方法，还存在着不足，存在有待研究改进的地方。
技术实现思路
为解决上述技术问题，本专利技术提供一种面向手机文...

【技术保护点】
1.一种面向手机文档的自动分类方法，其特征在于，包括：S1：收集并整理最常用于文档分类的多个标签作为构建文档类库的关键词，按照一个所述标签对应一个所述文档类库的规则构建多个文档类库，所述文档类库包含多个常用词为标签的文档类库以及一个标签为未分类的文档类库，并将所述文档类库划分为训练集和测试集；S2：从所述文档类库的训练集中分别提取出其中的文本内容和图像内容，并根据每个所述文档类库以及其对应的标签，对应建立语料类库和图像类库，并且将所述语料类库和图像类库均划分为训练集和测试集；S3：对所述语料类库和图像类库的测试集中的文本内容进行数据预处理，构建词典，并通过构建文本分类模型得到文本预测标签向量；对所述图像类库中的训练集中的图像内容进行数据预处理，并通过构建图像分类模型得到图像预测标签向量；S4：将文本预测标签向量和图像预测标签向量通过加权融合后得文档预测标签向量，所述文档预测标签向量通过归一化处理后得到文档预测标签概率。S5：将文档预测标签的概率与预设的阈值进行比较，当所述文档预测标签概率大于或等于所述阈值时，将所述文档归入文档预测标签所对应的常用分类词的文档类库中，当所述文档预测标签概...

【技术特征摘要】
1.一种面向手机文档的自动分类方法，其特征在于，包括：S1：收集并整理最常用于文档分类的多个标签作为构建文档类库的关键词，按照一个所述标签对应一个所述文档类库的规则构建多个文档类库，所述文档类库包含多个常用词为标签的文档类库以及一个标签为未分类的文档类库，并将所述文档类库划分为训练集和测试集；S2：从所述文档类库的训练集中分别提取出其中的文本内容和图像内容，并根据每个所述文档类库以及其对应的标签，对应建立语料类库和图像类库，并且将所述语料类库和图像类库均划分为训练集和测试集；S3：对所述语料类库和图像类库的测试集中的文本内容进行数据预处理，构建词典，并通过构建文本分类模型得到文本预测标签向量；对所述图像类库中的训练集中的图像内容进行数据预处理，并通过构建图像分类模型得到图像预测标签向量；S4：将文本预测标签向量和图像预测标签向量通过加权融合后得文档预测标签向量，所述文档预测标签向量通过归一化处理后得到文档预测标签概率。S5：将文档预测标签的概率与预设的阈值进行比较，当所述文档预测标签概率大于或等于所述阈值时，将所述文档归入文档预测标签所对应的常用分类词的文档类库中，当所述文档预测标签概率小于所述阈值时，将所述文档归入标签为未分类的文档类库中。2.根据权利要求1所述的面向手机文档的自动分类方法，其特征在于，所述步骤S1中还包括一个文档在多个文档类库中出现的情形，即假设待分类文档为Xi,其中Yi为待分类文档Xi所对应的文档类库的集合，j为所有可能的文档类库个数。3.根据权利要求1所述的面向手机文档的自动分类方法，其特征在于，所述步骤S...

【专利技术属性】
技术研发人员：余蓓蓓，
申请(专利权)人：云南大学，
类型：发明
国别省市：云南,53

全部详细技术资料下载我是这个专利的主人