当前位置: 首页 > 专利查询>云南大学专利>正文

一种面向手机文档的自动分类方法技术

技术编号:21686273 阅读:30 留言:0更新日期:2019-07-24 14:42
本发明专利技术公开了一种面向手机文档的自动分类方法,该方法首先构建文档类库,将文档类库分为训练集和测试集,并从文档类库的训练集分别提取出其中的文本内容以及图像内容,依据文档类库以及初始文档类库标签对应建立语料类库和图像类库,然后分别对语料类库和图像类库中的文本内容和图像内容进行数据预处理后经深度学习得到文本预测标签向量和图像预测标签向量,最后使用加权融合公式,将图像标签向量和文本标签向量聚合,并进行归一化后得到文档预测标签概率,将文档预测标签概率与预设阈值进行比较,完成文档的自动分类。本发明专利技术以图像内容以及文本内容同时作为指标衡量文档分类结果,实现非结构化文档快速有效的分类。

An Automatic Classification Method for Mobile Documents

【技术实现步骤摘要】
一种面向手机文档的自动分类方法
本专利技术涉及文档管理领域,特别是涉及一种面向手机文档的自动分类方法。
技术介绍
随着互联网的发展,数字化办公也在随其不断发展,但是在这个过程中也逐渐暴露出一些问题。而其中最明显的就是大量数字化办公带来的大量文件与人们固有的惰性所带来的文档积压,从而使得人们的文档分类混乱不堪,降低了办公效率和办公体验。根据国家档案局的调查显示:已有近80%的中央和国家机关、中央企业采用办公自动化或电子政务系统,产生各类电子文件近2亿件。由此不难预见,在不久的将来,电子文件将成为政府、企事业信息资源的主要承载体和表现形式。针对手机上的文档驳杂、管理与分类混乱等问题,致力于文档管理自动化,建立一个文档自动分类管理系统,使人们对自己手机中的文件一目了然,方便对手机中的文档进行分类和查找。不仅承载了对于文件的有效管理功能,更关键的是还对文档实现了文本智能化自动分类,使庞大驳杂的本地文档自动化、智能化归类。而目前为止,非结构化文档(Word/PDF/PPT)分类只局限于依据文档中的文本进行分类,并且多数方法研究的重点是自然语言处理(NLP)。往往忽视了文档中图像的存在,但是图像也是人类主要的信息源之一,其中可能包含了该文件的重要信息,是不能被忽略的。并且在以图像为主的非结构化文档文件中,图像内容在分类时也是一个重要的影响因素。现有的办公软件注重文本、表格等过程上的处理,但真正注重对大量文档进行自动归纳分类的系统在市场上还是一片空白,并且现有文档分类方法,还存在着不足,存在有待研究改进的地方。
技术实现思路
为解决上述技术问题,本专利技术提供一种面向手机文档的自动分类方法。为解决上述技术问题,本专利技术采用的一个技术方案是:提供一种面向手机文档的自动分类方法,包括S1:收集并整理最常用于文档分类的多个标签作为构建文档类库的关键词,按照一个所述标签对应一个所述文档类库的规则构建多个文档类库,所述文档类库包含多个常用词为标签的文档类库以及一个标签为未分类的文档类库,并将所述文档类库划分为训练集和测试集;S2:从所述文档类库的训练集中分别提取出其中的文本内容和图像内容,并根据每个所述文档类库以及其对应的标签,对应建立语料类库和图像类库,并且将所述语料类库和图像类库均划分为训练集和测试集;S3:对所述语料类库和图像类库的测试集中的文本内容进行数据预处理,构建词典,并通过构建文本分类模型得到文本预测标签向量;对所述图像类库中的训练集中的图像内容进行数据预处理,并通过构建图像分类模型得到图像预测标签向量;S4:将文本预测标签向量和图像预测标签向量通过加权融合后得文档预测标签向量,所述文档预测标签向量通过归一化处理后得到文档预测标签概率;S5:将文档预测标签的概率与预设的阈值进行比较,当所述文档预测标签概率大于或等于所述阈值时,将所述文档归入文档预测标签所对应的常用分类词的文档类库中,当所述文档预测标签概率小于所述阈值时,将所述文档归入标签为未分类的文档类库中。优选的,所述步骤S1中还包括一个文档在多个文档类库中出现的情形,即假设待分类文档为Xi,其中Yi为待分类文档Xi所对应的文档类库的集合,j为所有可能的文档类库个数。优选的,所述步骤S2中将每个所述文本类库中的图像内容中的文字通过OCR技术识别后作为文本内容加入相应的语料类库中。优选的,所述步骤S3具体包括S31:采用中文分词技术对所述文本内容进行文本分词;S32:对所述步骤S31中的文本分词结果去除停用词和低频词,具体为,通过在所述分词结果中剔除常用的停用词表中的停用词,根据文档文本大小设置最小词频,过滤掉低于所述最小词频的低频词;S33:使用Wor2vec工具包把步骤S32中去除了停用词和低频词后的文本内容通过映射的方法将所述文本内容以词向量的形式表示;S34:使用卷积神经网络进行进一步特征提取,其中卷积层对所述步骤S33中的所述词向量进行初步特征提取,并将提取的初步特征输入池化层产生特征向量,然后全连接层将所有的所述特征向量连接,并且添加一个输出层,并使用sigmoid激活函数,计算出每个标签的概率,最后输出文本预测标签向量。优选的,所述步骤S3还具体包括S35:对图像内容进行旋转、缩放、裁剪以及归一化;S36:对所述步骤S35处理后的图像内容进行卷积层初步特征提取,并将提取的初步特征输入池化层产生特征向量,然后全连接层将所有的所述特征向量连接,并且添加一个输出层,并使用sigmoid激活函数,计算出每个标签的概率,最后输出图像预测标签向量。优选的,所述文本分类模型采用交叉熵公式衡量性能,所述图像分类模型采用平均方差评估学习过程中的损失。区别于现有技术的情况,本专利技术的有益效果是:1.能够实现非结构化文档快速有效的分类2.利用机器学习方法构建文本分类模型和图像分类模型,从完整文档抽取出文字内容以及图像内容两个部分并对应建立语料类库和图像类库,进行分类,在这个过程中通过大量数据训练学习,使文档实现了机器自动化分类,节约了人力物力,进而提高了工作效率。3.将语料类库以及图像类库的分类结果,作为分类指标衡量文档分类结果,这样使分类结果更为精确,适用的文档内容以及格式更为广泛。附图说明图1是本专利技术实施例的面向手机文档的自动分类方法的流程示意图;图2是图1所示的面向手机文档的自动分类方法的步骤S3的具体流程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,本专利技术包括S1:收集并整理最常用于文档分类的多个标签作为构建文档类库的关键词,按照一个所述标签对应一个所述文档类库的规则构建多个文档类库,所述文档类库包含多个常用词为标签的文档类库以及一个标签为未分类的文档类库,并将所述文档类库划分为训练集和测试集。其中,在整理收集文档类库的标签时,分类的的标签数据的可以采用爬行器爬取,也可以选取搜索引擎在文档分类中相关度较高的词语来综合选取每个文档类库的标签。构建类库的方式采用爬行器爬取或开源文档获取或手动收集等方式。在本实施例中,共构建了N+1个文档类库,包括N个以常用词作为标签的文档类库和一个标签为未分类的类库,标签为未分类的文档类库中包含不属于以常用于文档分类的常用词作为标签的文档,在初始状态下,该文档类库中不含任意文档,在后续的步骤中,除了在步骤S5的文档分类结果中需要使用,其余情况均不考虑该文档类库参与。在本实施例中,所述步骤S1中还包括一个文档在多个文档类库中出现的情形,即假设待分类文档为Xi,其中Yi为待分类文档Xi所对应的多个标签的文档类库的集合,j为所有可能的标签对应的文档类库个数。S2:从所述文档类库的训练集中分别提取出其中的文本内容和图像内容,并根据每个所述文档类库以及其对应的标签,对应建立语料类库和图像类库,并且将所述语料类库和图像类库均划分为80%的训练集和20%的测试集。其中,将图像类库中的图像内容抽取到一个文件夹中保存将图像内容中的文字通过OCR技术识别后作为文本内容加入相应的语料类库中。在本实施例中,每个文本本文档来自技高网...

【技术保护点】
1.一种面向手机文档的自动分类方法,其特征在于,包括:S1:收集并整理最常用于文档分类的多个标签作为构建文档类库的关键词,按照一个所述标签对应一个所述文档类库的规则构建多个文档类库,所述文档类库包含多个常用词为标签的文档类库以及一个标签为未分类的文档类库,并将所述文档类库划分为训练集和测试集;S2:从所述文档类库的训练集中分别提取出其中的文本内容和图像内容,并根据每个所述文档类库以及其对应的标签,对应建立语料类库和图像类库,并且将所述语料类库和图像类库均划分为训练集和测试集;S3:对所述语料类库和图像类库的测试集中的文本内容进行数据预处理,构建词典,并通过构建文本分类模型得到文本预测标签向量;对所述图像类库中的训练集中的图像内容进行数据预处理,并通过构建图像分类模型得到图像预测标签向量;S4:将文本预测标签向量和图像预测标签向量通过加权融合后得文档预测标签向量,所述文档预测标签向量通过归一化处理后得到文档预测标签概率。S5:将文档预测标签的概率与预设的阈值进行比较,当所述文档预测标签概率大于或等于所述阈值时,将所述文档归入文档预测标签所对应的常用分类词的文档类库中,当所述文档预测标签概率小于所述阈值时,将所述文档归入标签为未分类的文档类库中。...

【技术特征摘要】
1.一种面向手机文档的自动分类方法,其特征在于,包括:S1:收集并整理最常用于文档分类的多个标签作为构建文档类库的关键词,按照一个所述标签对应一个所述文档类库的规则构建多个文档类库,所述文档类库包含多个常用词为标签的文档类库以及一个标签为未分类的文档类库,并将所述文档类库划分为训练集和测试集;S2:从所述文档类库的训练集中分别提取出其中的文本内容和图像内容,并根据每个所述文档类库以及其对应的标签,对应建立语料类库和图像类库,并且将所述语料类库和图像类库均划分为训练集和测试集;S3:对所述语料类库和图像类库的测试集中的文本内容进行数据预处理,构建词典,并通过构建文本分类模型得到文本预测标签向量;对所述图像类库中的训练集中的图像内容进行数据预处理,并通过构建图像分类模型得到图像预测标签向量;S4:将文本预测标签向量和图像预测标签向量通过加权融合后得文档预测标签向量,所述文档预测标签向量通过归一化处理后得到文档预测标签概率。S5:将文档预测标签的概率与预设的阈值进行比较,当所述文档预测标签概率大于或等于所述阈值时,将所述文档归入文档预测标签所对应的常用分类词的文档类库中,当所述文档预测标签概率小于所述阈值时,将所述文档归入标签为未分类的文档类库中。2.根据权利要求1所述的面向手机文档的自动分类方法,其特征在于,所述步骤S1中还包括一个文档在多个文档类库中出现的情形,即假设待分类文档为Xi,其中Yi为待分类文档Xi所对应的文档类库的集合,j为所有可能的文档类库个数。3.根据权利要求1所述的面向手机文档的自动分类方法,其特征在于,所述步骤S...

【专利技术属性】
技术研发人员:余蓓蓓
申请(专利权)人:云南大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1