一种基于极限学习机的档案自动分类方法技术

技术编号:20797258 阅读:33 留言:0更新日期:2019-04-06 10:51
本发明专利技术涉及一种基于极限学习机的档案自动分类方法。该方法包括学习和运行两个阶段,两个阶段第一步都要经过预处理模块,该模块主要功能是对数据进行规范化处理,去除与本任务不相干的信息;预处理模块首先将文本内容统一为UTF‑8的编码格式;接着采用正则表达式匹配的方式对非法字符进行过滤处理;然后采用ICTCLAS汉语词法分析系统进行分词和词性标注;最后采用百度停用词表对文本中经常出现但其本身对文本分析意义不大的词进行过滤。本发明专利技术可以精确地理解文本中的档案内容同时构建一个高效、稳定的维度较低的档案词典,同时可以保证有较高的分类精度。

An Automatic Classification Method of Archives Based on Extreme Learning Machine

The invention relates to an automatic file classification method based on extreme learning machine. This method includes two stages: learning and running. The first step of the two stages is through the pre-processing module. The main function of the module is to normalize the data and remove the irrelevant information. The pre-processing module first unifies the text content into UTF_8 encoding format; then filters the illegal characters by regular expression matching; and then extracts the illegal characters. ICTCLAS Chinese lexical analysis system is used for word segmentation and part-of-speech tagging. Finally, Baidu stop vocabulary is used to filter words which often appear in the text but have little meaning for text analysis. The invention can accurately understand the archives content in the text and construct an efficient and stable archives dictionary with low dimension, while ensuring high classification accuracy.

【技术实现步骤摘要】
一种基于极限学习机的档案自动分类方法
本专利技术属于文本分类
,特别涉及一种基于极限学习机的档案自动分类方法。
技术介绍
面对海量的电子档案信息,目前的管理模式是依靠具有丰富档案工作经验的专业人员在档案管理系统中进行手工操作分类以及分类监督工作。但随着电子档案的数量的爆炸式增长,人工分类的方式耗费的人力越来越多,已大大超出了档案人员的工作负荷,另外,不同的档案专业人员对同一份档案材料的分类处理结果也具有不可预料的差异性,长期下来可能造成部分档案文件分类的前后不一致,因此通过计算机文本自动分类技术来对电子档案进行分类管理是实现电子档案有效管理和高效利用的最佳途径。文本分类领域还存在一些难点急需解决,主要有1):如何构建一个高效、稳定的语义分类词典;2):如何打破向量空间模型中词与词之间的独立性;(3)如何使分类精度与海量数据训练速度之间有效平衡。本专利技术提出了基于极限学习机的档案自动分类方法。该方法包括预处理模块、文本特征提取模块、特征融合模块和基于极限学习机的分类模块。其中文本特征提取模块又包含两个子模块:底层特征提取模块和中层特征自主学习模块。本专利技术可有效解决上述文本分本文档来自技高网...

【技术保护点】
1.一种基于极限学习机的档案自动分类方法,其特征在于,包括如下步骤:步骤S1、训练样本预处理:将用于模型学习的文本训练样本集进行规范化处理;步骤S2、文本训练样本底层特征提取:将经过预处理后的样本送入底层特征提取模块提取文本底层特征,实现档案词典、语料库的构建和形成训练样本的底层特征表达两个过程,其中底层特征选择向量空间模型进行表达,向量中每维的特征是归一化后的TF‑IDF权重;步骤S3、文本训练样本中层特征自主学习:结合步骤S2生成的档案词典和语料库采用无监督方式训练Skip‑gram模型,并用训练好的模型产生训练样本词向量;最后采用池化技术形成每个训练文档的中层特征表达;步骤S4、文本训练...

【技术特征摘要】
1.一种基于极限学习机的档案自动分类方法,其特征在于,包括如下步骤:步骤S1、训练样本预处理:将用于模型学习的文本训练样本集进行规范化处理;步骤S2、文本训练样本底层特征提取:将经过预处理后的样本送入底层特征提取模块提取文本底层特征,实现档案词典、语料库的构建和形成训练样本的底层特征表达两个过程,其中底层特征选择向量空间模型进行表达,向量中每维的特征是归一化后的TF-IDF权重;步骤S3、文本训练样本中层特征自主学习:结合步骤S2生成的档案词典和语料库采用无监督方式训练Skip-gram模型,并用训练好的模型产生训练样本词向量;最后采用池化技术形成每个训练文档的中层特征表达;步骤S4、文本训练样本底层和中层特征相结合:将步骤S2计算到的底层特征和步骤S3计算到的中层特征加权串联起来形成文档最终的融合特征表达;步骤S5、基于极限学习机的档案分类模型训练:基于步骤S2计算的底层特征、步骤S3计算的中层特征和步骤S4计算的融合特征,采用监督式训练方式分别训练三个基于极限学习机的档案分类模型,即对应于底层特征档案分类模型、中层特征档案分类模型和融合特征档案分类模型;步骤S6、待判定样本预处理:将待判定样本进行规范化处理;步骤S7、待判定样本底层特征提取:将经过预处理后的样本送入底层特征提取模块提取文本底层特征,基于步骤S2生成的档案词典直接形成基于底层特征表达,其中底层特征选择向量空间模型进行表达,向量中每维的特征是归一化后的TF-IDF权重;步骤S8、待判定样本中层特征提取:利用步骤S3学习好的Skip-gram模型产生待判定样本的词向量,最后采用池化技术形成待判定样本的中层特征表达;步骤S9、待判定样本文本底层和中层特征相结合:将步骤步骤S7计算到的文本底层特征和步骤步骤S8计算到的文本中层特征加权串联起来形成待判定文档最终的组合特征表达;步骤S10、待判定样本档案自动分类:将步骤S7、S8、S9计算好的底层特征、中层特征和组合特征分别送入步骤S5学习好的三个基于极限学习机档案分类模型中进行分类,综合三个分类模型的分类结果得出待判定样本所属的档案类别;步骤S11、持续运行步骤S6-S10,完成对文本样本的分类;步...

【专利技术属性】
技术研发人员:曾伟波张建辉林培煜潘淑英陈泰隆
申请(专利权)人:福建南威软件有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1