一种数字档案自动分类方法技术

技术编号：30705863 阅读：16 留言：0更新日期：2021-11-06 09:51

本发明专利技术公开一种数字档案自动分类方法，具体包括以下步骤：S1：确定现有的数字档案的各级分类并标记对应的编码，建立各级分类之间的双向映射关系；S2：获取每个现有数字档案的内容纲要、分类、编码，从而建立数字档案样本库；S3：根据S2中建立的数字档案样本库进行数字档案分类BERT模型训练；S4:使用S3中训练完成的数字档案分类BERT模型进行数字档案的自动分类。通过对现有数字档案进行分类和编码并利用BERT模型预训练，从而完成对待分类的数字档案的自动分类，提高了数字档案分类效率。提高了数字档案分类效率。提高了数字档案分类效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种数字档案自动分类方法

[0001]本专利技术涉及数字分类
，特别涉及一种数字档案自动分类方法。

技术介绍

[0002]随着信息技术的快速发展，档案载体从纸张档案到数字档案转变，使得数字档案的数量成指数级增长，数字化档案管理系统不断涌现。近年来，人工智能技术的不断成熟也使得数字档案管理系统更加智能、高效。
[0003]其中，数字档案的分类是数字档案管理的核心，合适、准确地分类对数字档案的检索、借阅、分析起着举足轻重的作用。BERT(Bidirectional Encoder Representations from Transformers)是近年来在神经语言程序学NLP(Neuro
‑
Linguistic Programming)领域的最优模型，其在句子分类、实体提取、问答等应用中表现优异。
[0004]然而当前数字档案的分类大多依靠档案管理人员手动进行分类，对数字档案自动分类研究较少，制约着档案数字化管理。一方面由于管理人员的知识局限容易造成分类偏差，以致分类后的档案类别标准不统一；另一方面，随着数字档案的快速增长，手动分类效率低。

技术实现思路

[0005]针对现有技术中数字档案分类效率较为低的问题，本专利技术提出一种数字档案自动分类方法，通过对现有数字档案进行分类和编码并利用BERT模型预训练，从而完成对待分类的数字档案的自动分类，提高了效率。
[0006]为了实现上述目的，本专利技术提供以下技术方案：
[0007]一种数字档案自动分类...

【技术保护点】

【技术特征摘要】
1.一种数字档案自动分类方法，其特征在于,具体包括以下步骤：S1：确定现有的数字档案的各级分类并标记对应的编码，建立各级分类之间的双向映射关系；S2：获取每个现有数字档案的内容纲要、分类、编码，从而建立数字档案样本库；S3：根据S2中建立的数字档案样本库进行数字档案分类BERT模型训练；S4:使用S3中训练完成的数字档案分类BERT模型进行数字档案的自动分类。2.如权利要求1所述的一种数字档案自动分类方法，其特征在于,所述S1中，数字档案的分类从上级到下级依次包括一级分类、二级分类、三级分类，即二级分类为一级分类的下一级，三级分类为二级分类的下一级。3.如权利要求1所述的一种数字档案自动分类方法，其特征在于,S2包括以下步骤：S2
‑
1：从已有档案中获取档案标题和描述字段，并将同一档案的标题与描述字段用“|”进行连接构建内容纲要；S2
‑
2：从已有档案中获取档案分类及对应的编码，再将内容纲要与档案分类编码以“*”进行连接，完成档案样本采集。4.如权利要求3所述的一种数字档案自动分类方法，其特征在于,若档案长度超过最大限定长度L，则将该档案在L处分隔，分别形成该档案的第一描述和第二描述；按照S2
‑
1中内容纲要的构建方法分别构建该档案的第一内容纲要和第二内容纲要；按照S2
‑
2中档案样本的采集方法构建该档案的第一样本和第二样本。5.如权利要求3所述的一种数字档案自动分类方法，其特征在于,还包括S2
‑
3：将采集的档案样本以三个文本文件进行存储且每个文件中样本不重复，三个文本文件分别表示训练样本、验证样本和测试样本，其中训练样本、验证样本和测试样本的比例为6:3:1，形成数字档案样本库。6.如权利要求1所述的一种数字档案自动分类方法，其特征在于,所述S3中，数字档案分类BERT模型训练参数包括样本批量为36、迭代次数为5、学习率为0.015。7.如权利要求1所述的一种数字档案自动分类方法，其特征在于,所述S4包括以下步骤：S4
‑
1:提取待分类数字档案的标题和描述字段，...

【专利技术属性】
技术研发人员：罗再谦，向煜，黄志，华媛媛，韩熙，刘寓，张俊，刘颖，徐艇伟，朱勃，张彦，曹欣，李兵，钟敏，罗书军，
申请(专利权)人：重庆数字城市科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人