一种数字档案自动分类方法技术

技术编号:30705863 阅读:16 留言:0更新日期:2021-11-06 09:51
本发明专利技术公开一种数字档案自动分类方法,具体包括以下步骤:S1:确定现有的数字档案的各级分类并标记对应的编码,建立各级分类之间的双向映射关系;S2:获取每个现有数字档案的内容纲要、分类、编码,从而建立数字档案样本库;S3:根据S2中建立的数字档案样本库进行数字档案分类BERT模型训练;S4:使用S3中训练完成的数字档案分类BERT模型进行数字档案的自动分类。通过对现有数字档案进行分类和编码并利用BERT模型预训练,从而完成对待分类的数字档案的自动分类,提高了数字档案分类效率。提高了数字档案分类效率。提高了数字档案分类效率。

【技术实现步骤摘要】
一种数字档案自动分类方法


[0001]本专利技术涉及数字分类
,特别涉及一种数字档案自动分类方法。

技术介绍

[0002]随着信息技术的快速发展,档案载体从纸张档案到数字档案转变,使得数字档案的数量成指数级增长,数字化档案管理系统不断涌现。近年来,人工智能技术的不断成熟也使得数字档案管理系统更加智能、高效。
[0003]其中,数字档案的分类是数字档案管理的核心,合适、准确地分类对数字档案的检索、借阅、分析起着举足轻重的作用。BERT(Bidirectional Encoder Representations from Transformers)是近年来在神经语言程序学NLP(Neuro

Linguistic Programming)领域的最优模型,其在句子分类、实体提取、问答等应用中表现优异。
[0004]然而当前数字档案的分类大多依靠档案管理人员手动进行分类,对数字档案自动分类研究较少,制约着档案数字化管理。一方面由于管理人员的知识局限容易造成分类偏差,以致分类后的档案类别标准不统一;另一方面,随着数字档案的快速增长,手动分类效率低。

技术实现思路

[0005]针对现有技术中数字档案分类效率较为低的问题,本专利技术提出一种数字档案自动分类方法,通过对现有数字档案进行分类和编码并利用BERT模型预训练,从而完成对待分类的数字档案的自动分类,提高了效率。
[0006]为了实现上述目的,本专利技术提供以下技术方案:
[0007]一种数字档案自动分类方法,具体包括以下步骤:
[0008]S1:确定现有的数字档案的各级分类并标记对应的编码,建立各级分类之间的双向映射关系;
[0009]S2:获取每个现有数字档案的内容纲要、分类、编码,从而建立数字档案样本库;
[0010]S3:根据S2中建立的数字档案样本库进行数字档案分类BERT模型训练;
[0011]S4:使用S3中训练完成的数字档案分类BERT模型进行数字档案的自动分类。
[0012]优选的,所述S1中,数字档案的分类从上级到下级依次包括一级分类、二级分类、三级分类,即二级分类为一级分类的下一级,三级分类为二级分类的下一级。
[0013]优选的,S2包括以下步骤:
[0014]S2

1:从已有档案中获取档案标题和描述字段,并将同一档案的标题与描述字段用“|”进行连接构建内容纲要;
[0015]S2

2:从已有档案中获取档案分类及对应的编码,再将内容纲要与档案分类编码以“*”进行连接,完成档案样本采集。
[0016]优选的,若档案长度超过最大限定长度L,则将该档案在L处分隔,分别形成该档案的第一描述和第二描述;按照S2

1中内容纲要的构建方法分别构建该档案的第一内容纲要
和第二内容纲要;按照S2

2中档案样本的采集方法构建该档案的第一样本和第二样本。
[0017]优选的,还包括S2

3:
[0018]将采集的档案样本以三个文本文件进行存储且每个文件中样本不重复,三个文本文件分别表示训练样本、验证样本和测试样本,其中训练样本、验证样本和测试样本的比例为6:3:1,形成数字档案样本库。
[0019]优选的,所述S3中,数字档案分类BERT模型训练参数包括样本批量为36、迭代次数为5、学习率为0.015。
[0020]优选的,所述S4包括以下步骤:
[0021]S4

1:提取待分类数字档案的标题和描述字段,使用“|”将标题和描述字段连接形成内容纲要,将内容纲要输入数字档案分类BERT模型,从而输出推断结果<Code,P>,其中Code为数字档案分类的编码,P为推断该编码的概率;
[0022]S4

2:根据S1中分段和编码之间的双向映射关系,确定数字档案对应的分类。
[0023]优选的,若P≥Pmin,Pmin表示推断该编码的概率的阈值,则表示数字档案分类BERT模型输出的编码为code,从而确定分类;若P<Pmin,则指定为“其它”。
[0024]优选的,当待分类数字档案的长度超过L时,则数字档案分类BERT模型将输出第一推断<code1,P1>,第二推断<code2,P2>,其中code1、code2分别表示该数字档案第一推断分类编码、第二推断分类编码,p1、p2分别表示该数字档案第一推断编码的概率、第二推断编码的概率,则待分类数字档案的编码为:
[0025]若code1等于code2,且P1,P2均大于或等于Pmin,则该分类编码为code1或code2;
[0026]若code1等于code2,且P1,P2均小于Pmin,则该分类编码为“其它”;
[0027]若code1等于code2,且P1大于或等于Pmin,P2小于Pmin,则该分类编码为code1;
[0028]若code1等于code2,且P2大于或等于Pmin,P1小于Pmin,则该分类编码为code2;
[0029]若code1不等于code2,且P1,P2均大于或等于Pmin,P1≠P2,则取P1,P2较大者对应的编码为该数字档案分类编码;
[0030]若code1不等于code2,且P1,P2均大于或等于Pmin,P1=P2,则该数字档案分类编码为“其它”;
[0031]若code1不等于code2,且P1,P2均小于Pmin,则该分类编码为“其它”;
[0032]若code1不等于code2,且P1大于或等于Pmin,P2小于Pmin,则该分类编码为code1;
[0033]若code1不等于code2,且P2大于或等于Pmin,P1小于Pmin,则该分类编码为code2。
[0034]综上所述,由于采用了上述技术方案,与现有技术相比,本专利技术至少具有以下有益效果:
[0035]本专利技术利用BERT模型在自然语言处理方面的优势,将其运用到数字档案的自动分类,提高了数字档案分类的标准化和效率。同时为数字档案的检索、知识发现、输入输出等提供了便利和优势,进而提升了数字档案管理的智能化水平。
附图说明:
[0036]图1为根据本专利技术示例性实施例的一种数字档案自动分类方法示意图。
[0037]图2为根据本专利技术示例性实施例的数字档案的各级分类、编码的双向映射示意图。
具体实施方式
[0038]下面结合实施例及具体实施方式对本专利技术作进一步的详细描述。但不应将此理解为本专利技术上述主题的范围仅限于以下的实施例,凡基于本
技术实现思路
所实现的技术均属于本专利技术的范围。
[0039]在本专利技术的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数字档案自动分类方法,其特征在于,具体包括以下步骤:S1:确定现有的数字档案的各级分类并标记对应的编码,建立各级分类之间的双向映射关系;S2:获取每个现有数字档案的内容纲要、分类、编码,从而建立数字档案样本库;S3:根据S2中建立的数字档案样本库进行数字档案分类BERT模型训练;S4:使用S3中训练完成的数字档案分类BERT模型进行数字档案的自动分类。2.如权利要求1所述的一种数字档案自动分类方法,其特征在于,所述S1中,数字档案的分类从上级到下级依次包括一级分类、二级分类、三级分类,即二级分类为一级分类的下一级,三级分类为二级分类的下一级。3.如权利要求1所述的一种数字档案自动分类方法,其特征在于,S2包括以下步骤:S2

1:从已有档案中获取档案标题和描述字段,并将同一档案的标题与描述字段用“|”进行连接构建内容纲要;S2

2:从已有档案中获取档案分类及对应的编码,再将内容纲要与档案分类编码以“*”进行连接,完成档案样本采集。4.如权利要求3所述的一种数字档案自动分类方法,其特征在于,若档案长度超过最大限定长度L,则将该档案在L处分隔,分别形成该档案的第一描述和第二描述;按照S2

1中内容纲要的构建方法分别构建该档案的第一内容纲要和第二内容纲要;按照S2

2中档案样本的采集方法构建该档案的第一样本和第二样本。5.如权利要求3所述的一种数字档案自动分类方法,其特征在于,还包括S2

3:将采集的档案样本以三个文本文件进行存储且每个文件中样本不重复,三个文本文件分别表示训练样本、验证样本和测试样本,其中训练样本、验证样本和测试样本的比例为6:3:1,形成数字档案样本库。6.如权利要求1所述的一种数字档案自动分类方法,其特征在于,所述S3中,数字档案分类BERT模型训练参数包括样本批量为36、迭代次数为5、学习率为0.015。7.如权利要求1所述的一种数字档案自动分类方法,其特征在于,所述S4包括以下步骤:S4

1:提取待分类数字档案的标题和描述字段,...

【专利技术属性】
技术研发人员:罗再谦向煜黄志华媛媛韩熙刘寓张俊刘颖徐艇伟朱勃张彦曹欣李兵钟敏罗书军
申请(专利权)人:重庆数字城市科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1