基于人工智能的电子档案分类方法、装置及电子设备制造方法及图纸

技术编号:36863780 阅读:13 留言:0更新日期:2023-03-15 18:48
本发明专利技术提供了一种基于人工智能的电子档案分类方法、装置及电子设备,在进行电子档案分类时,先对待分类的目标电子档案数据进行向量化处理,得到目标特征数据,再将目标特征数据输入训练后的档案分类模型,得到目标电子档案数据对应的分类结果,其中,档案分类模型是基于目标样本数据集和预先建立的综合损失函数训练得到的。由于目标样本数据集是基于特征的信息熵大小进行特征筛选得到的,综合损失函数由档案分类模型中的分类器对应的第一损失函数、预先构建的后验概率校准模块对应的第二损失函数和预先构建的负例监督模块对应的第三损失函数构成,因此本发明专利技术实现了电子档案的高精度、高效率的分类管理。高效率的分类管理。高效率的分类管理。

【技术实现步骤摘要】
基于人工智能的电子档案分类方法、装置及电子设备


[0001]本专利技术涉及人工智能
,尤其是涉及一种基于人工智能的电子档案分类方法、装置及电子设备。

技术介绍

[0002]在数字时代背景下,企业档案数据增长快、体量大。档案是记录个人、公司、国家机关以及各类集团组织的重要文件,在生产、生活及社会活动中具有关键性的地位。当前社会已经进入云计算时代,在这个背景下,档案由传统的纸质版本转变成电子版,当前大多数档案均采用云存储方式保管,形成存储在数据库中的电子档案,以此保障档案资源调取的便捷性、灵活性和全面性。然而,根据档案的形式、性质、载体、所有制等,可以将档案分为多种类别,在存储电子档案时,却存在档案类别不清晰的问题,影响档案收录。为充分发挥企业档案数据的资产价值,使其能够准确、清晰地反映业务经营成果,进而推动企业高质量发展,企业在业务经营管理过程中,就需要深入开展档案数据管理,对档案数据分类管理模式做进一步的研究。因此,电子档案资源分类已成为时下研究热点问题。
[0003]然而现有的档案分类管理方法,通常难以解决数据量大、数据冗余、分类精度低、人工复检效率低等问题。

技术实现思路

[0004]本专利技术的目的在于提供一种基于人工智能的电子档案分类方法、装置及电子设备,以实现电子档案的高精度、高效率的分类管理。
[0005]第一方面,本专利技术实施例提供了一种基于人工智能的电子档案分类方法,包括:对待分类的目标电子档案数据进行向量化处理,得到目标特征数据;将所述目标特征数据输入训练后的档案分类模型,得到所述目标电子档案数据对应的分类结果;其中,所述档案分类模型是基于目标样本数据集和预先建立的综合损失函数训练得到的,所述目标样本数据集是基于特征的信息熵大小进行特征筛选得到的,所述综合损失函数由所述档案分类模型中的分类器对应的第一损失函数、预先构建的后验概率校准模块对应的第二损失函数和预先构建的负例监督模块对应的第三损失函数构成,所述第二损失函数用于表征所述分类器输出的预测后验概率与对应的经验后验概率之间的差异性,所述第三损失函数用于表征不同类别标签的样本之间的相似性。
[0006]进一步地,所述对待分类的目标电子档案数据进行向量化处理,得到目标特征数据,包括:采用TF

IDF算法对所述目标电子档案数据进行向量化处理,得到目标特征数据。
[0007]进一步地,在所述将所述目标特征数据输入训练后的档案分类模型,得到所述目标电子档案数据对应的分类结果之前,所述基于人工智能的电子档案分类方法还包括:获取带有类别标签的电子档案数据集;
对所述电子档案数据集进行向量化处理,得到原始样本数据集;其中,所述原始样本数据集包括多个原始样本及其类别标签,每个所述原始样本包括多个特征;对所述原始样本数据集进行数据扩增,得到中间样本数据集;基于特征的信息熵大小,对所述中间样本数据集中的各个特征进行特征筛选,得到目标样本数据集,所述目标样本数据集中的特征的信息熵较大;基于所述目标样本数据集和所述综合损失函数,对初始的档案分类模型进行训练,得到训练后的档案分类模型。
[0008]进一步地,所述对所述原始样本数据集进行数据扩增,得到中间样本数据集,包括:对所述原始样本数据集中的各个少数类样本进行数据重采样,得到多个同类新样本;其中,所述少数类样本为所属类别标签对应的样本数量较小的原始样本;基于所述原始样本数据集和各个所述同类新样本,采用加权求和方式构建得到多个虚拟新样本;将所述原始样本数据集、各个所述同类新样本和各个所述虚拟新样本构成的数据集合作为中间样本数据集。
[0009]进一步地,所述对所述原始样本数据集中的各个少数类样本进行数据重采样,得到多个同类新样本,包括:获取所述原始样本数据集中的各个少数类样本;对于每个所述少数类样本,获取与该少数类样本同一类别标签的预设数量个近邻样本;通过在该少数类样本与随机选择的一个所述近邻样本之间进行线性差值,生成初始新样本;基于所述初始新样本中各个特征的特征方差,对所述初始新样本进行优化,得到同类新样本。
[0010]进一步地,所述基于特征的信息熵大小,对所述中间样本数据集中的各个特征进行特征筛选,得到目标样本数据集,包括:计算得到所述中间样本数据集中的每个特征的信息熵;基于每个所述特征的信息熵和多目标优化算法,对所述中间样本数据集中的各个特征进行特征筛选,得到目标样本数据集。
[0011]进一步地,所述档案分类模型包括与所述分类器连接的特征提取模块,所述特征提取模块包括卷积神经网络和池化网络,所述卷积神经网络包括多个卷积窗口尺寸,所述池化网络包括多个池化核权重。
[0012]第二方面,本专利技术实施例还提供了一种基于人工智能的电子档案分类装置,包括:处理模块,用于对待分类的目标电子档案数据进行向量化处理,得到目标特征数据;分类模块,用于将所述目标特征数据输入训练后的档案分类模型,得到所述目标电子档案数据对应的分类结果;其中,所述档案分类模型是基于目标样本数据集和预先建立的综合损失函数训练得到的,所述目标样本数据集是基于特征的信息熵大小进行特征筛选得到的,所述综合损
失函数由所述档案分类模型中的分类器对应的第一损失函数、预先构建的后验概率校准模块对应的第二损失函数和预先构建的负例监督模块对应的第三损失函数构成,所述第二损失函数用于表征所述分类器输出的预测后验概率与对应的经验后验概率之间的差异性,所述第三损失函数用于表征不同类别标签的样本之间的相似性。
[0013]进一步地,所述基于人工智能的电子档案分类装置还包括训练模块,所述训练模块包括:数据获取单元,用于获取带有类别标签的电子档案数据集;向量化处理单元,用于对所述电子档案数据集进行向量化处理,得到原始样本数据集;其中,所述原始样本数据集包括多个原始样本及其类别标签,每个所述原始样本包括多个特征;数据扩增单元,用于对所述原始样本数据集进行数据扩增,得到中间样本数据集;特征筛选单元,用于基于特征的信息熵大小,对所述中间样本数据集中的各个特征进行特征筛选,得到目标样本数据集,所述目标样本数据集中的特征的信息熵较大;模型训练单元,用于基于所述目标样本数据集和所述综合损失函数,对初始的档案分类模型进行训练,得到训练后的档案分类模型。
[0014]第三方面,本专利技术实施例还提供了一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面的基于人工智能的电子档案分类方法。
[0015]本专利技术实施例提供的基于人工智能的电子档案分类方法、装置及电子设备,在进行电子档案分类时,先对待分类的目标电子档案数据进行向量化处理,得到目标特征数据,再将目标特征数据输入训练后的档案分类模型,得到目标电子档案数据对应的分类结果,其中,档案分类模型是基于目标样本数据集和预先建立的综合损失函数训练得到的。由于目标样本数据集是基于特征的信息熵大小进行特征筛选得到的,因此本专利技术实施例实现了数据降维,且能够充分考虑多方面因素,实现特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的电子档案分类方法,其特征在于,包括:对待分类的目标电子档案数据进行向量化处理,得到目标特征数据;将所述目标特征数据输入训练后的档案分类模型,得到所述目标电子档案数据对应的分类结果;其中,所述档案分类模型是基于目标样本数据集和预先建立的综合损失函数训练得到的,所述目标样本数据集是基于特征的信息熵大小进行特征筛选得到的,所述综合损失函数由所述档案分类模型中的分类器对应的第一损失函数、预先构建的后验概率校准模块对应的第二损失函数和预先构建的负例监督模块对应的第三损失函数构成,所述第二损失函数用于表征所述分类器输出的预测后验概率与对应的经验后验概率之间的差异性,所述第三损失函数用于表征不同类别标签的样本之间的相似性。2.根据权利要求1所述的基于人工智能的电子档案分类方法,其特征在于,所述对待分类的目标电子档案数据进行向量化处理,得到目标特征数据,包括:采用TF

IDF算法对所述目标电子档案数据进行向量化处理,得到目标特征数据。3.根据权利要求1所述的基于人工智能的电子档案分类方法,其特征在于,在所述将所述目标特征数据输入训练后的档案分类模型,得到所述目标电子档案数据对应的分类结果之前,所述基于人工智能的电子档案分类方法还包括:获取带有类别标签的电子档案数据集;对所述电子档案数据集进行向量化处理,得到原始样本数据集;其中,所述原始样本数据集包括多个原始样本及其类别标签,每个所述原始样本包括多个特征;对所述原始样本数据集进行数据扩增,得到中间样本数据集;基于特征的信息熵大小,对所述中间样本数据集中的各个特征进行特征筛选,得到目标样本数据集,所述目标样本数据集中的特征的信息熵较大;基于所述目标样本数据集和所述综合损失函数,对初始的档案分类模型进行训练,得到训练后的档案分类模型。4.根据权利要求3所述的基于人工智能的电子档案分类方法,其特征在于,所述对所述原始样本数据集进行数据扩增,得到中间样本数据集,包括:对所述原始样本数据集中的各个少数类样本进行数据重采样,得到多个同类新样本;其中,所述少数类样本为所属类别标签对应的样本数量较小的原始样本;基于所述原始样本数据集和各个所述同类新样本,采用加权求和方式构建得到多个虚拟新样本;将所述原始样本数据集、各个所述同类新样本和各个所述虚拟新样本构成的数据集合作为中间样本数据集。5.根据权利要求4所述的基于人工智能的电子档案分类方法,其特征在于,所述对所述原始样本数据集中的各个少数类样本进行数据重采样,得到多个同类新样本,包括:获取所述原始样本数据集中的各个少数类样本;对于每个所述少数类样本,获取与该少数类样本同一类别标签的预设数量个近邻样本;通过在该少数类样本与随机选择的一...

【专利技术属性】
技术研发人员:李莹陶媛尹旭王玉增续敏王玉石李睿朱运恒
申请(专利权)人:山东能源数智云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1