基于深度学习的电子文件分类方法、系统及可读存储介质技术方案

技术编号:38747498 阅读:9 留言:0更新日期:2023-09-08 23:28
本发明专利技术公开了基于深度学习的电子文件分类方法、系统及可读存储介质,属于文件管理技术领域。为解决对文件进行处理时仅依靠临时与否进行分类容易造成文件误删漏删的问题,通过文件特征提取可以对各种不同类型的文件具体内容进行特征提取,可以丰富了对待处理的电子文件的分类种类,提高对电子文件处理的准确性,通过分类模型训练可以让文件分类模型学习到输入数据本身的结构,从而可以得到比输入数据更具有表现能力的特征,继而使得在电子文件分类时可以对文件进行更加深层的特征分析分类,从而提高对文件的分类效果和准确度,可以根据对不同内容的文件的需求进行不同的操作,提高对文件整体的处理效果,保证处理需求实现的稳定性和准确性。的稳定性和准确性。的稳定性和准确性。

【技术实现步骤摘要】
基于深度学习的电子文件分类方法、系统及可读存储介质


[0001]本专利技术涉及文件管理
,特别涉及基于深度学习的电子文件分类方法、系统及可读存储介质。

技术介绍

[0002]随着台式机或笔记本电脑长时间的使用,用户基本都会面临以下问题:电脑运转逐渐卡顿,由于存储文件的长期积累,内存或硬盘存储的文件量逐渐增加,应用系统在运行时,会越来越卡顿。
[0003]在对电子文件进行处理时,往往根据其不同的类别有不同的处理需求,已有相关专利,比如公开号CN115981553A公开了一种文件分类管理系统、方法及可读介质。该专利提供的方案,使得对临时文件的处理更为精细化,且能够同步有效的管理临时文件和非临时文件,提高了用户对电脑文件的管理效能。
[0004]上述专利其实在实际的操作中还存在以下问题:
[0005]1、在对文件进行删除或其他处理时,往往仅根据文件的类型或者文件是否为临时文件作为标准进行操作,分类标准单一,可能存在对重要文件错删漏删的问题。
[0006]2、在对文件进行分类处理时,往往难以根据文件的内容对不同类型的文件进行相同内容主题下的整理分类,从而影响对电子文件的处理。

技术实现思路

[0007]本专利技术的目的在于提供基于深度学习的电子文件分类方法、系统及可读存储介质,以解决上述
技术介绍
中提出的问题。
[0008]为实现上述目的,本专利技术提供如下技术方案:基于深度学习的电子文件分类方法,包括以下步骤:
[0009]电子文件获取,采集获取待分类处理的电子文件并对电子文件进行基础类型分类,基于分类结果分别创建文档、图像和视频基础分类文件集;
[0010]文件特征提取,提取文档型文件集中文件的文本信息进行处理并得到关键词集合,提取图像型文件集中图片文件的文字信息及图片特征并归集生成特征集合,分帧化处理视频型文件集中的视频文件并对各帧图像进行内容识别得到内容集合;
[0011]分类模型训练,搭建文件分类模型并对模型进行深度学习训练;
[0012]电子文件分类,将电子文件中所提取出的关键词集合、特征集合以及内容集合投入文件分类模型内部进行分类处理,得到处理结果后依据处理结果对电子文件进行分类;
[0013]分类结果输出,输出电子文件分类结果;
[0014]其中,分类模型训练包括以下步骤:
[0015]搭建网络分层结构,其中;
[0016]搭建包括输入层、训练层及输出层的训练网络结构;
[0017]训练层设置有多层,各训练层仅与相邻的训练层之间连接,各训练层之间无法跨
层连接,同一训练层内部的各节点之间相互独立无连接,各训练层均视为一个逻辑回归模型;
[0018]网络训练逐层调优,其中;
[0019]采用无标签数据由训练层的底层开始逐层向最高层分别训练各层参数;
[0020]将无标签数据投入第一层进行训练,并基于训练结果得到第一层参数;
[0021]基于参数对输入的无标签数据进行数据表现力特征获取,同时对各训练层逐层进行训练,得到各层训练参数;
[0022]监督学习网络微调,其中;
[0023]基于训练参数采用有标签的数据学习训练,基于原数据与输出的数据进行比对并进行比对误差收集;
[0024]基于误差对训练网络结构进行微调。
[0025]进一步的,提取图像型文件集中图片文件的文字信息,包括:
[0026]分别对每一图片文件进行边缘检测,查找每一图片文件对应的文字矩形区域;
[0027]利用公式(1)、(2)获取文字矩形区域中每一文字对应的文字特征;
[0028][0029][0030]其中,w
i
表示文字矩形区域中第i个文字对应的书写特征,k表示文字矩形区域中文字的总数量,X表示文字矩形区域的最大宽度,Y表示文字矩形区域的长度,x表示文字矩形区域的单位宽度,y表示文字矩形区域的单位长度,α表示第一查找参数,其取值为0.1,β表示第二查找参数,其取值为0.01,h
ix
表示第i个文字在文字矩形区域中的文字宽度,h
iy
表示表示第i个文字在文字矩形区域中的文字长度;
[0031]K
i
表示文字矩形区域中第i个文字对应的文字特征,m表示文字的单位书写面积,δ表示数字文字对应的第一书写面积权重,当w
i
≤a时表示文字矩形区域中第i个文字对应的书写特征为数字特征,γ表示字母文字对应的第二书写面积权重,当a<w
i
≤b时表示文字矩形区域中第i个文字对应的书写特征为字母特征,θ表示汉子文字对应的第三书写面积权重,当w
i
≤c时表示文字矩形区域中第i个文字对应的书写特征为汉字特征;
[0032]根据公式(1)、(2)的计算结果,在文字矩形区域中标记每一文字对应的文字特征;
[0033]根据文字特征获取对应的文字识别方式进行文字识别,生成每一图片文件对应的文字信息。
[0034]进一步的,基于误差对训练网络结构进行微调,包括:
[0035]基于原数据与输出的数据的误差,确定误差的数值绝对值,以及误差方向向量;
[0036]根据训练集中是否包括所述原数据,将所述原数据划分为熟悉数据和陌生数据;
[0037]根据熟悉数据的数值绝对值与预设绝对值的差异,判断所述训练网络结构是否存在过拟合;
[0038]若是,基于误差方向向量对训练停止标准进行放宽调整,得到最新训练停止标准,基于数值绝对值与预设绝对值的差异大小,确定训练层的权重衰减系数,并利用权重衰减系数对训练层进行调整,得到目标训练层;
[0039]否则,根据陌生数据的数值绝对值与预设绝对值的差异,判断所述训练网络结构是否存在欠拟合;若是,基于误差方向向量对训练停止标准进行约束调整,得到最新训练停止标准,基于数值绝对值与预设绝对值的差异大小,确定训练层的权重调整系数,并利用权重调整系数对训练层进行调整,得到目标训练层;
[0040]基于最新训练停止标准和目标训练层对训练网络结构进行微调,得到目标训练网络结构;
[0041]当判断所述训练网络结构不存在过拟合,也不存在欠拟合时,基于数值绝对值和误差方向向量确定层节点个数微调系数,对训练层的节点个数进行微调,得到目标训练网络结构。
[0042]本申请实施例还提供基于深度学习的电子文件分类系统,包括:
[0043]文件获取单元,用于:
[0044]采集获取待分类处理的电子文件并按照文档、图像和视频的基础类型对电子文件进行基础类型分类,基于分类结果创建基础分类文件集;
[0045]特征提取单元,用于:
[0046]对文档型文件集中文件的文本信息进行处理并得到关键词集合,对图像型文件集中的图片文件进行处理并得到特征集合,对视频型文件集中的视频文件进行处理并得到内容集合;
[0047]模型训练单元,用于:<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于深度学习的电子文件分类方法,其特征在于,包括以下步骤:电子文件获取,采集获取待分类处理的电子文件并对电子文件进行基础类型分类,基于分类结果分别创建文档、图像和视频基础分类文件集;文件特征提取,提取文档型文件集中文件的文本信息进行处理并得到关键词集合,提取图像型文件集中图片文件的文字信息及图片特征并归集生成特征集合,分帧化处理视频型文件集中的视频文件并对各帧图像进行内容识别得到内容集合;分类模型训练,搭建文件分类模型并对模型进行深度学习训练;电子文件分类,将电子文件中所提取出的关键词集合、特征集合以及内容集合投入文件分类模型内部进行分类处理,得到处理结果后依据处理结果对电子文件进行分类;分类结果输出,输出电子文件分类结果;其中,分类模型训练包括以下步骤:搭建网络分层结构,其中;搭建包括输入层、训练层及输出层的训练网络结构;训练层设置有多层,各训练层仅与相邻的训练层之间连接,各训练层之间无法跨层连接,同一训练层内部的各节点之间相互独立无连接,各训练层均视为一个逻辑回归模型;网络训练逐层调优,其中;采用无标签数据由训练层的底层开始逐层向最高层分别训练各层参数;将无标签数据投入第一层进行训练,并基于训练结果得到第一层参数;基于参数对输入的无标签数据进行数据表现力特征获取,同时对各训练层逐层进行训练,得到各层训练参数;监督学习网络微调,其中;基于训练参数采用有标签的数据学习训练,基于原数据与输出的数据进行比对并进行比对误差收集;基于误差对训练网络结构进行微调。2.根据权利要求1所述的基于深度学习的电子文件分类方法,其特征在于,基于误差对训练网络结构进行微调,包括:基于原数据与输出的数据的误差,确定误差的数值绝对值,以及误差方向向量;根据训练集中是否包括所述原数据,将所述原数据划分为熟悉数据和陌生数据;根据熟悉数据的数值绝对值与预设绝对值的差异,判断所述训练网络结构是否存在过拟合;若是,基于误差方向向量对训练停止标准进行放宽调整,得到最新训练停止标准,基于数值绝对值与预设绝对值的差异大小,确定训练层的权重衰减系数,并利用权重衰减系数对训练层进行调整,得到目标训练层;否则,根据陌生数据的数值绝对值与预设绝对值的差异,判断所述训练网络结构是否存在欠拟合;若是,基于误差方向向量对训练停止标准进行约束调整,得到最新训练停止标准,基于数值绝对值与预设绝对值的差异大小,确定训练层的权重调整系数,并利用权重调整系数对训练层进行调整,得到目标训练层;基于最新训练停止标准和目标训练层对训练网络结构进行微调,得到目标训练网络结构;
当判断所述训练网络结构不存在过拟合,也不存在欠拟合时,基于数值绝对值和误差方向向量确定层节点个数微调系数,对训练层的节点个数进行微调,得到目标训练网络结构。3.基于深度学习的电子文件分类系统,应用在权利要求2所述的基于深度学习的电子文件分类方法中,其特征在于,包括:文件获取单元,用于:采集获取待分类处理的电子文件并按照文档、图像和视频的基础类型对电子文件进行基础类型分类,基于分类结果创建基础分类文件集;特征提取单元,用于:对文档型文件集中文件的文本信息进行处理并得到关键词集合,对图像型文件集中的图片文件进行处理并得到特征集合,对视频型文件集中的视频文件进行处理并得到内容集合;模型训练单元,用于:搭建并训练深度学习文件分类模型;文件分类单元,用于:通过文件分类模型对关键词集合、特征集合以及内容集合进行处理,并基于处理结果对各集合相对应的电子文件进行全局分类;结果输出单元,用于:基于文件分类单元的处理结果输出分类结果。4.如权利要求3所述的基于深度学习的电子文件分类系统,其特征在于:所述文件获取单元包括:文件采集模块,用于:对需要进行分类处理的电子文件进行采集获取;基础分类模块,用于:基于文件类型对文件采集模块所采集的电子文件进行基础文件类型分类并创建基础分类文件集,所述基础分类文件集包括文档型文件集、图像型文件集和视频型文件集。5.如权利要求3所述的基于深度学习的电子文件分类系统,其特征在于:所述特征提取单元包括:文本特征提取模块,用于:对文档型文件集中文件的文本信息进行文本读取,对所读取出的文本数据进行数据...

【专利技术属性】
技术研发人员:袁锋平王飞胡园王丽芳
申请(专利权)人:浙江档科信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1