【技术实现步骤摘要】
文件分类方法、装置、电子设备及计算机可读存储介质
[0001]本公开涉及文本分类
,尤其涉及一种文件分类方法、装置、电子设备及计算机可读存储介质。
技术介绍
[0002]随着计算机的广泛应用,人们常常使用计算机处理或者储存文件。随着时间推移,用户日积月累的文件越来越多,但是由于很多用户对文件的管理意识不够,有的文件夹中的文件特别多且混乱,文件命名不规范导致文件名混乱不堪。针对数以千计的混乱无序的文件进行分类和整理问题,传统的做法是人工进行手动分类,这种方式耗时耗力效率低下。
[0003]在实现本公开构思的过程中,专利技术人发现相关技术中至少存在如下技术问题:目前对文件进行分类和整理存在效率低下的问题。
技术实现思路
[0004]有鉴于此,本公开实施例提供了一种文件分类方法、装置、电子设备及计算机可读存储介质,以解决现有技术中,目前对文件进行分类和整理存在效率低下的问题。
[0005]本公开实施例的第一方面,提供了一种文件分类方法,包括:获取待分类的多个文件的文件目录;从所述文件目录中提取 ...
【技术保护点】
【技术特征摘要】
1.一种文件分类方法,其特征在于,包括:获取待分类的多个文件的文件目录;从所述文件目录中提取每个文件的文件名,得到多个文件对应的文件名列表;依据所述文件名列表生成多个文件簇,其中,每个文件簇包括一个或多个文件名;利用聚类算法对文件名数量小于预设阈值的文件簇进行聚类,得到一个或多个聚类簇;基于一个或多个聚类簇以及文件名数量大于等于所述预设阈值的文件簇,对多个文件进行分类。2.根据权利要求1所述的方法,其特征在于,所述依据所述文件名列表生成多个文件簇,包括:对所述文件名列表中的多个文件名进行正则化处理;利用字典序对经过所述正则化处理后的多个文件名进行排序;基于所述排序后的多个文件名,计算任意相邻的两个文件名的编辑距离和公共前缀长度;基于任意相邻的两个文件名的编辑距离和公共前缀长度,按照切分规则对所述排序后的多个文件名进行切分处理,得到多个文件簇。3.根据权利要求2所述的方法,其特征在于,所述基于任意相邻的两个文件名的编辑距离和公共前缀长度,按照切分规则对所述排序后的多个文件名进行切分处理,得到多个文件簇,包括:当任意相邻的两个文件名满足所述切分规则,将任意相邻的两个文件名切分为两个分区,其中,每个分区对应一个文件簇;所述切分规则为:L
×
T1>L
pre
dis
‑
L
pre
×
T2>L
×
T3L=min(len(D1),len(D2))其中,T1、T2和T3为预设的超参数,D1和D2为相邻两个文件的文件名,len(D1)为D1的长度,len(D2)为D2的长度,L
pre
为D1与D2的公共前缀长度,dis为D1与D2的编辑距离。4.根据权利要求1所述的方法,其特征在于,所述依据所述文件名列表生成多个文件簇之后,所述方法还包括:在接收到重新切分指令的情况下,根据所述重新切分指令确定出所述重新切分指令对应的一个或多个第一目标文件簇;对一个或多个第一目标文件簇中的多个目标文件名进行正则化处理;利用字典序对经过所述正则化处理后的多个目标文件名进行排序;基于所述排序后的多个目标文件名,计算任意相邻的两个目标文件名的编辑距离和公共前缀长度;基于任意相邻的两个目标文件名的编辑距离和公共前缀长度,按照切分规则对所...
【专利技术属性】
技术研发人员:齐盛,袁子涵,王浩宇,李蕊,
申请(专利权)人:深圳集智数字科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。