一种聚合文件主题识别与归类系统技术方案

技术编号:38088268 阅读:12 留言:0更新日期:2023-07-06 08:57
本发明专利技术提供了一种聚合文件主题识别与归类系统,所述系统包括:目录树、处理器和存储有计算机程序的存储器,所述目录树的子目录是与子目录对应的子目录主题,当所述处理器执行计算机程序时,实现如下步骤:获取聚类文件并对所述聚类文件进行拆分,获取单页文件列表;对单页文件进行页主题检测,获取单页文件的页主题;基于单页文件的页主题和所有的子目录主题,将单页文件映射到目录树对应的子目录,实现了聚合文件按照单页文件的主题自动归类到相应的子目录,提高了聚合文件的归类效率。提高了聚合文件的归类效率。提高了聚合文件的归类效率。

【技术实现步骤摘要】
一种聚合文件主题识别与归类系统


[0001]本专利技术涉及分布式文件系统领域,特别是涉及一种聚合文件主题识别与归类系统。

技术介绍

[0002]文件系统中,聚合文件是将多个小文件聚合到一个对象中。然而,聚合文件也仅仅只是将多个小文件(多个小文件的格式可以不同,例如word格式、图片格式、PDF格式等等)简单的保存或聚合在一起,其保存方式和/或聚合方式通常不能满足人们对其归类的需求。现有技术中,人们通常采用人工的方式来对聚合的文件先拆分,然后结合阅读的内容手动调整小文件的位置,显然这种通过人工的方式来归类聚合文件消耗了较多的时间资源,因此,如何快速对聚合文件进行归类,是本领域技术人员急需要解决的技术问题。

技术实现思路

[0003]针对上述技术问题,本专利技术采用的技术方案为:一种聚合文件主题识别与归类系统,所述系统包括:目录树、处理器和存储有计算机程序的存储器,其中,所述目录树的子目录是与子目录对应的子目录主题,当所述处理器执行计算机程序时,实现如下步骤:S100,获取聚类文件,且对所述聚类文件进行拆分,获取单页文件列表A={A1,A2,

,A
i


,A
m
},A
i
是第i个单页文件,i的取值范围是1到m,m是单页文件的数量。
[0004]S200,对A
i
进行页主题检测,获取A
i
的页主题。
[0005]S300,基于A
i
的页主题和所有的子目录主题,将A
i
映射到目录树对应的子目录。
[0006]本专利技术至少具有以下有益效果:专利技术提供了一种聚合文件主题识别与归类系统,用于将聚合文件进行拆分,获取单页文件的页主题,并基于单页文件的页主题,将单页文件映射到目录树对应的子目录上,实现了聚合文件按照单页文件的页主题自动归类到相应目录树上,相较于现有技术中只能对图片进行检测,本专利技术还可以对pdf等格式的文件进行快速拆分归类,使用范围更广、更便捷。
附图说明
[0007]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0008]图1为本专利技术实施例提供的一种聚合文件主题识别与归类系统执行计算机程序时的流程图。
具体实施方式
[0009]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完
整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0010]本专利技术实施例提供了一种聚合文件主题识别与归类系统,所述系统包括:目录树、处理器和存储有计算机程序的存储器,其中,所述目录树的子目录是与子目录对应的子目录主题,当所述处理器执行计算机程序时,实现如下步骤:S100,获取聚类文件,且对所述聚类文件进行拆分,获取单页文件列表A={A1,A2,

,A
i


,A
m
},A
i
是第i个单页文件,i的取值范围是1到m,m是单页文件的数量。
[0011]具体的,本专利技术中的聚合文件是包含了一个或多个主题的文件,例如,本专利技术中,聚合文件可以为案件卷宗,所述案件卷宗包括了多个关系表的数据,例如受案登记表、立案决定书、拘留证、拘留通知书、传唤证等。
[0012]S200,对A
i
进行页主题检测,获取A
i
的页主题。
[0013]S300,基于A
i
的页主题和所有的子目录主题,将A
i
映射到目录树对应的子目录。
[0014]具体的,本领域技术人员知晓,现有技术中任何一种将单页文件映射到目录树的子目录的方法均属于本专利技术保护范围,此处不再赘述。
[0015]基于上述,本专利技术提供了一种聚合文件主题识别与归类系统,用于将聚合文件进行拆分,获取单页文件的页主题,并基于单页文件的页主题,将单页文件映射到目录树对应的子目录上,实现了聚合文件按照单页文件的页主题自动归类到相应目录树上,相较于现有技术中只能对图片进行检测,本专利技术还可以对pdf等格式的文件进行快速拆分归类,使用范围更广、更便捷。
[0016]具体的,S200具体使用目标主题检测方法获取A
i
的页主题:S210,基于预设主题检测模型获取A
i
对应的主题检测框列表B
i
={B
i1
,B
i2


,B
ij


,B
in
},其中,所述预设主题检测模型用于以框的形式获取A
i
对应的主题,所述主题检测框是单页文件A
i
的标题对应的文本框,B
ij
是A
i
的第j个主题检测框,j的取值范围是1到n,n是A
i
的主题检测框的数量。
[0017]具体的,预设主题检测模型是YOLOv5模型。
[0018]进一步的,在使用YOLOv5获取A
i
对应的主题检测框之前,还包括,对YOLOv5进行训练,本领域技术人员知晓,使用训练用单页文件输入YOLOv5模型,输出训练用主题检测框,通过减小训练主题检测框和训练用目标主题主题框的损失函数到第一预设损失阈值,从而达到训练YOLOv5模型的目的。
[0019]S220,获取A
i
对应的通用文本框列表C
i
={C
i1
,C
i2


,C
ir


,C
is
},A
i
对应的第r个通用文本框C
ir
是包含有A
i
的第r行内所有文本的文本框,r的取值范围是1到s,s是A
i
对应的通用文本框的数量。
[0020]具体的,使用OCR文本检测模型对A
i
进行检测,获取A
i
对应的通用文本框列表。
[0021]进一步的,在使用OCR文本检测模型对A
i
进行通用文本框检测前,还包括:对OCR文本检测模型进行训练,本领域技术人员知晓,使用训练用单页文件输入OCR文本检测模型,输出训练用通用文本框,通过减小训练通用文本框和训练用目标通用文本框的损失函数到第二预设损失阈值,从而达到训练OCR文本检测模型的目的。
[0022]其中,所述第一预设损失阈值和第二预设损本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种聚合文件主题识别与归类系统,其特征在于,所述系统包括:目录树、处理器和存储有计算机程序的存储器,其中,所述目录树的子目录是与子目录对应的子目录主题,当所述处理器执行计算机程序时,实现如下步骤:S100,获取聚类文件,且对所述聚类文件进行拆分,获取单页文件列表A={A1,A2,

,A
i


,A
m
},A
i
是第i个单页文件,i的取值范围是1到m,m是单页文件的数量;S200,对A
i
进行页主题检测,获取A
i
的页主题;S300,基于A
i
的页主题和所有的子目录主题,将A
i
映射到目录树对应的子目录。2.根据权利要求1所述的聚合文件主题识别与归类系统,其特征在于,S200具体使用目标主题检测方法获取A
i
的页主题:S210,基于预设主题检测模型获取A
i
对应的主题检测框列表B
i
={B
i1
,B
i2


,B
ij


,B
in
},其中,所述预设主题检测模型用于以框的形式获取A
i
对应的主题,所述主题检测框是单页文件A
i
的标题对应的文本框,B
ij
是A
i
的第j个主题检测框,j的取值范围是1到n,n是A
i
的主题检测框的数量;S220,获取A
i
对应的通用文本框列表C
i
={C
i1
,C
i2


,C
ir


,C
is
},A
i
对应的第r个通用文本框C
ir
是包含有A
i
的第r行内所有文本的文本框,r的取值范围是1到s,s是A
i
对应的通用文本框的数量;S230,获取B
ij
和C
ir
的重合部分的面积E
ijr
,且获取重合面积比值V=E
ijr
/(E
ij
+F
ir

E
ijr
),其中,E
ij
是B
ij
的面积,F
ir
是C
ir
的面积;S240,当V>V0时,认定B
ij
是A
i
的目标主题检测框,且对B
ij
进行文字识别,从而获取A
i
对应的页主题,其中,V0是预设重合度阈值。3.根据权利要求2所述的聚合文件主题识别与归类系统,其特征在于,预设重合度阈值V0通过如下步骤获取:S241,初始化V0=V
d
,V
d
是初始重合度阈值;S242,获取验证单页文件集中待验证主题与真实主题相同的单页文件在所述验证单页文件集中的占比R,其中,验证单页文件集中每个单页文件的待验证主题通过所述目标主题检测方法获取;S243,当R>R0,将V
d
记为V0...

【专利技术属性】
技术研发人员:王全修倪培峰张炜琛赵洲洋于伟靳雯石江枫殷海涛吴凡
申请(专利权)人:北京睿企信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1