【技术实现步骤摘要】
一种聚合文件主题识别与归类系统
[0001]本专利技术涉及分布式文件系统领域,特别是涉及一种聚合文件主题识别与归类系统。
技术介绍
[0002]文件系统中,聚合文件是将多个小文件聚合到一个对象中。然而,聚合文件也仅仅只是将多个小文件(多个小文件的格式可以不同,例如word格式、图片格式、PDF格式等等)简单的保存或聚合在一起,其保存方式和/或聚合方式通常不能满足人们对其归类的需求。现有技术中,人们通常采用人工的方式来对聚合的文件先拆分,然后结合阅读的内容手动调整小文件的位置,显然这种通过人工的方式来归类聚合文件消耗了较多的时间资源,因此,如何快速对聚合文件进行归类,是本领域技术人员急需要解决的技术问题。
技术实现思路
[0003]针对上述技术问题,本专利技术采用的技术方案为:一种聚合文件主题识别与归类系统,所述系统包括:目录树、处理器和存储有计算机程序的存储器,其中,所述目录树的子目录是与子目录对应的子目录主题,当所述处理器执行计算机程序时,实现如下步骤:S100,获取聚类文件,且对所述聚类文件进行拆分,获取单页文件列表A={A1,A2,
…
,A
i
,
…
,A
m
},A
i
是第i个单页文件,i的取值范围是1到m,m是单页文件的数量。
[0004]S200,对A
i
进行页主题检测,获取A
i
的页主题。
[0005]S300,基于A
i
的页主题和所 ...
【技术保护点】
【技术特征摘要】
1.一种聚合文件主题识别与归类系统,其特征在于,所述系统包括:目录树、处理器和存储有计算机程序的存储器,其中,所述目录树的子目录是与子目录对应的子目录主题,当所述处理器执行计算机程序时,实现如下步骤:S100,获取聚类文件,且对所述聚类文件进行拆分,获取单页文件列表A={A1,A2,
…
,A
i
,
…
,A
m
},A
i
是第i个单页文件,i的取值范围是1到m,m是单页文件的数量;S200,对A
i
进行页主题检测,获取A
i
的页主题;S300,基于A
i
的页主题和所有的子目录主题,将A
i
映射到目录树对应的子目录。2.根据权利要求1所述的聚合文件主题识别与归类系统,其特征在于,S200具体使用目标主题检测方法获取A
i
的页主题:S210,基于预设主题检测模型获取A
i
对应的主题检测框列表B
i
={B
i1
,B
i2
,
…
,B
ij
,
…
,B
in
},其中,所述预设主题检测模型用于以框的形式获取A
i
对应的主题,所述主题检测框是单页文件A
i
的标题对应的文本框,B
ij
是A
i
的第j个主题检测框,j的取值范围是1到n,n是A
i
的主题检测框的数量;S220,获取A
i
对应的通用文本框列表C
i
={C
i1
,C
i2
,
…
,C
ir
,
…
,C
is
},A
i
对应的第r个通用文本框C
ir
是包含有A
i
的第r行内所有文本的文本框,r的取值范围是1到s,s是A
i
对应的通用文本框的数量;S230,获取B
ij
和C
ir
的重合部分的面积E
ijr
,且获取重合面积比值V=E
ijr
/(E
ij
+F
ir
‑
E
ijr
),其中,E
ij
是B
ij
的面积,F
ir
是C
ir
的面积;S240,当V>V0时,认定B
ij
是A
i
的目标主题检测框,且对B
ij
进行文字识别,从而获取A
i
对应的页主题,其中,V0是预设重合度阈值。3.根据权利要求2所述的聚合文件主题识别与归类系统,其特征在于,预设重合度阈值V0通过如下步骤获取:S241,初始化V0=V
d
,V
d
是初始重合度阈值;S242,获取验证单页文件集中待验证主题与真实主题相同的单页文件在所述验证单页文件集中的占比R,其中,验证单页文件集中每个单页文件的待验证主题通过所述目标主题检测方法获取;S243,当R>R0,将V
d
记为V0...
【专利技术属性】
技术研发人员:王全修,倪培峰,张炜琛,赵洲洋,于伟,靳雯,石江枫,殷海涛,吴凡,
申请(专利权)人:北京睿企信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。