【技术实现步骤摘要】
本专利技术涉及一种分类系统及方法,尤其涉及一种文件分类系统及方法。
技术介绍
现有的文件分类大多采用一维分类方法,例如,针对
进行分类,或针对产品结构进行分类。随着信息的蓬勃发展,信息与信息间的关系越益错综复杂,例如一批专利数据,可以用产品结构分类也可以用
分类,但更多的时候人们需要同时知道这批专利同时用产品结构和
两个维度对应的分类,进而做更深入的分析。因此,目前单纯的一维分类无法满足文件数据更高的分析需求。
技术实现思路
鉴于以上内容,有必要提供一种文件分类系统及方法,其可利用潜在语义分析技术对文件进行多维多阶分类,让使用者在文件分类时弹性地扩大或缩小分类的维度和阶层。一种文件分类系统,应用于电子装置,该系统包括:资料获取模块,用于获取指定的文件集及多维多阶分类描述;文件分类模块,用于根据多维多阶分类描述中每个分类与文件集中每篇文件的相似度,对每篇文件进行多维多阶分类;结果输出模块,用于当所有文件分类完毕时,在电子装置的显示设备上输出每篇文件在各维度各阶层的分类。一种文件分类方法,应用于电子装置,该方法包括:资料获取步骤,获取指定的文件集及多维多阶分类描述;文件分类步骤,根据多维多阶分类描述中每个分类与文件集中每篇文件的相似度,对每篇文件进行多维多阶分类;结果输出步骤,当所有文件分类完毕时,在电子装置的显示设备上输出每篇文件在各维度
【技术保护点】
一种文件分类系统,应用于电子装置,其特征在于,该系统包括:资料获取模块,用于获取指定的文件集及多维多阶分类描述;文件分类模块,用于根据多维多阶分类描述中每个分类与文件集中每篇文件的相似度,对每篇文件进行多维多阶分类;及结果输出模块,用于当所有文件分类完毕时,在电子装置的显示设备上输出每篇文件在各维度各阶层的分类。
【技术特征摘要】
1.一种文件分类系统,应用于电子装置,其特征在于,该系统包
括:
资料获取模块,用于获取指定的文件集及多维多阶分类描述;
文件分类模块,用于根据多维多阶分类描述中每个分类与文件集
中每篇文件的相似度,对每篇文件进行多维多阶分类;及
结果输出模块,用于当所有文件分类完毕时,在电子装置的显示
设备上输出每篇文件在各维度各阶层的分类。
2.如权利要求1所述的文件分类系统,其特征在于,所述文件分
类模块对每篇文件进行多维多阶分类包括:
提取该文件集的核心词汇与多维多阶分类描述的核心词汇;
根据提取的核心词汇组成词文矩阵,对该词文矩阵做降阶处理得
到一个概念矩阵;
将多维多阶分类描述的核心词汇转换成概念矩阵中的分类描述向
量,同时获取每篇文件在概念矩阵中的文件向量;
根据分类描述向量与文件向量的相似度,对每篇文件进行多维多
阶分类。
3.如权利要求2所述的文件分类系统,其特征在于,所述文件分
类模块根据分类描述向量与文件向量的相似度,对每篇文件进行多维
多阶分类包括:
将多维多阶分类描述拆成多个单维多阶分类;
将单维多阶分类描述拆成单维单阶分类描述;
依次获取文件集中每个文件的文件向量,计算每个单维单阶的分
类描述在概念矩阵中的向量与该文件向量的相似度;
若当前分类描述在概念矩阵中的向量与当前文件向量的相似度大
于预设值,则将当前文件加入当前分类。
4.如权利要求3所述的文件分类系统,其特征在于,所述当前分
类描述在概念矩阵中的向量与当前文件向量的相似度为当前分类描述
在概念矩阵中的向量与当前文件向量的夹角的余弦值。
5.如权利要求3所述的文件分类系统,其特征在于,所述文件分
类模块还用于:
如果当前分类包含子分类,则继续计算每个子分类描述在概念矩
阵中的向量与当前文件向量的相似度;
若当前子分类描述在概念矩阵中的向量与当前文件向量的相似度
大于预设值,则更新当前文件的分类,将当前文件加入当前子分类。
6.如权利要求1所述的文件分类系统,其特征在于,所述每篇文
件在各维度各阶层的分类通过一个文件分类表...
【专利技术属性】
技术研发人员:李忠一,柳岳岑,卢俊锜,
申请(专利权)人:鸿富锦精密工业深圳有限公司,鸿海精密工业股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。